Check::BackLink - kiểm tra sự tồn tại của liên kết trong cơ sở dữ liệu liên kết
Tổng quan về công cụ cào dữ liệu

Công cụ cào dữ liệu này cho phép kiểm tra các liên kết ngược (backlinks), cụ thể là các liên kết trên các trang web trỏ về trang web của bạn.
Tính năng của A-Parser cho phép lưu các cài đặt cào dữ liệu để sử dụng sau này (presets), thiết lập lịch trình cào dữ liệu và nhiều tính năng khác.
Việc lưu kết quả có thể thực hiện theo bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ được tích hợp sẵn Template Toolkit, cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.
Các trường hợp ứng dụng công cụ cào dữ liệu
🔗 Theo dõi liên kết ngược
Kiểm tra định kỳ các liên kết ngược và ghi thêm kết quả vào bảng cơ sở dữ liệu SQLite
Dữ liệu thu thập được
- Tổng số liên kết nội bộ và liên kết ngoài trên trang
- Kiểm tra sự hiện diện của liên kết trên trang được chỉ định
0và10- nghĩa là không có sự trùng khớp chính xác của backlink1- nghĩa là có sự trùng khớp chính xác của backlink
- Chặn trang được chỉ định khỏi việc xem qua robots.txt -
0và1 - Chặn lập chỉ mục trang qua meta tag robots với thuộc tính
noindex, cũng như chặn chuyển hướng qua liên kết bằng thuộc tínhnofollow - Chặn chuyển hướng qua liên kết bằng thuộc tính
rel=nofollow
Dữ liệu bổ sung có thể nhận được:
- Số lượng liên kết nội bộ và liên kết ngoài trên trang
- Danh sách tất cả các liên kết nội bộ và liên kết ngoài trên trang
Tính năng
- Kiểm tra sự hiện diện của liên kết trên trang được chỉ định, với khả năng tìm kiếm liên kết mà không cần chỉ định giao thức (scheme) theo chuỗi khớp
- Kiểm tra xem trang có bị chặn lập chỉ mục qua robots.txt hay không
- Kiểm tra meta tag robots để tìm các thuộc tính
noindexvànofollow - Kiểm tra sự hiện diện của
rel=nofollowtrong liên kết tìm thấy - Tìm kiếm liên kết theo chuỗi khớp
- Khả năng chỉ định tiêu đề User-Agent riêng
Các phương án sử dụng
- Kiểm tra việc đặt liên kết của mình trên các trang được chỉ định
- Tìm kiếm các liên kết chỉ hiển thị cho một User-Agent nhất định (ví dụ: dành cho Google bot)
Truy vấn
Trong phần truy vấn, bạn cần chỉ định trang cần tìm liên kết và cách một khoảng trắng là liên kết cần tìm:
https://fishki.net/ https://lenta.ru/news/2020/12/18/lavina/
https://en.wikipedia.org/wiki/Moscow https://lenta.ru/news/2005/12/23/city/
http://soccerjerseys.in.net/ https://lenta.ru/news/2012/03/12/homeless/
https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/
Thay thế truy vấn
Bạn có thể sử dụng các macro tích hợp sẵn để tự động thay thế các truy vấn phụ từ tệp, ví dụ: chúng ta muốn kiểm tra các trang web/trang web theo một danh sách trang, hãy chỉ định danh sách các trang cần tìm liên kết:
https://fishki.net/
https://en.wikipedia.org/wiki/Moscow
http://soccerjerseys.in.net/
https://tjournal.ru/
Trong định dạng truy vấn, chúng ta chỉ định macro thay thế các truy vấn bổ sung từ tệp backlinks.txt, phương pháp này cho phép kiểm tra danh sách các trang web để tìm danh sách các liên kết từ tệp:
$query {subs:backlinks}
Macro này sẽ tạo ra số lượng truy vấn bổ sung tương ứng với số lượng có trong tệp cho mỗi truy vấn tìm kiếm gốc, tổng cộng sẽ là [số lượng truy vấn gốc (liên kết đến trang)] x [số lượng truy vấn trong tệp backlinks] = [tổng số truy vấn] sau khi macro hoạt động.
Bạn cũng có thể chỉ định giao thức trong định dạng truy vấn để có thể sử dụng chỉ tên miền làm truy vấn:
http://$query
Định dạng này sẽ thêm http:// vào mỗi truy vấn.
Các phương án xuất kết quả
A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả dưới dạng tùy ý, cũng như dạng có cấu trúc như CSV hoặc JSON
Xuất mặc định
Định dạng kết quả:
$backlink - $checklink: $exists, blocked by robots.txt: $robots\n
Ví dụ kết quả hiển thị backlink, liên kết đến trang nơi thực hiện tìm kiếm backlink, sự hiện diện hoặc vắng mặt của backlink, và kiểm tra trang có bị chặn trong tệp robots.txt hay không:
http://soccerjerseys.in.net/ - https://lenta.ru/news/2012/03/12/homeless/: 1, blocked by robots.txt: 0
https://tjournal.ru/ - https://lenta.ru/articles/2016/02/15/deathlab/: 0, blocked by robots.txt: 0
https://en.wikipedia.org/wiki/Moscow - https://lenta.ru/news/2005/12/23/city/: 0, blocked by robots.txt: 0
https://fishki.net/ - https://lenta.ru/news/2020/12/18/lavina/: 0, blocked by robots.txt: 0
Xuất sự hiện diện của backlink và các thông số bổ sung để phân tích backlink và trang chứa backlink vào bảng CSV
Tiện ích tích hợp $tools.CSVLine cho phép tạo các tài liệu bảng chính xác, sẵn sàng để nhập vào Excel hoặc Google Sheets.
Kết quả của biến $actualchecklink chỉ tồn tại nếu trên trang có backlink, nếu không có backlink, kết quả của biến này sẽ là none. $actualbacklink và $actualchecklink là các liên kết thực tế sau khi chuyển hướng.
Định dạng kết quả:
[% tools.CSVline(backlink, checklink, anchor, nofollow, noindex, redirect, exists, robots, actualbacklink, actualchecklink, intcount, extcount) %]
Tên tệp:
$datefile.format().csv
Văn bản bắt đầu:
Backlink,Checklink,Anchor,Nofollow,Noindex,Redirect,Exists,Robots,Actualbacklink,Actualchecklink,Intlinks count,Extlinks count
Ví dụ kết quả:
https://tjournal.ru/,https://lenta.ru/articles/2016/02/15/deathlab/,none,0,0,0,0,0,https://tjournal.ru/,none,112,37
https://fishki.net/,https://lenta.ru/news/2020/12/18/lavina/,none,0,0,0,0,0,https://fishki.net/,none,966,31
http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,"get more information",0,0,0,1,0,http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,89,20
https://en.wikipedia.org/wiki/Moscow,https://lenta.ru/news/2005/12/23/city/,none,0,0,0,0,0,https://en.wikipedia.org/wiki/Moscow,none,2733,598
...
Tải ví dụ
eJx9VE1v4jAQ/SuR1UqtRGOg6mqVG6AidUWhS9u9UA5uMgE3jp21HaBC/Pcd5xPK
7t484zdvxjNvvCeWmcQ8aTBgDQkWe5IVZxKQ+x1LMwFeuIYw8d5ZmAguE+OxKPIy
plkKFrQhHYKGcadgsSAjBw6CIaIniMbbCGKWC0uWyw5BajyasdIpcykWlzeeVUoY
f/T8C9nhKuv5daaOh0aRvLGYDNdKF0epYiWE2lYGlxHsirOGiGsIbWHAjhtrSr96
V9WRhTZn4iRP6TrNxqUNVS5rptK49m4ul6R5yjPbwIvCp8RcQOseozXFDuHFRcQs
uFs/Lp59de3bnUUo9pFbriQTZT9cA9sevUr+O3fxUiEWj5qDGWuVostCQeCcn3Uv
F+SisAlS5EXszzKGBDETBjrEYKljhoVEX284DpJZpWeZqwf9e6LkQIgJbEC0sIJ/
mHMR4bQHMQY9VIF/h8zOOA7N845TbUBvNdbQsBTWcPbYRkVqolZ1MwRPuUXbjNxA
0NtFZwKQNT2bOliqNDRprM6hSY5yz0BGCBzWGhg1kx+UGpvW+ppW2prXurovNTUv
9TQ41dLgi44epC23plTS/e7YfJOtYgZZVRL50sUTVZw6QyVjvpph/zSPoEbm8gV3
eiZHyq2va6vMhUBVGJi36hyYSgXOaDp/FjwqUmBZ9Rp3SLGwP57LUjPNUf13rsAU
B3mctaIMmRCv88nxDWkVjcba2swElMbcrBPuS7DUq30CpGW+zqmEraH9br9Le33a
+04F23DJ6JuskSD9LU94hlNivtIr6iz6qEyotv+k6945uv4tDbn9rMgQZlQYgv7A
PsOnwW/g/zUhQ/fW8axVCgKMOarKfqhc44Y7+DkB05aHGOFIvtEuPuyORsDsWrB3
SlzrLKwU7jQO9rBsPtrmt96ffbfB/oDb8mGeSqSbrcOhD0VicBVI0Dv8AQ3PGZI=
Trong Định dạng kết quả, bộ tạo mẫu Template Toolkit được áp dụng.
Trong tên tệp kết quả, bạn chỉ cần thay đổi phần mở rộng tệp thành csv.
Để tùy chọn "Prepend text" có sẵn trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "More options". Trong "Prepend text", chúng ta ghi tên các cột cách nhau bằng dấu phẩy và dòng thứ hai để trống.
Dump các liên kết ngoài từ trang backlink vào JSON
Định dạng kết quả:
[% data = {};
data.query = query; data.links = [];
FOREACH item IN extlinks;
data.links.push(item.link);
END;
IF !firstString;
",\n";
ELSE;
firstString = 0;
END;
data.json %]
Văn bản bắt đầu:
[% firstString = 1 %][
Văn bản kết thúc:
]
Ví dụ kết quả:
[{"query":"https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/","links":["https://vc.ru/job","https://vc.ru/job/new","https://vc.ru/job","https://twitter.com/aktroitsky","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://t.co/fD4AiCpbrV","https://twitter.com/aktroitsky/statuses/1382294384931188748"]}]
Xử lý kết quả
A-Parser cho phép xử lý kết quả trực tiếp trong quá trình cào dữ liệu, trong phần này chúng tôi đưa ra các trường hợp phổ biến nhất cho công cụ cào dữ liệu Check::BackLink
Lưu tên miền của các liên kết ngoài khi có backlink
Thêm bộ lọc và trong danh sách thả xuống chọn biến tin cậy $exists - Link exists. Chọn loại: String equal. Tiếp theo, trong trường String (Chuỗi), hãy nhập giá trị tương ứng với sự hiện diện của backlink là 1. Với bộ lọc này, bạn có thể xuất tất cả các kết quả có backlink.
Thêm Result Builders (Trình tạo kết quả) và trong danh sách thả xuống chọn nguồn: $p1.extlinks.$i.link - Link. Chọn loại: Extract Top Domain. Như vậy chúng ta sẽ có được tên miền từ các liên kết ngoài.

Tải ví dụ
eJx9VNtuGjEQ/RVkIaWR6C4Qpar2jdAgpSIhJeSJ5MHZHcDBa29sLxch/r0z3hsp
bd88M2fO3H1gjtu1fTRgwVkWzQ8s828WsdsdTzMJrXgF8br1xuO1FGptW7AT1tnW
6G48u52yDsu4sWDIec6GhI2iGwSPEYzWBBY8l451DsztM0DehZAODJowEFkiVjCi
pjDNChx85FyicsNlTnIP3zpzQisULCjLjg2p3oAxIgHEiISCaJNyV0ZoONqwc76K
oAB8uWhXhbW+ttq+1Eoo68QXaV5e1MUlO76+VnnbkWcg0qwXlF2rjU98AzNdVAuN
eoTSA099Kgl3QNYqlcvA7YiBJ4mgKrksIlBnm6jPSnz4UpRGLD6NADsyOkWVA09A
yn2V3Zy1vcyQIve+vwofFi24tNBhFlMdcUwk+dMicBjcaTPxXUf9gWk1kHIMG5AN
zPPf5EImuAaDBTrdlY5/h0zOOI51eaehcKRbgznULF66mdw3Xoke62XVDClS4VC2
Q50rGkwXlWuArO7ZA8FSbaAO40wOdXA8gwwUrU8zsUHWqD5V8WkqJ8oDszo3MYab
dztzVi2czw8vghao3Fk0GR67mc5+6JQLRbM3hu8LU+XlaIu86xFdY60WYjkpt71K
IlczPOOJGmq6WOqYyqXEgVuYNos3sOWASaibeuY89CEwaH26mIOW9udT0YXMCEzp
mmpPcUanUUvKmEv5PB2fWlizrCisnMtsFIYLYVdrEShwYavSSVCOByYPFWxt2O/2
u2GvH/a+h5JvhOLhi6qQoIKtWIsMEsEDbZYhSeG9trHe/pOue010/aswFm5fkiHM
6jgG844jhL0NhPp/TsjQvSKelU5BgrUnWbl3HD8eL8HPCbhxIkYPIvkWdrGw6zAB
7laSv4WMWudgqfFccbA07/JzrT/ow9kXGx2OeAjv9rFA0mwJhzpcEut/y97xN4Qy
DUs=
Các thiết lập có thể có
Hỗ trợ tất cả các cài đặt của công cụ cào dữ liệu
HTML::LinkExtractor, cũng như bổ sung:
| Tên tham số | Giá trị mặc định | Mô tả |
|---|---|---|
| Check robots.txt | ☑ | Xác định xem có kiểm tra việc cấm lập chỉ mục trang qua robots.txt hay không |
| Match link by substring | ☐ | Xác định xem có thực hiện tìm kiếm liên kết theo chuỗi khớp hay không. Có thể kiểm tra các liên kết mà không cần chỉ định giao thức, ví dụ: theo tên miền mà không chỉ định giao thức http |