Chuyển đến nội dung chính

SE::Google::SafeBrowsing - Kiểm tra tên miền trong danh sách đen của Google

Tổng quan về công cụ cào dữ liệu

Công cụ cào dữ liệu Google Safe Browsing cho phép kiểm tra tên miền trong danh sách đen của Google. Với công cụ cào dữ liệu Google Safe Browsing, bạn có thể kiểm tra cơ sở dữ liệu tên miền của riêng mình xem có nằm trong danh sách đen của Google hay không. Bạn có thể tìm hiểu thêm về cảnh báo này trong Trợ giúp Tìm kiếm của Google.

Tính năng của A-Parser cho phép lưu các cài đặt cào dữ liệu để sử dụng sau này (mẫu thiết lập sẵn), thiết lập lịch trình cào dữ liệu và nhiều tính năng khác.

Nhờ khả năng hoạt động đa luồng của A-Parser, tốc độ xử lý truy vấn có thể đạt tới 3800-4000 truy vấn mỗi phút.

Tổng quan về công cụ cào dữ liệu: tốc độ hoạt động

Việc lưu kết quả có thể thực hiện theo bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ được tích hợp sẵn Template Toolkit, cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.

Dữ liệu thu thập được

  • Sự hiện diện trong danh sách các trang web nghi ngờ

dữ liệu nào được thu thập bởi công cụ cào dữ liệu SE::Google::SafeBrowsing

Ứng dụng

  • Kiểm tra danh sách tên miền xem có bị đưa vào danh sách đen của Google không
  • Theo dõi các tên miền của mình xem có bị đưa vào danh sách đen của Google không

Truy vấn

Trong phần truy vấn, bạn cần chỉ định URL của trang web cần tìm, ví dụ:

http://a-parser.com/
http://www.yandex.ru/
http://facebook.com/
http://youtube.com/
http://perfect-soft.net/

Các tùy chọn xuất kết quả

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả dưới dạng tùy ý cũng như có cấu trúc như CSV hoặc JSON

Xuất danh sách kiểm tra trong danh sách đen

Định dạng kết quả:

$query: $exists\n

Ví dụ kết quả hiển thị URL và trạng thái có nằm trong danh sách đen của Google hay không:

http://youtube.com/: 0
http://www.yandex.ru/: 0
http://a-parser.com/: 0
http://perfect-soft.net: 1
http://facebook.com/: 0

Xuất kết quả ra bảng CSV

Tiện ích tích hợp $tools.CSVLine cho phép tạo các tài liệu bảng biểu chính xác, sẵn sàng để nhập vào Excel hoặc Google Sheets.

Định dạng kết quả chung:

[% tools.CSVline(query.orig,p1.exists) %]

Tên tệp:

$datefile.format().csv

Văn bản bắt đầu:

Trang web,Kết quả kiểm tra

Ví dụ kết quả:

Trang web,Kết quả kiểm tra
http://youtube.com/,0
http://www.yandex.ru/,0
http://a-parser.com/,0
http://perfect-soft.net,1
http://facebook.com/,0
mẹo

Trong Định dạng kết quả chung, bộ tạo mẫu Template Toolkit được áp dụng để xuất truy vấn và kết quả kiểm tra trong danh sách đen.

Trong tên tệp kết quả, bạn chỉ cần thay đổi phần mở rộng tệp thành csv.

Để tùy chọn "Prepend text" hiển thị trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "More options". Trong "Prepend text", chúng ta ghi tên các cột cách nhau bằng dấu phẩy và để dòng thứ hai trống.

Lưu dưới định dạng SQL

Định dạng kết quả:

[% "INSERT INTO volumes VALUES('" _ query.query _ "', '" _ exists _ "')\n" %]

Ví dụ kết quả:

INSERT INTO serp VALUES('http://www.yandex.ru/', '0')
INSERT INTO serp VALUES('http://a-parser.com/', '0')
INSERT INTO serp VALUES('http://perfect-soft.net', '1')
INSERT INTO serp VALUES('http://facebook.com/', '0')
INSERT INTO serp VALUES('http://youtube.com/', '0')

Dump kết quả sang JSON

Định dạng kết quả chung:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = p1.query.orig;
obj.exists = p1.exists;

obj.json %]

Văn bản bắt đầu:

[

Văn bản kết thúc:

]

Ví dụ kết quả:

[{"query":"http://www.yandex.ru/","exists":"0"},
{"query":"http://youtube.com/","exists":"0"},
{"query":"http://facebook.com/","exists":"0"},
{"query":"http://a-parser.com/","exists":"0"},
{"query":"http://perfect-soft.net","exists":"1"}]
mẹo

Để các tùy chọn "Prepend text" và "Append text" hiển thị trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "More options".

Xử lý kết quả

A-Parser cho phép xử lý kết quả trực tiếp trong quá trình cào dữ liệu, trong phần này chúng tôi đưa ra các trường hợp phổ biến nhất cho công cụ cào dữ liệu SE::Google::SafeBrowsing

Lưu các tên miền có giá trị kiểm tra là "1"

Thêm bộ lọc và trong danh sách thả xuống chọn biến giá trị kiểm tra $exists - Listed as suspicious. Chọn loại: String equal. Tiếp theo, trong phần String (Chuỗi), hãy nhập giá trị bạn cần là 1. Với bộ lọc này, bạn có thể loại bỏ tất cả các kết quả có giá trị không mong muốn.

Ví dụ về lọc
Tải xuống ví dụ

Cách nhập ví dụ vào A-Parser

eJx1VEuP2jAQ/ivI4tBKEMqhl9wAlaoVXbYLe2I5mGTCujger+3wUJT/3rETEth2
b57H983bJXPcHuyjAQvOsnhTMh3eLGarb3H8HXEvIY5XPIOpwZMVat8b9uZCgunB
medaAhswzY0F4/GbD2HklkLGC+nYoGTuooFi4BGMEannECnJySskBxKOXBbenmLO
hWJVh8iEdGDIhdL0XDGDs7CU+6AxrWs/eCu4vGEa0xu1E6hIsKAsq7bbK4udo8m5
J+vrcdR0oDWu+BHWWMeGTu2b8MBzT95PuQNvjbJA9Olz5M6egaep8DG5rCP4FnVR
n5V4C8kpJF96GgF2bjAnlYNA4JWXa3Yb1g8yI4oiYH/XGBZnXFoYMEupzjklkr63
CGoNd2iWoQekLxmqiZQLOILs3AL/tBAypXlOMgL9aID/d1n+w1G15d2GojmfDOXQ
sgRpuvzVoVJc4N7PfEd1S5ELR7KdYaH8YL6Q8gCg2549+J7laKAN0zA30WmnNSi/
VN3IJrpT3ZVxN5Z7ZYIqE/tls6hXz0Kt6XCWaob+BHxdqpCSxmLhqVuPiW3G4IUu
wffgWQjhS78eCHOI0v5c1alqI2j9vvoEc+rkbdSGMuFSPj8tbi2sWykSXp3T8WjE
h/WpRgnmoxfVaE+nU3ThKoVzZIpOnfEEdoiHe+cLFq7Ywb1Sg8kgcUOLmYtUOJ6E
TmKPtKzUsGrb/hHtV1N+/FPEZUX78Mc+1hDfPA8gHU3BhhMeV38BeN+pvw==
mẹo

Các thiết lập có thể có

Tên tham sốGiá trị mặc địnhMô tả
CheckDomainChọn loại kiểm tra (Domain / Full link)