SE::Google::SafeBrowsing - Kiểm tra tên miền trong danh sách đen của Google
Tổng quan về công cụ cào dữ liệu
Công cụ cào dữ liệu Google Safe Browsing cho phép kiểm tra tên miền trong danh sách đen của Google. Với công cụ cào dữ liệu Google Safe Browsing, bạn có thể kiểm tra cơ sở dữ liệu tên miền của riêng mình xem có nằm trong danh sách đen của Google hay không. Bạn có thể tìm hiểu thêm về cảnh báo này trong Trợ giúp Tìm kiếm của Google.
Tính năng của A-Parser cho phép lưu các cài đặt cào dữ liệu để sử dụng sau này (mẫu thiết lập sẵn), thiết lập lịch trình cào dữ liệu và nhiều tính năng khác.
Nhờ khả năng hoạt động đa luồng của A-Parser, tốc độ xử lý truy vấn có thể đạt tới 3800-4000 truy vấn mỗi phút.

Việc lưu kết quả có thể thực hiện theo bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ được tích hợp sẵn Template Toolkit, cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.
Dữ liệu thu thập được
- Sự hiện diện trong danh sách các trang web nghi ngờ
Ứng dụng
- Kiểm tra danh sách tên miền xem có bị đưa vào danh sách đen của Google không
- Theo dõi các tên miền của mình xem có bị đưa vào danh sách đen của Google không
Truy vấn
Trong phần truy vấn, bạn cần chỉ định URL của trang web cần tìm, ví dụ:
http://a-parser.com/
http://www.yandex.ru/
http://facebook.com/
http://youtube.com/
http://perfect-soft.net/
Các tùy chọn xuất kết quả
A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả dưới dạng tùy ý cũng như có cấu trúc như CSV hoặc JSON
Xuất danh sách kiểm tra trong danh sách đen
Định dạng kết quả:
$query: $exists\n
Ví dụ kết quả hiển thị URL và trạng thái có nằm trong danh sách đen của Google hay không:
http://youtube.com/: 0
http://www.yandex.ru/: 0
http://a-parser.com/: 0
http://perfect-soft.net: 1
http://facebook.com/: 0
Xuất kết quả ra bảng CSV
Tiện ích tích hợp $tools.CSVLine cho phép tạo các tài liệu bảng biểu chính xác, sẵn sàng để nhập vào Excel hoặc Google Sheets.
Định dạng kết quả chung:
[% tools.CSVline(query.orig,p1.exists) %]
Tên tệp:
$datefile.format().csv
Văn bản bắt đầu:
Trang web,Kết quả kiểm tra
Ví dụ kết quả:
Trang web,Kết quả kiểm tra
http://youtube.com/,0
http://www.yandex.ru/,0
http://a-parser.com/,0
http://perfect-soft.net,1
http://facebook.com/,0
Trong Định dạng kết quả chung, bộ tạo mẫu Template Toolkit được áp dụng để xuất truy vấn và kết quả kiểm tra trong danh sách đen.
Trong tên tệp kết quả, bạn chỉ cần thay đổi phần mở rộng tệp thành csv.
Để tùy chọn "Prepend text" hiển thị trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "More options". Trong "Prepend text", chúng ta ghi tên các cột cách nhau bằng dấu phẩy và để dòng thứ hai trống.
Lưu dưới định dạng SQL
Định dạng kết quả:
[% "INSERT INTO volumes VALUES('" _ query.query _ "', '" _ exists _ "')\n" %]
Ví dụ kết quả:
INSERT INTO serp VALUES('http://www.yandex.ru/', '0')
INSERT INTO serp VALUES('http://a-parser.com/', '0')
INSERT INTO serp VALUES('http://perfect-soft.net', '1')
INSERT INTO serp VALUES('http://facebook.com/', '0')
INSERT INTO serp VALUES('http://youtube.com/', '0')
Dump kết quả sang JSON
Định dạng kết quả chung:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = p1.query.orig;
obj.exists = p1.exists;
obj.json %]
Văn bản bắt đầu:
[
Văn bản kết thúc:
]
Ví dụ kết quả:
[{"query":"http://www.yandex.ru/","exists":"0"},
{"query":"http://youtube.com/","exists":"0"},
{"query":"http://facebook.com/","exists":"0"},
{"query":"http://a-parser.com/","exists":"0"},
{"query":"http://perfect-soft.net","exists":"1"}]
Để các tùy chọn "Prepend text" và "Append text" hiển thị trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "More options".
Xử lý kết quả
A-Parser cho phép xử lý kết quả trực tiếp trong quá trình cào dữ liệu, trong phần này chúng tôi đưa ra các trường hợp phổ biến nhất cho công cụ cào dữ liệu SE::Google::SafeBrowsing
Lưu các tên miền có giá trị kiểm tra là "1"
Thêm bộ lọc và trong danh sách thả xuống chọn biến giá trị kiểm tra $exists - Listed as suspicious. Chọn loại: String equal. Tiếp theo, trong phần String (Chuỗi), hãy nhập giá trị bạn cần là 1. Với bộ lọc này, bạn có thể loại bỏ tất cả các kết quả có giá trị không mong muốn.

Tải xuống ví dụ
eJx1VEuP2jAQ/ivI4tBKEMqhl9wAlaoVXbYLe2I5mGTCujger+3wUJT/3rETEth2
b57H983bJXPcHuyjAQvOsnhTMh3eLGarb3H8HXEvIY5XPIOpwZMVat8b9uZCgunB
medaAhswzY0F4/GbD2HklkLGC+nYoGTuooFi4BGMEannECnJySskBxKOXBbenmLO
hWJVh8iEdGDIhdL0XDGDs7CU+6AxrWs/eCu4vGEa0xu1E6hIsKAsq7bbK4udo8m5
J+vrcdR0oDWu+BHWWMeGTu2b8MBzT95PuQNvjbJA9Olz5M6egaep8DG5rCP4FnVR
n5V4C8kpJF96GgF2bjAnlYNA4JWXa3Yb1g8yI4oiYH/XGBZnXFoYMEupzjklkr63
CGoNd2iWoQekLxmqiZQLOILs3AL/tBAypXlOMgL9aID/d1n+w1G15d2GojmfDOXQ
sgRpuvzVoVJc4N7PfEd1S5ELR7KdYaH8YL6Q8gCg2549+J7laKAN0zA30WmnNSi/
VN3IJrpT3ZVxN5Z7ZYIqE/tls6hXz0Kt6XCWaob+BHxdqpCSxmLhqVuPiW3G4IUu
wffgWQjhS78eCHOI0v5c1alqI2j9vvoEc+rkbdSGMuFSPj8tbi2sWykSXp3T8WjE
h/WpRgnmoxfVaE+nU3ThKoVzZIpOnfEEdoiHe+cLFq7Ywb1Sg8kgcUOLmYtUOJ6E
TmKPtKzUsGrb/hHtV1N+/FPEZUX78Mc+1hDfPA8gHU3BhhMeV38BeN+pvw==
Xem thêm: Bộ lọc kết quả
Các thiết lập có thể có
| Tên tham số | Giá trị mặc định | Mô tả |
|---|---|---|
| Check | Domain | Chọn loại kiểm tra (Domain / Full link) |