SE::Google::SafeBrowsing - 在 Google 黑名单中检查域名
爬虫工具概览
Google Safe Browsing 爬虫工具允许在 Google 黑名单中检查域名。借助 Google Safe Browsing 爬虫工具,您可以检查自己的域名库是否被列入 Google 黑名单。有关此标识的更多详细信息,请参阅 Google 搜索帮助。
A-Parser 的功能允许保存数据抓取设置以供将来使用(预设)、设置数据抓取计划等等。
得益于 A-Parser 的多线程工作,请求处理速度可以达到每分钟 3800-4000 个请求。

得益于内置强大的模板引擎 Template Toolkit,可以按您需要的形式和结构保存结果,该引擎允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON、SQL 和 CSV。
采集的数据
- 是否存在于可疑网站列表中
应用场景
- 检查域名列表是否被列入 Google 黑名单
- 监控自己的域名是否被列入 Google 黑名单
查询
查询时需要指定目标网站的 URL,例如:
http://a-parser.com/
http://www.yandex.ru/
http://facebook.com/
http://youtube.com/
http://perfect-soft.net/
结果输出示例
A-Parser 支持灵活的结果格式化,这得益于内置的模板引擎 Template Toolkit,使其能够以任意形式以及结构化形式(如 CSV 或 JSON)输出结果。
导出黑名单检查列表
结果格式:
$query: $exists\n
结果示例,显示了 URL 及其是否在 Google 黑名单中:
http://youtube.com/: 0
http://www.yandex.ru/: 0
http://a-parser.com/: 0
http://perfect-soft.net: 1
http://facebook.com/: 0
将结果输出到 CSV 表格
内置工具 $tools.CSVLine 允许创建正确的表格文档,以便导入 Excel 或 Google 表格。
通用结果格式:
[% tools.CSVline(query.orig,p1.exists) %]
文件名:
$datefile.format().csv
起始文本:
网站,检查结果
结果示例:
网站,检查结果
http://youtube.com/,0
http://www.yandex.ru/,0
http://a-parser.com/,0
http://perfect-soft.net,1
http://facebook.com/,0
在通用结果格式中应用了 Template Toolkit 模板引擎来输出查询和黑名单检查结果。
在结果文件名中,只需将文件扩展名更改为 csv 即可。
要在任务编辑器中使“Prepend text”选项可用,需要激活“More options”。 在“Prepend text”中按逗号分隔写入列名,并将第二行留空。
以 SQL 格式保存
结果格式:
[% "INSERT INTO volumes VALUES('" _ query.query _ "', '" _ exists _ "')\n" %]
结果示例:
INSERT INTO serp VALUES('http://www.yandex.ru/', '0')
INSERT INTO serp VALUES('http://a-parser.com/', '0')
INSERT INTO serp VALUES('http://perfect-soft.net', '1')
INSERT INTO serp VALUES('http://facebook.com/', '0')
INSERT INTO serp VALUES('http://youtube.com/', '0')
将结果转储为 JSON
通用结果格式:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = p1.query.orig;
obj.exists = p1.exists;
obj.json %]
起始文本:
[
结束文本:
]
结果示例:
[{"query":"http://www.yandex.ru/","exists":"0"},
{"query":"http://youtube.com/","exists":"0"},
{"query":"http://facebook.com/","exists":"0"},
{"query":"http://a-parser.com/","exists":"0"},
{"query":"http://perfect-soft.net","exists":"1"}]
要在任务编辑器中使“Prepend text”和“Append text”选项可用,需要激活“More options”。
结果处理
A-Parser 允许在数据抓取过程中直接处理结果,在本节中,我们列出了 SE::Google::SafeBrowsing 爬虫工具最常用的案例。
保存检查值为 "1" 的域名
添加过滤器,并在下拉列表中选择检查值变量 $exists - Listed as suspicious。选择类型:String equal。接着在String (字符串)中填写我们需要的值 1。通过这种过滤器,您可以剔除所有不需要的结果。

下载示例
eJx1VEuP2jAQ/ivI4tBKEMqhl9wAlaoVXbYLe2I5mGTCujger+3wUJT/3rETEth2
b57H983bJXPcHuyjAQvOsnhTMh3eLGarb3H8HXEvIY5XPIOpwZMVat8b9uZCgunB
medaAhswzY0F4/GbD2HklkLGC+nYoGTuooFi4BGMEannECnJySskBxKOXBbenmLO
hWJVh8iEdGDIhdL0XDGDs7CU+6AxrWs/eCu4vGEa0xu1E6hIsKAsq7bbK4udo8m5
J+vrcdR0oDWu+BHWWMeGTu2b8MBzT95PuQNvjbJA9Olz5M6egaep8DG5rCP4FnVR
n5V4C8kpJF96GgF2bjAnlYNA4JWXa3Yb1g8yI4oiYH/XGBZnXFoYMEupzjklkr63
CGoNd2iWoQekLxmqiZQLOILs3AL/tBAypXlOMgL9aID/d1n+w1G15d2GojmfDOXQ
sgRpuvzVoVJc4N7PfEd1S5ELR7KdYaH8YL6Q8gCg2549+J7laKAN0zA30WmnNSi/
VN3IJrpT3ZVxN5Z7ZYIqE/tls6hXz0Kt6XCWaob+BHxdqpCSxmLhqVuPiW3G4IUu
wffgWQjhS78eCHOI0v5c1alqI2j9vvoEc+rkbdSGMuFSPj8tbi2sWykSXp3T8WjE
h/WpRgnmoxfVaE+nU3ThKoVzZIpOnfEEdoiHe+cLFq7Ywb1Sg8kgcUOLmYtUOJ6E
TmKPtKzUsGrb/hHtV1N+/FPEZUX78Mc+1hDfPA8gHU3BhhMeV38BeN+pvw==
另请参阅:结果过滤器
可选设置
| 参数名称 | 默认值 | 描述 |
|---|---|---|
| Check | Domain | 选择检查类型 (Domain / Full link) |