跳转到主要内容

SE::Google::SafeBrowsing - 在 Google 黑名单中检查域名

爬虫工具概览

Google Safe Browsing 爬虫工具允许在 Google 黑名单中检查域名。借助 Google Safe Browsing 爬虫工具,您可以检查自己的域名库是否被列入 Google 黑名单。有关此标识的更多详细信息,请参阅 Google 搜索帮助

A-Parser 的功能允许保存数据抓取设置以供将来使用(预设)、设置数据抓取计划等等。

得益于 A-Parser 的多线程工作,请求处理速度可以达到每分钟 3800-4000 个请求。

爬虫工具概览:运行速度

得益于内置强大的模板引擎 Template Toolkit,可以按您需要的形式和结构保存结果,该引擎允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON、SQL 和 CSV

采集的数据

  • 是否存在于可疑网站列表中

SE::Google::SafeBrowsing 爬虫工具采集哪些数据

应用场景

  • 检查域名列表是否被列入 Google 黑名单
  • 监控自己的域名是否被列入 Google 黑名单

查询

查询时需要指定目标网站的 URL,例如:

http://a-parser.com/
http://www.yandex.ru/
http://facebook.com/
http://youtube.com/
http://perfect-soft.net/

结果输出示例

A-Parser 支持灵活的结果格式化,这得益于内置的模板引擎 Template Toolkit,使其能够以任意形式以及结构化形式(如 CSV 或 JSON)输出结果。

导出黑名单检查列表

结果格式:

$query: $exists\n

结果示例,显示了 URL 及其是否在 Google 黑名单中:

http://youtube.com/: 0
http://www.yandex.ru/: 0
http://a-parser.com/: 0
http://perfect-soft.net: 1
http://facebook.com/: 0

将结果输出到 CSV 表格

内置工具 $tools.CSVLine 允许创建正确的表格文档,以便导入 Excel 或 Google 表格。

通用结果格式:

[% tools.CSVline(query.orig,p1.exists) %]

文件名:

$datefile.format().csv

起始文本:

网站,检查结果

结果示例:

网站,检查结果
http://youtube.com/,0
http://www.yandex.ru/,0
http://a-parser.com/,0
http://perfect-soft.net,1
http://facebook.com/,0
提示

通用结果格式中应用了 Template Toolkit 模板引擎来输出查询和黑名单检查结果。

在结果文件名中,只需将文件扩展名更改为 csv 即可。

要在任务编辑器中使“Prepend text”选项可用,需要激活“More options”。 在“Prepend text”中按逗号分隔写入列名,并将第二行留空。

以 SQL 格式保存

结果格式:

[% "INSERT INTO volumes VALUES('" _ query.query _ "', '" _ exists _ "')\n" %]

结果示例:

INSERT INTO serp VALUES('http://www.yandex.ru/', '0')
INSERT INTO serp VALUES('http://a-parser.com/', '0')
INSERT INTO serp VALUES('http://perfect-soft.net', '1')
INSERT INTO serp VALUES('http://facebook.com/', '0')
INSERT INTO serp VALUES('http://youtube.com/', '0')

将结果转储为 JSON

通用结果格式:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = p1.query.orig;
obj.exists = p1.exists;

obj.json %]

起始文本:

[

结束文本:

]

结果示例:

[{"query":"http://www.yandex.ru/","exists":"0"},
{"query":"http://youtube.com/","exists":"0"},
{"query":"http://facebook.com/","exists":"0"},
{"query":"http://a-parser.com/","exists":"0"},
{"query":"http://perfect-soft.net","exists":"1"}]
提示

要在任务编辑器中使“Prepend text”和“Append text”选项可用,需要激活“More options”。

结果处理

A-Parser 允许在数据抓取过程中直接处理结果,在本节中,我们列出了 SE::Google::SafeBrowsing 爬虫工具最常用的案例。

保存检查值为 "1" 的域名

添加过滤器,并在下拉列表中选择检查值变量 $exists - Listed as suspicious。选择类型:String equal。接着在String (字符串)中填写我们需要的值 1。通过这种过滤器,您可以剔除所有不需要的结果。

过滤示例
下载示例

如何将示例导入 A-Parser

eJx1VEuP2jAQ/ivI4tBKEMqhl9wAlaoVXbYLe2I5mGTCujger+3wUJT/3rETEth2
b57H983bJXPcHuyjAQvOsnhTMh3eLGarb3H8HXEvIY5XPIOpwZMVat8b9uZCgunB
medaAhswzY0F4/GbD2HklkLGC+nYoGTuooFi4BGMEannECnJySskBxKOXBbenmLO
hWJVh8iEdGDIhdL0XDGDs7CU+6AxrWs/eCu4vGEa0xu1E6hIsKAsq7bbK4udo8m5
J+vrcdR0oDWu+BHWWMeGTu2b8MBzT95PuQNvjbJA9Olz5M6egaep8DG5rCP4FnVR
n5V4C8kpJF96GgF2bjAnlYNA4JWXa3Yb1g8yI4oiYH/XGBZnXFoYMEupzjklkr63
CGoNd2iWoQekLxmqiZQLOILs3AL/tBAypXlOMgL9aID/d1n+w1G15d2GojmfDOXQ
sgRpuvzVoVJc4N7PfEd1S5ELR7KdYaH8YL6Q8gCg2549+J7laKAN0zA30WmnNSi/
VN3IJrpT3ZVxN5Z7ZYIqE/tls6hXz0Kt6XCWaob+BHxdqpCSxmLhqVuPiW3G4IUu
wffgWQjhS78eCHOI0v5c1alqI2j9vvoEc+rkbdSGMuFSPj8tbi2sWykSXp3T8WjE
h/WpRgnmoxfVaE+nU3ThKoVzZIpOnfEEdoiHe+cLFq7Ywb1Sg8kgcUOLmYtUOJ6E
TmKPtKzUsGrb/hHtV1N+/FPEZUX78Mc+1hDfPA8gHU3BhhMeV38BeN+pvw==
提示

另请参阅:结果过滤器

可选设置

参数名称默认值描述
CheckDomain选择检查类型 (Domain / Full link)