SE::Google::Compromised - 检查 Google 搜索结果中是否存在“此网站可能已被黑客入侵”提示
爬虫工具 Google Compromised 概览
Google Compromised 爬虫工具允许检查 Google 搜索结果中是否存在 This site may be hacked 标识。借助 Google Compromised 爬虫工具,您可以检查自己的域名数据库是否存在该标识。关于此标识的更多详情,请参阅 Google 搜索帮助。
A-Parser 的功能允许保存数据抓取设置以便后续使用(预设)、设置数据抓取计划等等。
得益于内置强大的模板引擎 Template Toolkit,结果保存可以采用您需要的任何形式和结构,该引擎允许对结果应用额外逻辑并以各种格式输出数据,包括 JSON、SQL 和 CSV。
采集数据
- 检查 Google 中是否存在 This site may be hacked 标识

功能
- 支持爬虫工具
SE::Google 的所有功能。
应用场景
- 检查域名列表在 Google 中是否存在 This site may be hacked 标识
- 监控自己的域名
查询
查询时需要指定目标网站的 URL,例如:
http://a-parser.com/
http://www.yandex.ru/
http://google.com/
http://russbehnke.com/
http://www.bmlaroca.cat/
http://vk.com/
http://facebook.com/
http://youtube.com/
查询占位符
您可以使用 内置宏 自动从文件中替换子查询,例如我们想根据关键词库检查网站,指定几个主要查询:
ria.ru
lenta.ru
rbc.ru
yandex.ru
在查询格式中指定从文件 Keywords.txt 替换额外词汇的宏,此方法允许根据关键词库检查网站库并获得排名结果:
$query {subs:Keywords}
该宏将为每个原始搜索查询创建与文件中数量相同的额外查询,宏运行后的总查询量为 [原始查询数量(域名)] x [Keywords 文件中的查询数量] = [总查询数量]。
还可以在查询格式中指定协议,以便仅使用域名作为查询:
http://$query
此格式将为每个查询添加 http://。
结果输出选项
A-Parser 凭借内置的模板引擎 Template Toolkit 支持灵活的结果格式化,使其能够以任意形式以及结构化形式(如 CSV 或 JSON)输出结果。
导出标识检查列表
结果格式:
$query: $compromised\n
结果示例,显示了 URL 及其在 Google 中是否存在 This site may be hacked 标识:
http://a-parser.com/: 0
http://www.bmlaroca.cat/: 1
http://russbehnke.com/: 0
http://www.yandex.ru/: 0
http://google.com/: 0
链接 + 锚点 + 摘要及排名输出
将链接、锚点和摘要输出到 CSV 表格
保存相关关键词
关键词竞争度
检查链接收录情况
以 SQL 格式保存
将结果转储为 JSON
结果处理
A-Parser 允许在数据抓取过程中直接处理结果,本节列出了 SE::Google::Compromised 爬虫工具最常用的案例。
保存检查值为 "1" 的域名
添加过滤器,并在下拉列表中选择检查值变量 $compromised - Is site compromised。选择类型:String equal。接着在 String (字符串) 中填入我们需要的值 1。通过这种过滤器,您可以剔除所有不需要的结果。

下载示例
eJx1VE1z2jAQ/SseTQ7tDDFw6MU3woROOzSkITkBB2GtiYosCUnmYzz8965kYxta
btZ+vH37dtclcdRu7asBC86SZFESHb5JQubPSfJdqY2AJBmrXBuVcwsseowmXDgw
ERxprgWQHtHUWDA+f3EvDaMYZLQQjvRK4k4asITagzGceQjO8J0pk1OHBEIY2VNR
+LCHXQHmlEQPaYu3XEpyvo+EYceTAWc42A7ScDAYdNOy0AkG1DUTkl5RrvzvVTDs
Ciq6YPittONK4sOCtOS8Wl2g7CT04tnrYVyL2jjndA/vqiIArRmFhReah54ZdeC9
cSXKl6+xO3oEyhj3NamoKnjV26ofku8COakw1uuGAkywITQ5CABBzAu7RS0uQYgi
5P6uckiSUWGhRyxSnVAkwm49HKWhTplZ0ADtJVFyJMQU9iDasID/VHDBcEVGGSb9
qBP/HzL7B+PctNcthRM/GOTQoITX0+xXm8XUVG2wc7bGvgXPucO3HatC+sEM0LgF
0I1mL16zXBloytTIdXU8Ew3Sr1c7spFuTVdtXI3l2pgqmfHNrF7ZS2Qh3/EWZ9If
jQDflyyEwLFYeGvXY2TrMfhHS/A2eRxK+NYvR0ecUsL+nFdUteG4ft88wRyV7Fat
IVMqxMfbtOsh7Urh49M5nfT79LG6/hgvpx9FS1nbD4dDfKKSwTE2RdexCT+H23BT
WLuGT7mtPFcw61xQo1Iap9T1iafmYKNwaVG486r5/TR/sfLuTygpz7gWf+xrleE1
9PFow2HYcMnD81/p/MfQ
另请参阅:结果过滤器
链接去重
按域名进行链接去重
提取域名
从锚点和摘要中删除标签
按包含关系过滤链接
可能的设置
支持爬虫工具
SE::Google 的所有设置,此外还包括:
| 参数名称 | 默认值 | 描述 |
|---|---|---|
| Pages count | 1 | 抓取搜索结果的页数(1 到 10) |