跳转到主要内容

SE::Google::Compromised - 检查 Google 搜索结果中是否存在“此网站可能已被黑客入侵”提示

爬虫工具 Google Compromised 概览

Google Compromised 爬虫工具允许检查 Google 搜索结果中是否存在 This site may be hacked 标识。借助 Google Compromised 爬虫工具,您可以检查自己的域名数据库是否存在该标识。关于此标识的更多详情,请参阅 Google 搜索帮助

A-Parser 的功能允许保存数据抓取设置以便后续使用(预设)、设置数据抓取计划等等。

得益于内置强大的模板引擎 Template Toolkit,结果保存可以采用您需要的任何形式和结构,该引擎允许对结果应用额外逻辑并以各种格式输出数据,包括 JSON、SQL 和 CSV

采集数据

  • 检查 Google 中是否存在 This site may be hacked 标识

爬虫工具 SE::Google::Compromised 采集哪些数据

功能

应用场景

  • 检查域名列表在 Google 中是否存在 This site may be hacked 标识
  • 监控自己的域名

查询

查询时需要指定目标网站的 URL,例如:

http://a-parser.com/  
http://www.yandex.ru/
http://google.com/
http://russbehnke.com/
http://www.bmlaroca.cat/
http://vk.com/
http://facebook.com/
http://youtube.com/

查询占位符

您可以使用 内置宏 自动从文件中替换子查询,例如我们想根据关键词库检查网站,指定几个主要查询:

ria.ru
lenta.ru
rbc.ru
yandex.ru

在查询格式中指定从文件 Keywords.txt 替换额外词汇的宏,此方法允许根据关键词库检查网站库并获得排名结果:

$query {subs:Keywords}

该宏将为每个原始搜索查询创建与文件中数量相同的额外查询,宏运行后的总查询量为 [原始查询数量(域名)] x [Keywords 文件中的查询数量] = [总查询数量]

还可以在查询格式中指定协议,以便仅使用域名作为查询:

http://$query 

此格式将为每个查询添加 http://

结果输出选项

A-Parser 凭借内置的模板引擎 Template Toolkit 支持灵活的结果格式化,使其能够以任意形式以及结构化形式(如 CSV 或 JSON)输出结果。

导出标识检查列表

结果格式:

$query: $compromised\n

结果示例,显示了 URL 及其在 Google 中是否存在 This site may be hacked 标识:

http://a-parser.com/: 0
http://www.bmlaroca.cat/: 1
http://russbehnke.com/: 0
http://www.yandex.ru/: 0
http://google.com/: 0

与 SE::Google 相同。

与 SE::Google 相同。

与 SE::Google 相同。

关键词竞争度

与 SE::Google 相同。

检查链接收录情况

与 SE::Google 相同。

以 SQL 格式保存

与 SE::Google 相同。

将结果转储为 JSON

与 SE::Google 相同。

结果处理

A-Parser 允许在数据抓取过程中直接处理结果,本节列出了 SE::Google::Compromised 爬虫工具最常用的案例。

保存检查值为 "1" 的域名

添加过滤器,并在下拉列表中选择检查值变量 $compromised - Is site compromised。选择类型:String equal。接着在 String (字符串) 中填入我们需要的值 1。通过这种过滤器,您可以剔除所有不需要的结果。

过滤示例
下载示例

如何将示例导入 A-Parser

eJx1VE1z2jAQ/SseTQ7tDDFw6MU3woROOzSkITkBB2GtiYosCUnmYzz8965kYxta
btZ+vH37dtclcdRu7asBC86SZFESHb5JQubPSfJdqY2AJBmrXBuVcwsseowmXDgw
ERxprgWQHtHUWDA+f3EvDaMYZLQQjvRK4k4asITagzGceQjO8J0pk1OHBEIY2VNR
+LCHXQHmlEQPaYu3XEpyvo+EYceTAWc42A7ScDAYdNOy0AkG1DUTkl5RrvzvVTDs
Ciq6YPittONK4sOCtOS8Wl2g7CT04tnrYVyL2jjndA/vqiIArRmFhReah54ZdeC9
cSXKl6+xO3oEyhj3NamoKnjV26ofku8COakw1uuGAkywITQ5CABBzAu7RS0uQYgi
5P6uckiSUWGhRyxSnVAkwm49HKWhTplZ0ADtJVFyJMQU9iDasID/VHDBcEVGGSb9
qBP/HzL7B+PctNcthRM/GOTQoITX0+xXm8XUVG2wc7bGvgXPucO3HatC+sEM0LgF
0I1mL16zXBloytTIdXU8Ew3Sr1c7spFuTVdtXI3l2pgqmfHNrF7ZS2Qh3/EWZ9If
jQDflyyEwLFYeGvXY2TrMfhHS/A2eRxK+NYvR0ecUsL+nFdUteG4ft88wRyV7Fat
IVMqxMfbtOsh7Urh49M5nfT79LG6/hgvpx9FS1nbD4dDfKKSwTE2RdexCT+H23BT
WLuGT7mtPFcw61xQo1Iap9T1iafmYKNwaVG486r5/TR/sfLuTygpz7gWf+xrleE1
9PFow2HYcMnD81/p/MfQ
提示

另请参阅:结果过滤器

与 SE::Google 相同。

与 SE::Google 相同。

提取域名

与 SE::Google 相同。

从锚点和摘要中删除标签

与 SE::Google 相同。

与 SE::Google 相同。

可能的设置

支持爬虫工具 SE::GoogleSE::Google 的所有设置,此外还包括:

参数名称默认值描述
Pages count1抓取搜索结果的页数(1 到 10)