跳转到主要内容

SE::Google::Cache - 检查 Google 缓存中是否存在页面

Google Cache

Google Cache 爬虫工具概览

Google Cache 爬虫工具用于检查页面是否存在于 Google 缓存中。

得益于内置强大的 Template Toolkit 模板引擎,您可以根据需要以任何形式和结构保存结果,该引擎允许对结果应用额外的逻辑,并以多种格式输出数据,包括 JSON、SQL 和 CSV

采集数据

采集数据
  • 页面在缓存中的索引日期
  • Unix 格式的页面索引日期
  • 页面是否存在于缓存中
  • 不含 Google 工具栏的页面数据

应用场景

  • 确定页面是否存在于 Google 缓存中
  • 获取 Google 最后一次快照的日期
  • 获取 Unix 格式的 Google 最后一次快照日期
  • 获取缓存中页面的内容

查询

查询时需要指定页面的 URL,例如:

https://a-parser.com
https://lenta.ru/

结果输出示例

默认输出

结果格式:

$query: $exists - $date\n

显示域名、缓存状态(1 或 0)以及缓存日期的结果示例:

https://lenta.ru/: 1 -  25 Dec 2020 10:44:05 GMT

输出到 CSV 表格

结果格式:

[% tools.CSVline(query, exists, date, timestamp) %]

结果示例:

https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944

可选设置

参数默认值描述
Use sessions保存良好的会话,从而能够以更少的错误实现更快速的数据抓取
Util::ReCaptcha2 presetdefault确定是否使用 Util::ReCaptcha2Util::ReCaptcha2 来绕过 reCAPTCHA
Remove toolbar指定是否需要从页面中删除工具栏