SE::Google::Cache - 检查 Google 缓存中是否存在页面

Google Cache 爬虫工具概览
Google Cache 爬虫工具用于检查页面是否存在于 Google 缓存中。
得益于内置强大的 Template Toolkit 模板引擎,您可以根据需要以任何形式和结构保存结果,该引擎允许对结果应用额外的逻辑,并以多种格式输出数据,包括 JSON、SQL 和 CSV。
采集数据

- 页面在缓存中的索引日期
- Unix 格式的页面索引日期
- 页面是否存在于缓存中
- 不含 Google 工具栏的页面数据
应用场景
- 确定页面是否存在于 Google 缓存中
- 获取 Google 最后一次快照的日期
- 获取 Unix 格式的 Google 最后一次快照日期
- 获取缓存中页面的内容
查询
查询时需要指定页面的 URL,例如:
https://a-parser.com
https://lenta.ru/
结果输出示例
默认输出
结果格式:
$query: $exists - $date\n
显示域名、缓存状态(1 或 0)以及缓存日期的结果示例:
https://lenta.ru/: 1 - 25 Dec 2020 10:44:05 GMT
输出到 CSV 表格
结果格式:
[% tools.CSVline(query, exists, date, timestamp) %]
结果示例:
https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944
可选设置
| 参数 | 默认值 | 描述 |
|---|---|---|
| Use sessions | ☑ | 保存良好的会话,从而能够以更少的错误实现更快速的数据抓取 |
| Util::ReCaptcha2 preset | default | 确定是否使用 Util::ReCaptcha2 来绕过 reCAPTCHA |
| Remove toolbar | ☑ | 指定是否需要从页面中删除工具栏 |
