SE::Google::Cache - Googleキャッシュ内のページの有無を確認

スクレイパーの概要
Google Cache スクレイパーは、ページが Google のキャッシュに存在するかどうかを確認します。
結果の保存は、組み込みの強力なテンプレートエンジン Template Toolkit により、必要な形式や構造で保存可能です。これにより、結果に追加のロジックを適用したり、JSON、SQL、CSV を含むさまざまな形式でデータを出力したりできます。
収集データ

- キャッシュ内のページのインデックス作成日
- Unix 形式でのページのインデックス作成日
- キャッシュ内でのページの有無
- Google ツールバーを除いたページデータ
ユースケース
- Google キャッシュ内でのページの有無の特定
- Google の最新スナップショットの日付の取得
- Google の最新スナップショットの日付を Unix 形式で取得
- キャッシュ内にあるページのコンテンツの取得
クエリ
クエリとして、ページの URL を指定する必要があります。例:
https://a-parser.com
https://lenta.ru/
結果の出力例
デフォルト出力
結果の形式:
$query: $exists - $date\n
ドメイン、キャッシュの有無(1 または 0)、キャッシュされた日付が表示される結果の例:
https://lenta.ru/: 1 - 25 Dec 2020 10:44:05 GMT
CSV テーブルへの出力
結果の形式:
[% tools.CSVline(query, exists, date, timestamp) %]
結果の例:
https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944
可能な設定
| パラメーター | デフォルト値 | 説明 |
|---|---|---|
| Use sessions | ☑ | 良好なセッションを保存することで、エラーを減らし、より高速なスクレイピングを可能にします |
| Util::ReCaptcha2 preset | default | reCAPTCHA を回避するために Util::ReCaptcha2 を使用するかどうかを定義します |
| Remove toolbar | ☑ | ページからツールバーを削除するかどうかを指定します |
