メインコンテンツへスキップ

SE::Google::Cache - Googleキャッシュ内のページの有無を確認

Google Cache

スクレイパーの概要

Google Cache スクレイパーは、ページが Google のキャッシュに存在するかどうかを確認します。

結果の保存は、組み込みの強力なテンプレートエンジン Template Toolkit により、必要な形式や構造で保存可能です。これにより、結果に追加のロジックを適用したり、JSON、SQL、CSV を含むさまざまな形式でデータを出力したりできます。

収集データ

収集データ
  • キャッシュ内のページのインデックス作成日
  • Unix 形式でのページのインデックス作成日
  • キャッシュ内でのページの有無
  • Google ツールバーを除いたページデータ

ユースケース

  • Google キャッシュ内でのページの有無の特定
  • Google の最新スナップショットの日付の取得
  • Google の最新スナップショットの日付を Unix 形式で取得
  • キャッシュ内にあるページのコンテンツの取得

クエリ

クエリとして、ページの URL を指定する必要があります。例:

https://a-parser.com
https://lenta.ru/

結果の出力例

デフォルト出力

結果の形式:

$query: $exists - $date\n

ドメイン、キャッシュの有無(1 または 0)、キャッシュされた日付が表示される結果の例:

https://lenta.ru/: 1 -  25 Dec 2020 10:44:05 GMT

CSV テーブルへの出力

結果の形式:

[% tools.CSVline(query, exists, date, timestamp) %]

結果の例:

https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944

可能な設定

パラメーターデフォルト値説明
Use sessions良好なセッションを保存することで、エラーを減らし、より高速なスクレイピングを可能にします
Util::ReCaptcha2 presetdefaultreCAPTCHA を回避するために Util::ReCaptcha2Util::ReCaptcha2 を使用するかどうかを定義します
Remove toolbarページからツールバーを削除するかどうかを指定します