Passer au contenu principal

SE::Google::Cache - Vérification de la présence des pages dans le cache Google

Google Cache

Présentation du scraper

Le scraper Google Cache vérifie la présence d'une page dans le cache de Google.

La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et de sortir les données dans divers formats, y compris JSON, SQL et CSV.

Données collectées

Données collectées
  • Date d'indexation de la page dans le cache
  • Date d'indexation de la page au format Unix
  • Présence de la page dans le cache
  • Données de la page sans la google-toolbar

Cas d'utilisation

  • Déterminer la présence d'une page dans le cache Google
  • Obtenir la date du dernier snapshot Google
  • Obtenir la date du dernier snapshot Google au format Unix
  • Obtenir le contenu d'une page située dans le cache

Requêtes

En tant que requêtes, il est nécessaire d'indiquer l'URL de la page, par exemple :

https://a-parser.com
https://lenta.ru/

Exemples de sortie de résultats

Sortie par défaut

Format du résultat :

$query: $exists - $date\n

Exemple de résultat affichant le domaine, la présence dans le cache (1 ou 0), la date de mise en cache :

https://lenta.ru/: 1 -  25 Dec 2020 10:44:05 GMT

Sortie dans un tableau CSV

Format du résultat :

[% tools.CSVline(query, exists, date, timestamp) %]

Exemple de résultat :

https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944

Paramètres possibles

ParamètreValeur par défautDescription
Use sessionsSauvegarde les bonnes sessions, ce qui permet de collecter les données encore plus rapidement en obtenant moins d'erreurs
Util::ReCaptcha2 presetdefaultDétermine s'il faut utiliser Util::ReCaptcha2Util::ReCaptcha2 pour contourner les reCAPTCHA
Remove toolbarIndique s'il faut supprimer la barre d'outils de la page