SE::Google::Cache - Vérification de la présence des pages dans le cache Google

Présentation du scraper
Le scraper Google Cache vérifie la présence d'une page dans le cache de Google.
La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et de sortir les données dans divers formats, y compris JSON, SQL et CSV.
Données collectées

- Date d'indexation de la page dans le cache
- Date d'indexation de la page au format Unix
- Présence de la page dans le cache
- Données de la page sans la google-toolbar
Cas d'utilisation
- Déterminer la présence d'une page dans le cache Google
- Obtenir la date du dernier snapshot Google
- Obtenir la date du dernier snapshot Google au format Unix
- Obtenir le contenu d'une page située dans le cache
Requêtes
En tant que requêtes, il est nécessaire d'indiquer l'URL de la page, par exemple :
https://a-parser.com
https://lenta.ru/
Exemples de sortie de résultats
Sortie par défaut
Format du résultat :
$query: $exists - $date\n
Exemple de résultat affichant le domaine, la présence dans le cache (1 ou 0), la date de mise en cache :
https://lenta.ru/: 1 - 25 Dec 2020 10:44:05 GMT
Sortie dans un tableau CSV
Format du résultat :
[% tools.CSVline(query, exists, date, timestamp) %]
Exemple de résultat :
https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944
Paramètres possibles
| Paramètre | Valeur par défaut | Description |
|---|---|---|
| Use sessions | ☑ | Sauvegarde les bonnes sessions, ce qui permet de collecter les données encore plus rapidement en obtenant moins d'erreurs |
| Util::ReCaptcha2 preset | default | Détermine s'il faut utiliser Util::ReCaptcha2 pour contourner les reCAPTCHA |
| Remove toolbar | ☑ | Indique s'il faut supprimer la barre d'outils de la page |
