Vai al contenuto principale

SE::Google::Cache - Verifica della presenza delle pagine nella cache di Google

Google Cache

Panoramica dello scraper

Lo scraper Google Cache verifica la presenza di una pagina nella cache di Google.

Il salvataggio dei risultati è possibile nella forma e nella struttura necessaria, grazie al potente motore di modelli integrato Template Toolkit che consente di applicare logica aggiuntiva ai risultati e di esportare i dati in vari formati, tra cui JSON, SQL e CSV.

Dati raccolti

Dati raccolti
  • Data di indicizzazione della pagina nella cache
  • Data di indicizzazione della pagina in formato Unix
  • Presenza della pagina nella cache
  • Dati della pagina senza la google-toolbar

Casi d'uso

  • Determinazione della presenza di una pagina nella cache di Google
  • Ottenimento della data dell'ultimo snapshot di Google
  • Ottenimento della data dell'ultimo snapshot di Google in formato Unix
  • Ottenimento del contenuto della pagina presente nella cache

Query

Come query è necessario specificare l'URL della pagina, ad esempio:

https://a-parser.com
https://lenta.ru/

Esempi di output dei risultati

Output predefinito

Formato del risultato:

$query: $exists - $date\n

Esempio di risultato, in cui vengono visualizzati il dominio, la presenza nella cache (1 o 0), la data di memorizzazione nella cache:

https://lenta.ru/: 1 -  25 Dec 2020 10:44:05 GMT

Output in tabella CSV

Formato del risultato:

[% tools.CSVline(query, exists, date, timestamp) %]

Esempio di risultato:

https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944

Impostazioni possibili

ParametroValore predefinitoDescrizione
Use sessionsSalva le sessioni valide, consentendo uno scraping ancora più veloce e riducendo il numero di errori
Util::ReCaptcha2 presetdefaultDetermina se utilizzare Util::ReCaptcha2Util::ReCaptcha2 per bypassare i reCAPTCHA
Remove toolbarSpecifica se rimuovere la toolbar dalla pagina