SE::Google::Cache - Verifica della presenza delle pagine nella cache di Google

Panoramica dello scraper
Lo scraper Google Cache verifica la presenza di una pagina nella cache di Google.
Il salvataggio dei risultati è possibile nella forma e nella struttura necessaria, grazie al potente motore di modelli integrato Template Toolkit che consente di applicare logica aggiuntiva ai risultati e di esportare i dati in vari formati, tra cui JSON, SQL e CSV.
Dati raccolti

- Data di indicizzazione della pagina nella cache
- Data di indicizzazione della pagina in formato Unix
- Presenza della pagina nella cache
- Dati della pagina senza la google-toolbar
Casi d'uso
- Determinazione della presenza di una pagina nella cache di Google
- Ottenimento della data dell'ultimo snapshot di Google
- Ottenimento della data dell'ultimo snapshot di Google in formato Unix
- Ottenimento del contenuto della pagina presente nella cache
Query
Come query è necessario specificare l'URL della pagina, ad esempio:
https://a-parser.com
https://lenta.ru/
Esempi di output dei risultati
Output predefinito
Formato del risultato:
$query: $exists - $date\n
Esempio di risultato, in cui vengono visualizzati il dominio, la presenza nella cache (1 o 0), la data di memorizzazione nella cache:
https://lenta.ru/: 1 - 25 Dec 2020 10:44:05 GMT
Output in tabella CSV
Formato del risultato:
[% tools.CSVline(query, exists, date, timestamp) %]
Esempio di risultato:
https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944
Impostazioni possibili
| Parametro | Valore predefinito | Descrizione |
|---|---|---|
| Use sessions | ☑ | Salva le sessioni valide, consentendo uno scraping ancora più veloce e riducendo il numero di errori |
| Util::ReCaptcha2 preset | default | Determina se utilizzare Util::ReCaptcha2 per bypassare i reCAPTCHA |
| Remove toolbar | ☑ | Specifica se rimuovere la toolbar dalla pagina |
