SE::Google::Cache - Kontrollera om sidor finns i Googles cache

Översikt över scrapern
Google Cache-scrapern kontrollerar om en sida finns i Googles cache.
Det är möjligt att spara resultat i den form och struktur du behöver, tack vare den inbyggda kraftfulla mallmotorn Template Toolkit som gör det möjligt att tillämpa ytterligare logik på resultaten och exportera data i olika format, inklusive JSON, SQL och CSV.
Insamlade data

- Datum för sidans indexering i cachen
- Datum för sidans indexering i Unix-format
- Om sidan finns i cachen
- Siddata utan Google Toolbar
Användningsfall
- Fastställa om en sida finns i Googles cache
- Hämta datum för Googles senaste snapshot
- Hämta datum för Googles senaste snapshot i Unix-format
- Hämta innehållet på en sida som finns i cachen
Frågor
Som frågor måste du ange URL:er till sidor, till exempel:
https://a-parser.com
https://lenta.ru/
Exempel på resultatvisning
Standardutdata
Resultatformat:
$query: $exists - $date\n
Exempel på resultat som visar domän, förekomst i cache (1 eller 0) och datum för cachning:
https://lenta.ru/: 1 - 25 Dec 2020 10:44:05 GMT
Utdata till CSV-tabell
Resultatformat:
[% tools.CSVline(query, exists, date, timestamp) %]
Exempel på resultat:
https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944
Möjliga inställningar
anteckning
| Parameter | Standardvärde | Beskrivning |
|---|---|---|
| Use sessions | ☑ | Sparar bra sessioner vilket gör det möjligt att skrapa ännu snabbare med färre fel |
| Util::ReCaptcha2 preset | default | Bestämmer om Util::ReCaptcha2 ska användas för att kringgå reCAPTCHA |
| Remove toolbar | ☑ | Anger om toolbar ska tas bort från sidan |
