Hoppa till huvudinnehåll

SE::Google::Cache - Kontrollera om sidor finns i Googles cache

Google Cache

Översikt över scrapern

Google Cache-scrapern kontrollerar om en sida finns i Googles cache.

Det är möjligt att spara resultat i den form och struktur du behöver, tack vare den inbyggda kraftfulla mallmotorn Template Toolkit som gör det möjligt att tillämpa ytterligare logik på resultaten och exportera data i olika format, inklusive JSON, SQL och CSV.

Insamlade data

Insamlade data
  • Datum för sidans indexering i cachen
  • Datum för sidans indexering i Unix-format
  • Om sidan finns i cachen
  • Siddata utan Google Toolbar

Användningsfall

  • Fastställa om en sida finns i Googles cache
  • Hämta datum för Googles senaste snapshot
  • Hämta datum för Googles senaste snapshot i Unix-format
  • Hämta innehållet på en sida som finns i cachen

Frågor

Som frågor måste du ange URL:er till sidor, till exempel:

https://a-parser.com
https://lenta.ru/

Exempel på resultatvisning

Standardutdata

Resultatformat:

$query: $exists - $date\n

Exempel på resultat som visar domän, förekomst i cache (1 eller 0) och datum för cachning:

https://lenta.ru/: 1 -  25 Dec 2020 10:44:05 GMT

Utdata till CSV-tabell

Resultatformat:

[% tools.CSVline(query, exists, date, timestamp) %]

Exempel på resultat:

https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944

Möjliga inställningar

ParameterStandardvärdeBeskrivning
Use sessionsSparar bra sessioner vilket gör det möjligt att skrapa ännu snabbare med färre fel
Util::ReCaptcha2 presetdefaultBestämmer om Util::ReCaptcha2Util::ReCaptcha2 ska användas för att kringgå reCAPTCHA
Remove toolbarAnger om toolbar ska tas bort från sidan