Ga naar de hoofdinhoud

SE::Google::Cache - Controleren van pagina's in de Google-cache

Google Cache

Overzicht van de scraper

De Google Cache scraper controleert de aanwezigheid van een pagina in de Google-cache.

Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV.

Verzamelde gegevens

Verzamelde gegevens
  • Indexeringsdatum van de pagina in de cache
  • Indexeringsdatum van de pagina in Unix-formaat
  • Aanwezigheid van de pagina in de cache
  • Paginagegevens zonder de Google-toolbar

Toepassingen

  • Bepalen of een pagina aanwezig is in de Google-cache
  • De datum van de laatste Google-snapshot ophalen
  • De datum van de laatste Google-snapshot ophalen in Unix-formaat
  • De inhoud ophalen van de pagina die zich in de cache bevindt

Query's

Als query's moeten URL's naar de pagina worden opgegeven, bijvoorbeeld:

https://a-parser.com
https://lenta.ru/

Voorbeelden van resultaatuitvoer

Standaarduitvoer

Resultaatformaat:

$query: $exists - $date\n

Voorbeeld van een resultaat waarin het domein, de aanwezigheid in de cache (1 of 0) en de cache-datum worden weergegeven:

https://lenta.ru/: 1 -  25 Dec 2020 10:44:05 GMT

Uitvoer naar een CSV-tabel

Resultaatformaat:

[% tools.CSVline(query, exists, date, timestamp) %]

Voorbeeld van een resultaat:

https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944

Mogelijke instellingen

ParameterStandaardwaardeBeschrijving
Use sessionsSlaat goede sessies op, wat sneller scrapen mogelijk maakt met minder fouten
Util::ReCaptcha2 presetdefaultBepaalt of Util::ReCaptcha2Util::ReCaptcha2 moet worden gebruikt om reCAPTCHA's te omzeilen
Remove toolbarGeeft aan of de toolbar van de pagina moet worden verwijderd