SE::Google::Cache - Controleren van pagina's in de Google-cache

Overzicht van de scraper
De Google Cache scraper controleert de aanwezigheid van een pagina in de Google-cache.
Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV.
Verzamelde gegevens

- Indexeringsdatum van de pagina in de cache
- Indexeringsdatum van de pagina in Unix-formaat
- Aanwezigheid van de pagina in de cache
- Paginagegevens zonder de Google-toolbar
Toepassingen
- Bepalen of een pagina aanwezig is in de Google-cache
- De datum van de laatste Google-snapshot ophalen
- De datum van de laatste Google-snapshot ophalen in Unix-formaat
- De inhoud ophalen van de pagina die zich in de cache bevindt
Query's
Als query's moeten URL's naar de pagina worden opgegeven, bijvoorbeeld:
https://a-parser.com
https://lenta.ru/
Voorbeelden van resultaatuitvoer
Standaarduitvoer
Resultaatformaat:
$query: $exists - $date\n
Voorbeeld van een resultaat waarin het domein, de aanwezigheid in de cache (1 of 0) en de cache-datum worden weergegeven:
https://lenta.ru/: 1 - 25 Dec 2020 10:44:05 GMT
Uitvoer naar een CSV-tabel
Resultaatformaat:
[% tools.CSVline(query, exists, date, timestamp) %]
Voorbeeld van een resultaat:
https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944
Mogelijke instellingen
| Parameter | Standaardwaarde | Beschrijving |
|---|---|---|
| Use sessions | ☑ | Slaat goede sessies op, wat sneller scrapen mogelijk maakt met minder fouten |
| Util::ReCaptcha2 preset | default | Bepaalt of Util::ReCaptcha2 moet worden gebruikt om reCAPTCHA's te omzeilen |
| Remove toolbar | ☑ | Geeft aan of de toolbar van de pagina moet worden verwijderd |
