SE::Google::Cache - Sprawdzanie obecności stron w pamięci podręcznej Google

Przegląd scrapera
Scraper Google Cache sprawdza obecność strony w pamięci podręcznej (cache) Google.
Zapisywanie wyników jest możliwe w dowolnej formie i strukturze, dzięki wbudowanemu potężnemu silnikowi szablonów Template Toolkit, który pozwala na stosowanie dodatkowej logiki do wyników i eksportowanie danych w różnych formatach, w tym JSON, SQL i CSV.
Zbierane dane

- Data indeksacji strony w cache
- Data indeksacji strony w formacie Unix
- Obecność strony w cache
- Dane strony bez paska narzędzi google-toolbar
Warianty użycia
- Określanie obecności strony w pamięci podręcznej Google
- Pobieranie daty ostatniego snapshotu Google
- Pobieranie daty ostatniego snapshotu Google w formacie Unix
- Pobieranie zawartości strony znajdującej się w cache
Zapytania
Jako zapytania należy podawać adresy URL stron, na przykład:
https://a-parser.com
https://lenta.ru/
Warianty wyprowadzania wyników
Wyprowadzanie domyślne
Format wyniku:
$query: $exists - $date\n
Przykład wyniku, w którym wyświetlona jest domena, obecność w cache (1 lub 0) oraz data buforowania:
https://lenta.ru/: 1 - 25 Dec 2020 10:44:05 GMT
Wyprowadzanie do tabeli CSV
Format wyniku:
[% tools.CSVline(query, exists, date, timestamp) %]
Przykład wyniku:
https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944
Możliwe ustawienia
| Parametr | Wartość domyślna | Opis |
|---|---|---|
| Use sessions | ☑ | Zapisuje dobre sesje, co pozwala na jeszcze szybsze scrapowanie przy mniejszej liczbie błędów |
| Util::ReCaptcha2 preset | default | Określa, czy używać Util::ReCaptcha2 do omijania reCAPTCHA |
| Remove toolbar | ☑ | Określa, czy należy usuwać pasek narzędzi (toolbar) ze strony |
