Przejdź do treści głównej

SE::Google::Cache - Sprawdzanie obecności stron w pamięci podręcznej Google

Google Cache

Przegląd scrapera

Scraper Google Cache sprawdza obecność strony w pamięci podręcznej (cache) Google.

Zapisywanie wyników jest możliwe w dowolnej formie i strukturze, dzięki wbudowanemu potężnemu silnikowi szablonów Template Toolkit, który pozwala na stosowanie dodatkowej logiki do wyników i eksportowanie danych w różnych formatach, w tym JSON, SQL i CSV.

Zbierane dane

Zbierane dane
  • Data indeksacji strony w cache
  • Data indeksacji strony w formacie Unix
  • Obecność strony w cache
  • Dane strony bez paska narzędzi google-toolbar

Warianty użycia

  • Określanie obecności strony w pamięci podręcznej Google
  • Pobieranie daty ostatniego snapshotu Google
  • Pobieranie daty ostatniego snapshotu Google w formacie Unix
  • Pobieranie zawartości strony znajdującej się w cache

Zapytania

Jako zapytania należy podawać adresy URL stron, na przykład:

https://a-parser.com
https://lenta.ru/

Warianty wyprowadzania wyników

Wyprowadzanie domyślne

Format wyniku:

$query: $exists - $date\n

Przykład wyniku, w którym wyświetlona jest domena, obecność w cache (1 lub 0) oraz data buforowania:

https://lenta.ru/: 1 -  25 Dec 2020 10:44:05 GMT

Wyprowadzanie do tabeli CSV

Format wyniku:

[% tools.CSVline(query, exists, date, timestamp) %]

Przykład wyniku:

https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944

Możliwe ustawienia

ParametrWartość domyślnaOpis
Use sessionsZapisuje dobre sesje, co pozwala na jeszcze szybsze scrapowanie przy mniejszej liczbie błędów
Util::ReCaptcha2 presetdefaultOkreśla, czy używać Util::ReCaptcha2Util::ReCaptcha2 do omijania reCAPTCHA
Remove toolbarOkreśla, czy należy usuwać pasek narzędzi (toolbar) ze strony