Pular para o conteúdo principal

SE::Google::Cache - Verificação de páginas no cache do Google

Google Cache

Visão geral do scraper

O scraper Google Cache verifica a presença de uma página no cache do Google.

A preservação dos resultados é possível na forma e estrutura que você necessita, graças ao poderoso modelo integrado Template Toolkit que permite aplicar lógica adicional aos resultados e exibir dados em vários formatos, incluindo JSON, SQL e CSV.

Dados coletados

Dados coletados
  • Data de indexação da página no cache
  • Data de indexação da página no formato Unix
  • Presença da página no cache
  • Dados da página sem a google-toolbar

Casos de uso

  • Determinar a presença de uma página no cache do Google
  • Obter a data do último snapshot do Google
  • Obter a data do último snapshot do Google no formato Unix
  • Obter o conteúdo da página que está no cache

Consultas

Como consultas, é necessário indicar a URL da página, por exemplo:

https://a-parser.com
https://lenta.ru/

Exemplos de saída de resultados

Saída padrão

Formato do resultado:

$query: $exists - $date\n

Exemplo de resultado, no qual são exibidos o domínio, a presença no cache (1 ou 0) e a data de cache:

https://lenta.ru/: 1 -  25 Dec 2020 10:44:05 GMT

Saída em tabela CSV

Formato do resultado:

[% tools.CSVline(query, exists, date, timestamp) %]

Exemplo de resultado:

https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944

Configurações possíveis

ParâmetroValor padrãoDescrição
Use sessionsSalva sessões boas, o que permite a extração de dados ainda mais rápida, obtendo um menor número de erros
Util::ReCaptcha2 presetdefaultDefine se deve usar Util::ReCaptcha2Util::ReCaptcha2 para contornar reCAPTCHAs
Remove toolbarIndica se deve remover a toolbar da página