SE::Google::Cache - Verificação de páginas no cache do Google

Visão geral do scraper
O scraper Google Cache verifica a presença de uma página no cache do Google.
A preservação dos resultados é possível na forma e estrutura que você necessita, graças ao poderoso modelo integrado Template Toolkit que permite aplicar lógica adicional aos resultados e exibir dados em vários formatos, incluindo JSON, SQL e CSV.
Dados coletados

- Data de indexação da página no cache
- Data de indexação da página no formato Unix
- Presença da página no cache
- Dados da página sem a google-toolbar
Casos de uso
- Determinar a presença de uma página no cache do Google
- Obter a data do último snapshot do Google
- Obter a data do último snapshot do Google no formato Unix
- Obter o conteúdo da página que está no cache
Consultas
Como consultas, é necessário indicar a URL da página, por exemplo:
https://a-parser.com
https://lenta.ru/
Exemplos de saída de resultados
Saída padrão
Formato do resultado:
$query: $exists - $date\n
Exemplo de resultado, no qual são exibidos o domínio, a presença no cache (1 ou 0) e a data de cache:
https://lenta.ru/: 1 - 25 Dec 2020 10:44:05 GMT
Saída em tabela CSV
Formato do resultado:
[% tools.CSVline(query, exists, date, timestamp) %]
Exemplo de resultado:
https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944
Configurações possíveis
| Parâmetro | Valor padrão | Descrição |
|---|---|---|
| Use sessions | ☑ | Salva sessões boas, o que permite a extração de dados ainda mais rápida, obtendo um menor número de erros |
| Util::ReCaptcha2 preset | default | Define se deve usar Util::ReCaptcha2 para contornar reCAPTCHAs |
| Remove toolbar | ☑ | Indica se deve remover a toolbar da página |
