SE::Google::Cache - Comprobación de la presencia de páginas en la caché de Google

Revisión del extractor
El extractor Google Cache comprueba la presencia de una página en el caché de Google.
La conservación de los resultados es posible en la forma y estructura que necesite, gracias al potente motor de plantillas integrado Template Toolkit que permite aplicar lógica adicional a los resultados y exportar datos en varios formatos, incluyendo JSON, SQL y CSV.
Datos recopilados

- Fecha de indexación de la página en el caché
- Fecha de indexación de la página en formato Unix
- Presencia de la página en el caché
- Datos de la página sin la barra de herramientas de Google (google-toolbar)
Casos de uso
- Determinar la presencia de una página en el caché de Google
- Obtener la fecha de la última instantánea (snapshot) de Google
- Obtener la fecha de la última instantánea de Google en formato Unix
- Obtener el contenido de la página que se encuentra en el caché
Consultas
Como consultas, es necesario especificar la URL de la página, por ejemplo:
https://a-parser.com
https://lenta.ru/
Ejemplos de salida de resultados
Salida por defecto
Formato del resultado:
$query: $exists - $date\n
Ejemplo de resultado, en el que se muestra el dominio, la presencia en el caché (1 o 0) y la fecha de almacenamiento en caché:
https://lenta.ru/: 1 - 25 Dec 2020 10:44:05 GMT
Salida en tabla CSV
Formato del resultado:
[% tools.CSVline(query, exists, date, timestamp) %]
Ejemplo de resultado:
https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944
Ajustes posibles
| Parámetro | Valor por defecto | Descripción |
|---|---|---|
| Use sessions | ☑ | Guarda las sesiones buenas, lo que permite realizar la extracción de datos aún más rápido, obteniendo un menor número de errores |
| Util::ReCaptcha2 preset | default | Determina si se debe usar Util::ReCaptcha2 para evadir reCAPTCHA |
| Remove toolbar | ☑ | Indica si se debe eliminar la barra de herramientas de la página |
