HTML::ArticleExtractor - Extractor de artículos
Resumen del extractor

HTML::ArticleExtractor recopila artículos de páginas web.Funciona mediante el módulo @mozilla/readability que está integrado en A-Parser y recopila datos principales como: título, contenido con y sin marcado HTML, y longitud del artículo.
Se basa en el extractor
Net::HTTP, esto permite mantener su funcionalidad. Soporta extracción de datos multipágina (navegación por páginas). Tiene herramientas integradas para omitir la protección de CloudFlare y también la posibilidad de elegir Chrome como motor para la extracción de correos de páginas donde los datos se cargan mediante scripts.
Capaz de alcanzar una velocidad de hasta 200 consultas por minuto – esto es 12 000 enlaces por hora.
Datos recopilados
- Título del artículo -
$title - Cadena HTML del contenido procesado del artículo -
$content - Contenido de texto del artículo (todo el HTML eliminado) -
$textContent - Longitud del artículo en caracteres -
$length - Descripción del artículo o un breve fragmento del contenido -
$excerpt - Metadatos del autor -
$byline - Nombre del sitio -
$siteName
Características
- Extracción de datos multipágina (navegación por páginas)
- Soporta compresión gzip/deflate/brotli
- Detección y conversión de codificaciones de sitios a UTF-8
- Omisión de la protección de CloudFlare
- Elección del motor (HTTP o Chrome)
- Posibilidad de establecer la longitud del artículo
- Extracción de datos de artículos con etiquetas HTML y sin ellas
Casos de uso
- Recopilación de artículos listos de cualquier sitio
Consultas
Como consultas, es necesario indicar los enlaces a las páginas de las cuales se deben extraer los artículos, por ejemplo:
https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s
Ejemplos de salida de resultados
A-Parser admite un formateo flexible de resultados gracias al motor de plantillas integrado Template Toolkit, lo que le permite mostrar los resultados en forma libre, así como en forma estructurada, por ejemplo CSV o JSON
Configuraciones posibles
Configuración común para todos los extractores
Soporta todos los ajustes del extractor
Net::HTTP.