HTML::ArticleExtractor - Extractor de artículos

Resumen del extractor

HTML::ArticleExtractor recopila artículos de páginas web.

Funciona mediante el módulo @mozilla/readability que está integrado en A-Parser y recopila datos principales como: título, contenido con y sin marcado HTML, y longitud del artículo.

Se basa en el extractor Net::HTTP, esto permite mantener su funcionalidad. Soporta extracción de datos multipágina (navegación por páginas). Tiene herramientas integradas para omitir la protección de CloudFlare y también la posibilidad de elegir Chrome como motor para la extracción de correos de páginas donde los datos se cargan mediante scripts.

Capaz de alcanzar una velocidad de hasta 200 consultas por minuto – esto es 12 000 enlaces por hora.

Ir a la DEMO Comprar A-Parser Pro ($299)

Datos recopilados

Título del artículo - $title
Cadena HTML del contenido procesado del artículo - $content
Contenido de texto del artículo (todo el HTML eliminado) - $textContent
Longitud del artículo en caracteres - $length
Descripción del artículo o un breve fragmento del contenido - $excerpt
Metadatos del autor - $byline
Nombre del sitio - $siteName

Características

Extracción de datos multipágina (navegación por páginas)
Soporta compresión gzip/deflate/brotli
Detección y conversión de codificaciones de sitios a UTF-8
Omisión de la protección de CloudFlare
Elección del motor (HTTP o Chrome)
Posibilidad de establecer la longitud del artículo
Extracción de datos de artículos con etiquetas HTML y sin ellas

Casos de uso

Recopilación de artículos listos de cualquier sitio

Consultas

Como consultas, es necesario indicar los enlaces a las páginas de las cuales se deben extraer los artículos, por ejemplo:

https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s

Ejemplos de salida de resultados

A-Parser admite un formateo flexible de resultados gracias al motor de plantillas integrado Template Toolkit, lo que le permite mostrar los resultados en forma libre, así como en forma estructurada, por ejemplo CSV o JSON

Configuraciones posibles

nota

Configuración común para todos los extractores Soporta todos los ajustes del extractor Net::HTTP.

Resumen del extractor​

Datos recopilados​

Características​

Casos de uso​

Consultas​

Ejemplos de salida de resultados​

Configuraciones posibles​