Ir al contenido principal

HTML::ArticleExtractor - Extractor de artículos

Resumen del extractor

Resumen del extractorHTML::ArticleExtractorHTML::ArticleExtractor recopila artículos de páginas web.

Funciona mediante el módulo @mozilla/readability que está integrado en A-Parser y recopila datos principales como: título, contenido con y sin marcado HTML, y longitud del artículo.

Se basa en el extractor Net::HTTPNet::HTTP, esto permite mantener su funcionalidad. Soporta extracción de datos multipágina (navegación por páginas). Tiene herramientas integradas para omitir la protección de CloudFlare y también la posibilidad de elegir Chrome como motor para la extracción de correos de páginas donde los datos se cargan mediante scripts.

Capaz de alcanzar una velocidad de hasta 200 consultas por minuto – esto es 12 000 enlaces por hora.

Datos recopilados

  • Título del artículo - $title
  • Cadena HTML del contenido procesado del artículo - $content
  • Contenido de texto del artículo (todo el HTML eliminado) - $textContent
  • Longitud del artículo en caracteres - $length
  • Descripción del artículo o un breve fragmento del contenido - $excerpt
  • Metadatos del autor - $byline
  • Nombre del sitio - $siteName

Características

  • Extracción de datos multipágina (navegación por páginas)
  • Soporta compresión gzip/deflate/brotli
  • Detección y conversión de codificaciones de sitios a UTF-8
  • Omisión de la protección de CloudFlare
  • Elección del motor (HTTP o Chrome)
  • Posibilidad de establecer la longitud del artículo
  • Extracción de datos de artículos con etiquetas HTML y sin ellas

Casos de uso

  • Recopilación de artículos listos de cualquier sitio

Consultas

Como consultas, es necesario indicar los enlaces a las páginas de las cuales se deben extraer los artículos, por ejemplo:

https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s

Ejemplos de salida de resultados

A-Parser admite un formateo flexible de resultados gracias al motor de plantillas integrado Template Toolkit, lo que le permite mostrar los resultados en forma libre, así como en forma estructurada, por ejemplo CSV o JSON

Configuraciones posibles