Pular para o conteúdo principal

HTML::ArticleExtractor - Scraper de artigos

Visão geral do scraper

Visão geral do scraperHTML::ArticleExtractorHTML::ArticleExtractor extrai artigos de páginas da web.

Funciona através do módulo @mozilla/readability que está integrado no A-Parser e coleta dados principais como: título, conteúdo com e sem formatação HTML, e o comprimento do artigo.

Utiliza como base o scraper Net::HTTPNet::HTTP, isso permite manter sua funcionalidade. Suporta extração de dados em múltiplas páginas (navegação por páginas). Possui meios integrados para contornar a proteção CloudFlare e também a possibilidade de escolher Chrome como motor para extração de e-mails de páginas onde os dados são carregados por scripts.

Capaz de atingir a velocidade de até 200 requisições por minuto – isso são 12 000 links por hora.

Dados coletados

  • Título do artigo - $title
  • String HTML do conteúdo processado do artigo - $content
  • Conteúdo de texto do artigo (todo o HTML removido) - $textContent
  • Comprimento do artigo em caracteres - $length
  • Descrição do artigo ou um pequeno trecho do conteúdo - $excerpt
  • Metadados do autor - $byline
  • Nome do site - $siteName

Recursos

  • Extração de dados em múltiplas páginas (navegação por páginas)
  • Suporta compressão gzip/deflate/brotli
  • Detecção e conversão de codificações de sites para UTF-8
  • Contorno de proteção CloudFlare
  • Escolha do motor (HTTP ou Chrome)
  • Possibilidade de definir o comprimento do artigo
  • Extração de dados de artigos com tags HTML e sem

Variantes de uso

  • Coleta de artigos prontos de quaisquer sites

Consultas

Como consultas, é necessário indicar links para as páginas das quais deseja extrair os artigos, por exemplo:

https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s

Variantes de exibição de resultados

O A-Parser suporta formatação flexível de resultados graças ao modelo integrado Template Toolkit, o que permite exibir resultados em forma livre, bem como estruturada, por exemplo CSV ou JSON

Configurações possíveis