HTML::ArticleExtractor - Scraper de artigos
Visão geral do scraper

HTML::ArticleExtractor extrai artigos de páginas da web.Funciona através do módulo @mozilla/readability que está integrado no A-Parser e coleta dados principais como: título, conteúdo com e sem formatação HTML, e o comprimento do artigo.
Utiliza como base o scraper
Net::HTTP, isso permite manter sua funcionalidade. Suporta extração de dados em múltiplas páginas (navegação por páginas). Possui meios integrados para contornar a proteção CloudFlare e também a possibilidade de escolher Chrome como motor para extração de e-mails de páginas onde os dados são carregados por scripts.
Capaz de atingir a velocidade de até 200 requisições por minuto – isso são 12 000 links por hora.
Dados coletados
- Título do artigo -
$title - String HTML do conteúdo processado do artigo -
$content - Conteúdo de texto do artigo (todo o HTML removido) -
$textContent - Comprimento do artigo em caracteres -
$length - Descrição do artigo ou um pequeno trecho do conteúdo -
$excerpt - Metadados do autor -
$byline - Nome do site -
$siteName
Recursos
- Extração de dados em múltiplas páginas (navegação por páginas)
- Suporta compressão gzip/deflate/brotli
- Detecção e conversão de codificações de sites para UTF-8
- Contorno de proteção CloudFlare
- Escolha do motor (HTTP ou Chrome)
- Possibilidade de definir o comprimento do artigo
- Extração de dados de artigos com tags HTML e sem
Variantes de uso
- Coleta de artigos prontos de quaisquer sites
Consultas
Como consultas, é necessário indicar links para as páginas das quais deseja extrair os artigos, por exemplo:
https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s
Variantes de exibição de resultados
O A-Parser suporta formatação flexível de resultados graças ao modelo integrado Template Toolkit, o que permite exibir resultados em forma livre, bem como estruturada, por exemplo CSV ou JSON
Configurações possíveis
Configurações gerais para todos os scrapers
Suporta todas as configurações do scraper
Net::HTTP.