HTML::ArticleExtractor - Scraper de artigos

Visão geral do scraper

HTML::ArticleExtractor extrai artigos de páginas da web.

Funciona através do módulo @mozilla/readability que está integrado no A-Parser e coleta dados principais como: título, conteúdo com e sem formatação HTML, e o comprimento do artigo.

Utiliza como base o scraper Net::HTTP, isso permite manter sua funcionalidade. Suporta extração de dados em múltiplas páginas (navegação por páginas). Possui meios integrados para contornar a proteção CloudFlare e também a possibilidade de escolher Chrome como motor para extração de e-mails de páginas onde os dados são carregados por scripts.

Capaz de atingir a velocidade de até 200 requisições por minuto – isso são 12 000 links por hora.

Ir para DEMO Comprar A-Parser Pro ($299)

Dados coletados

Título do artigo - $title
String HTML do conteúdo processado do artigo - $content
Conteúdo de texto do artigo (todo o HTML removido) - $textContent
Comprimento do artigo em caracteres - $length
Descrição do artigo ou um pequeno trecho do conteúdo - $excerpt
Metadados do autor - $byline
Nome do site - $siteName

Recursos

Extração de dados em múltiplas páginas (navegação por páginas)
Suporta compressão gzip/deflate/brotli
Detecção e conversão de codificações de sites para UTF-8
Contorno de proteção CloudFlare
Escolha do motor (HTTP ou Chrome)
Possibilidade de definir o comprimento do artigo
Extração de dados de artigos com tags HTML e sem

Variantes de uso

Coleta de artigos prontos de quaisquer sites

Consultas

Como consultas, é necessário indicar links para as páginas das quais deseja extrair os artigos, por exemplo:

https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s

Variantes de exibição de resultados

O A-Parser suporta formatação flexível de resultados graças ao modelo integrado Template Toolkit, o que permite exibir resultados em forma livre, bem como estruturada, por exemplo CSV ou JSON

Configurações possíveis

nota

Configurações gerais para todos os scrapers Suporta todas as configurações do scraper Net::HTTP.

Visão geral do scraper​

Dados coletados​

Recursos​

Variantes de uso​

Consultas​

Variantes de exibição de resultados​

Configurações possíveis​