HTML::ArticleExtractor - Scraper di articoli

Panoramica dello scraper

HTML::ArticleExtractor raccoglie articoli dalle pagine web.

Funziona tramite il modulo @mozilla/readability integrato in A-Parser e raccoglie dati principali quali: titolo, contenuto con e senza formattazione HTML, lunghezza dell'articolo.

Si basa sullo scraper Net::HTTP, questo consente di supportarne le funzionalità. Supporta lo scraping multipagina (navigazione tra le pagine). Dispone di strumenti integrati per aggirare la protezione CloudFlare e anche la possibilità di scegliere Chrome come motore per lo scraping di email dalle pagine in cui i dati vengono caricati tramite script.

In grado di raggiungere velocità fino a 200 richieste al minuto – ovvero 12 000 link all'ora.

Vai alla DEMO Acquista A-Parser Pro ($299)

Dati raccolti

Titolo dell'articolo - $title
Stringa HTML del contenuto elaborato dell'articolo - $content
Contenuto testuale dell'articolo (tutto l'HTML rimosso) - $textContent
Lunghezza dell'articolo in caratteri - $length
Descrizione dell'articolo o breve estratto del contenuto - $excerpt
Metadati dell'autore - $byline
Nome del sito - $siteName

Funzionalità

Scraping multipagina (navigazione tra le pagine)
Supporta la compressione gzip/deflate/brotli
Rilevamento e conversione della codifica dei siti in UTF-8
Aggiramento della protezione CloudFlare
Scelta del motore (HTTP o Chrome)
Possibilità di impostare la lunghezza dell'articolo
Scraping di articoli con e senza tag HTML

Casi d'uso

Raccolta di articoli pronti da qualsiasi sito

Query

Come query, è necessario specificare i link alle pagine da cui si desidera estrarre gli articoli, ad esempio:

https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s

Esempi di output dei risultati

A-Parser supporta la formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma libera o strutturata, come CSV o JSON

Impostazioni possibili

nota

Impostazioni comuni per tutti gli scraper Supporta tutte le impostazioni dello scraper Net::HTTP.

Panoramica dello scraper​

Dati raccolti​

Funzionalità​

Casi d'uso​

Query​

Esempi di output dei risultati​

Impostazioni possibili​