HTML::ArticleExtractor - Scraper di articoli
Panoramica dello scraper

HTML::ArticleExtractor raccoglie articoli dalle pagine web.Funziona tramite il modulo @mozilla/readability integrato in A-Parser e raccoglie dati principali quali: titolo, contenuto con e senza formattazione HTML, lunghezza dell'articolo.
Si basa sullo scraper
Net::HTTP, questo consente di supportarne le funzionalità. Supporta lo scraping multipagina (navigazione tra le pagine). Dispone di strumenti integrati per aggirare la protezione CloudFlare e anche la possibilità di scegliere Chrome come motore per lo scraping di email dalle pagine in cui i dati vengono caricati tramite script.
In grado di raggiungere velocità fino a 200 richieste al minuto – ovvero 12 000 link all'ora.
Dati raccolti
- Titolo dell'articolo -
$title - Stringa HTML del contenuto elaborato dell'articolo -
$content - Contenuto testuale dell'articolo (tutto l'HTML rimosso) -
$textContent - Lunghezza dell'articolo in caratteri -
$length - Descrizione dell'articolo o breve estratto del contenuto -
$excerpt - Metadati dell'autore -
$byline - Nome del sito -
$siteName
Funzionalità
- Scraping multipagina (navigazione tra le pagine)
- Supporta la compressione gzip/deflate/brotli
- Rilevamento e conversione della codifica dei siti in UTF-8
- Aggiramento della protezione CloudFlare
- Scelta del motore (HTTP o Chrome)
- Possibilità di impostare la lunghezza dell'articolo
- Scraping di articoli con e senza tag HTML
Casi d'uso
- Raccolta di articoli pronti da qualsiasi sito
Query
Come query, è necessario specificare i link alle pagine da cui si desidera estrarre gli articoli, ad esempio:
https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s
Esempi di output dei risultati
A-Parser supporta la formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma libera o strutturata, come CSV o JSON
Impostazioni possibili
Impostazioni comuni per tutti gli scraper
Supporta tutte le impostazioni dello scraper
Net::HTTP.