Vai al contenuto principale

HTML::ArticleExtractor - Scraper di articoli

Panoramica dello scraper

Panoramica dello scraperHTML::ArticleExtractorHTML::ArticleExtractor raccoglie articoli dalle pagine web.

Funziona tramite il modulo @mozilla/readability integrato in A-Parser e raccoglie dati principali quali: titolo, contenuto con e senza formattazione HTML, lunghezza dell'articolo.

Si basa sullo scraper Net::HTTPNet::HTTP, questo consente di supportarne le funzionalità. Supporta lo scraping multipagina (navigazione tra le pagine). Dispone di strumenti integrati per aggirare la protezione CloudFlare e anche la possibilità di scegliere Chrome come motore per lo scraping di email dalle pagine in cui i dati vengono caricati tramite script.

In grado di raggiungere velocità fino a 200 richieste al minuto – ovvero 12 000 link all'ora.

Dati raccolti

  • Titolo dell'articolo - $title
  • Stringa HTML del contenuto elaborato dell'articolo - $content
  • Contenuto testuale dell'articolo (tutto l'HTML rimosso) - $textContent
  • Lunghezza dell'articolo in caratteri - $length
  • Descrizione dell'articolo o breve estratto del contenuto - $excerpt
  • Metadati dell'autore - $byline
  • Nome del sito - $siteName

Funzionalità

  • Scraping multipagina (navigazione tra le pagine)
  • Supporta la compressione gzip/deflate/brotli
  • Rilevamento e conversione della codifica dei siti in UTF-8
  • Aggiramento della protezione CloudFlare
  • Scelta del motore (HTTP o Chrome)
  • Possibilità di impostare la lunghezza dell'articolo
  • Scraping di articoli con e senza tag HTML

Casi d'uso

  • Raccolta di articoli pronti da qualsiasi sito

Query

Come query, è necessario specificare i link alle pagine da cui si desidera estrarre gli articoli, ad esempio:

https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s

Esempi di output dei risultati

A-Parser supporta la formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma libera o strutturata, come CSV o JSON

Impostazioni possibili