HTML::ArticleExtractor - Artikel-Parser
Übersicht des Parsers

HTML::ArticleExtractor sammelt Artikel von Webseiten.Es arbeitet mit dem Modul @mozilla/readability, das in A-Parser integriert ist, und sammelt grundlegende Daten wie: Titel, Inhalt mit und ohne HTML-Markup sowie die Artikellänge.
Verwendet im Kern den Parser
Net::HTTP, dies ermöglicht es, dessen Funktionalität zu unterstützen. Unterstützt mehrseitige Datenerfassung (Navigation durch Seiten). Verfügt über integrierte Mittel zur Umgehung des Schutzes von CloudFlare und bietet zudem die Wahl von Chrome als Engine für die Datenerfassung von E-Mails auf Seiten, deren Daten durch Skripte nachgeladen werden.
Kann eine Geschwindigkeit von bis zu 200 Anfragen pro Minute erreichen – das sind 12 000 Links pro Stunde.
Gesammelte Daten
- Artikeltitel -
$title - HTML-String des verarbeiteten Artikelinhalts -
$content - Textinhalt des Artikels (gesamtes HTML entfernt) -
$textContent - Länge des Artikels in Zeichen -
$length - Artikelbeschreibung oder ein kurzer Auszug aus dem Inhalt -
$excerpt - Metadaten des Autors -
$byline - Name der Website -
$siteName
Funktionen
- Mehrseitige Datenerfassung (Navigation durch Seiten)
- Unterstützt Komprimierung gzip/deflate/brotli
- Erkennung und Konvertierung von Website-Kodierungen in UTF-8
- Umgehung des CloudFlare-Schutzes
- Wahl der Engine (HTTP oder Chrome)
- Möglichkeit, die Artikellänge festzulegen
- Datenerfassung von Artikeln mit und ohne HTML-Tags
Anwendungsfälle
- Sammeln fertiger Artikel von beliebigen Websites
Abfragen
Als Abfragen müssen Links zu den Seiten angegeben werden, von denen Artikel extrahiert werden sollen, zum Beispiel:
https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s
Ausgabebeispiele
A-Parser unterstützt eine flexible Formatierung der Ergebnisse dank der integrierten Template-Engine Template Toolkit, was die Ausgabe in beliebiger Form sowie in strukturierter Form wie CSV oder JSON ermöglicht.
Mögliche Einstellungen
Allgemeine Einstellungen für alle Scraper
Unterstützt alle Einstellungen des Parsers
Net::HTTP.