HTML::ArticleExtractor - Scraper för artiklar
Översikt av scrapern

HTML::ArticleExtractor samlar artiklar från webbsidor.Den fungerar med hjälp av modulen @mozilla/readability som är inbyggd i A-Parser och samlar in huvuddata såsom: rubrik, innehåll med och utan HTML-formatering, samt artikelns längd.
Använder i grunden scrapern
Net::HTTP, vilket gör det möjligt att stödja dess funktionalitet. Stöder flersidig dataskrapning (sidnavigering). Har inbyggda verktyg för att kringgå skydd från CloudFlare och även möjlighet att välja Chrome som motor för att skrapa e-post från sidor där data laddas med skript.
Kan nå hastigheter upp till 200 förfrågningar per minut – vilket är 12 000 länkar per timme.
Insamlade data
- Artikelrubrik -
$title - HTML-sträng med artikelns bearbetade innehåll -
$content - Artikelns textinnehåll (all HTML borttagen) -
$textContent - Artikelns längd i tecken -
$length - Artikelbeskrivning eller ett kort utdrag ur innehållet -
$excerpt - Metadata om författaren -
$byline - Webbplatsens namn -
$siteName
Funktioner
- Flersidig dataskrapning (sidnavigering)
- Stöder komprimering gzip/deflate/brotli
- Identifiering och konvertering av webbplatsers kodning till UTF-8
- Kringgående av CloudFlare-skydd
- Val av motor (HTTP eller Chrome)
- Möjlighet att ange artikellängd
- Dataskrapning av artiklar med HTML-taggar och utan
Användningsfall
- Insamling av färdiga artiklar från valfria webbplatser
Frågor
Som frågor måste du ange länkar till de sidor som artiklarna ska skrapas från, till exempel:
https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s
Exempel på resultatutdata
A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallhanteraren Template Toolkit, vilket gör det möjligt att mata ut resultat i valfri form, samt i strukturerad form som CSV eller JSON
Möjliga inställningar
Allmänna inställningar för alla scrapers
Stöder alla inställningar för
Net::HTTP-scrapern.