Hoppa till huvudinnehåll

HTML::ArticleExtractor - Scraper för artiklar

Översikt av scrapern

Översikt av scrapernHTML::ArticleExtractorHTML::ArticleExtractor samlar artiklar från webbsidor.

Den fungerar med hjälp av modulen @mozilla/readability som är inbyggd i A-Parser och samlar in huvuddata såsom: rubrik, innehåll med och utan HTML-formatering, samt artikelns längd.

Använder i grunden scrapern Net::HTTPNet::HTTP, vilket gör det möjligt att stödja dess funktionalitet. Stöder flersidig dataskrapning (sidnavigering). Har inbyggda verktyg för att kringgå skydd från CloudFlare och även möjlighet att välja Chrome som motor för att skrapa e-post från sidor där data laddas med skript.

Kan nå hastigheter upp till 200 förfrågningar per minut – vilket är 12 000 länkar per timme.

Insamlade data

  • Artikelrubrik - $title
  • HTML-sträng med artikelns bearbetade innehåll - $content
  • Artikelns textinnehåll (all HTML borttagen) - $textContent
  • Artikelns längd i tecken - $length
  • Artikelbeskrivning eller ett kort utdrag ur innehållet - $excerpt
  • Metadata om författaren - $byline
  • Webbplatsens namn - $siteName

Funktioner

  • Flersidig dataskrapning (sidnavigering)
  • Stöder komprimering gzip/deflate/brotli
  • Identifiering och konvertering av webbplatsers kodning till UTF-8
  • Kringgående av CloudFlare-skydd
  • Val av motor (HTTP eller Chrome)
  • Möjlighet att ange artikellängd
  • Dataskrapning av artiklar med HTML-taggar och utan

Användningsfall

  • Insamling av färdiga artiklar från valfria webbplatser

Frågor

Som frågor måste du ange länkar till de sidor som artiklarna ska skrapas från, till exempel:

https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s

Exempel på resultatutdata

A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallhanteraren Template Toolkit, vilket gör det möjligt att mata ut resultat i valfri form, samt i strukturerad form som CSV eller JSON

Möjliga inställningar