Ga naar de hoofdinhoud

HTML::ArticleExtractor - Scraper voor artikelen

Overzicht van de scraper

Overzicht van de scraperHTML::ArticleExtractorHTML::ArticleExtractor verzamelt artikelen van webpagina's.

Werkt met behulp van de module @mozilla/readability die is ingebouwd in A-Parser en verzamelt belangrijke gegevens zoals: titel, inhoud met en zonder HTML-opmaak, en de lengte van het artikel.

Maakt in de basis gebruik van de scraper Net::HTTPNet::HTTP, dit maakt het mogelijk om de functionaliteit ervan te ondersteunen. Ondersteunt multipage scraping (navigeren door pagina's). Heeft ingebouwde middelen om de beveiliging te omzeilen van CloudFlare en ook de mogelijkheid om te kiezen voor Chrome als engine voor het scrapen van e-mails van pagina's waarvan de gegevens via scripts worden geladen.

Kan een snelheid bereiken tot 200 verzoeken per minuut – dat zijn 12 000 links per uur.

Verzamelde gegevens

  • Artikeltitel - $title
  • HTML-string van de verwerkte artikelinhoud - $content
  • Tekstinhoud van het artikel (alle HTML verwijderd) - $textContent
  • Artikellengte in tekens - $length
  • Artikelbeschrijving of een kort fragment uit de inhoud - $excerpt
  • Metadata van de auteur - $byline
  • Websitenaam - $siteName

Mogelijkheden

  • Multipage scraping (navigeren door pagina's)
  • Ondersteunt compressie gzip/deflate/brotli
  • Detectie en conversie van website-coderingen naar UTF-8
  • Omzeilen van CloudFlare-beveiliging
  • Keuze van engine (HTTP of Chrome)
  • Mogelijkheid om de artikellengte op te geven
  • Gegevensextractie van artikelen met en zonder HTML-tags

Gebruiksscenario's

  • Verzamelen van kant-en-klare artikelen van willekeurige websites

Query's

Als query's moeten links naar de pagina's worden opgegeven waarvan de artikelen moeten worden gescraped, bijvoorbeeld:

https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s

Voorbeelden van resultaatuitvoer

A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een vrije vorm kunnen worden uitgevoerd, evenals in gestructureerde formaten zoals CSV of JSON

Mogelijke instellingen