Przejdź do treści głównej

HTML::ArticleExtractor - Scraper artykułów

Przegląd scrapera

Przegląd scraperaHTML::ArticleExtractorHTML::ArticleExtractor zbiera artykuły ze stron internetowych.

Działa za pomocą modułu @mozilla/readability, który jest wbudowany w A-Parser i zbiera takie główne dane jak: tytuł, treść z formatowaniem HTML i bez, długość artykułu.

W swojej podstawie wykorzystuje scraper Net::HTTPNet::HTTP, co pozwala na wsparcie jego funkcjonalności. Obsługuje scrapowanie wielostronicowe (przechodzenie po stronach). Posiada wbudowane narzędzia do omijania zabezpieczeń CloudFlare a także możliwość wyboru Chrome jako silnika do scrapowania e-maili ze stron, na których dane są ładowane przez skrypty.

Jest w stanie osiągnąć prędkość do 200 zapytań na minutę – co daje 12 000 linków na godzinę.

Zbierane dane

  • Tytuł artykułu - $title
  • Ciąg HTML przetworzonej zawartości artykułu - $content
  • Tekstowa zawartość artykułu (cały HTML usunięty) - $textContent
  • Długość artykułu w znakach - $length
  • Opis artykułu lub krótki fragment treści - $excerpt
  • Metadane autora - $byline
  • Nazwa strony - $siteName

Funkcje

  • Scrapowanie wielostronicowe (przechodzenie po stronach)
  • Obsługuje kompresję gzip/deflate/brotli
  • Wykrywanie i konwersja kodowania stron na UTF-8
  • Omijanie zabezpieczeń CloudFlare
  • Wybór silnika (HTTP lub Chrome)
  • Możliwość określenia długości artykułu
  • Scrapowanie artykułów z tagami HTML i bez

Zastosowania

  • Zbieranie gotowych artykułów z dowolnych stron

Zapytania

Jako zapytania należy podawać linki do stron, z których należy scrapować artykuły, na przykład:

https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s

Warianty wyników

A-Parser obsługuje elastyczne formatowanie wyników dzięki wbudowanemu silnikowi szablonów Template Toolkit, co pozwala na wyprowadzanie wyników w dowolnej formie, a także w formie ustrukturyzowanej, np. CSV lub JSON

Możliwe ustawienia