HTML::ArticleExtractor - Scraper artykułów

Przegląd scrapera

HTML::ArticleExtractor zbiera artykuły ze stron internetowych.

Działa za pomocą modułu @mozilla/readability, który jest wbudowany w A-Parser i zbiera takie główne dane jak: tytuł, treść z formatowaniem HTML i bez, długość artykułu.

W swojej podstawie wykorzystuje scraper Net::HTTP, co pozwala na wsparcie jego funkcjonalności. Obsługuje scrapowanie wielostronicowe (przechodzenie po stronach). Posiada wbudowane narzędzia do omijania zabezpieczeń CloudFlare a także możliwość wyboru Chrome jako silnika do scrapowania e-maili ze stron, na których dane są ładowane przez skrypty.

Jest w stanie osiągnąć prędkość do 200 zapytań na minutę – co daje 12 000 linków na godzinę.

Przejdź do DEMO Kup A-Parser Pro ($299)

Zbierane dane

Tytuł artykułu - $title
Ciąg HTML przetworzonej zawartości artykułu - $content
Tekstowa zawartość artykułu (cały HTML usunięty) - $textContent
Długość artykułu w znakach - $length
Opis artykułu lub krótki fragment treści - $excerpt
Metadane autora - $byline
Nazwa strony - $siteName

Funkcje

Scrapowanie wielostronicowe (przechodzenie po stronach)
Obsługuje kompresję gzip/deflate/brotli
Wykrywanie i konwersja kodowania stron na UTF-8
Omijanie zabezpieczeń CloudFlare
Wybór silnika (HTTP lub Chrome)
Możliwość określenia długości artykułu
Scrapowanie artykułów z tagami HTML i bez

Zastosowania

Zbieranie gotowych artykułów z dowolnych stron

Zapytania

Jako zapytania należy podawać linki do stron, z których należy scrapować artykuły, na przykład:

https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s

Warianty wyników

A-Parser obsługuje elastyczne formatowanie wyników dzięki wbudowanemu silnikowi szablonów Template Toolkit, co pozwala na wyprowadzanie wyników w dowolnej formie, a także w formie ustrukturyzowanej, np. CSV lub JSON

Możliwe ustawienia

notatka

Ogólne ustawienia dla wszystkich scraperów Obsługuje wszystkie ustawienia scrapera Net::HTTP.

Przegląd scrapera​

Zbierane dane​

Funkcje​

Zastosowania​

Zapytania​

Warianty wyników​

Możliwe ustawienia​