HTML::ArticleExtractor - Scraper artykułów
Przegląd scrapera

HTML::ArticleExtractor zbiera artykuły ze stron internetowych.Działa za pomocą modułu @mozilla/readability, który jest wbudowany w A-Parser i zbiera takie główne dane jak: tytuł, treść z formatowaniem HTML i bez, długość artykułu.
W swojej podstawie wykorzystuje scraper
Net::HTTP, co pozwala na wsparcie jego funkcjonalności. Obsługuje scrapowanie wielostronicowe (przechodzenie po stronach). Posiada wbudowane narzędzia do omijania zabezpieczeń CloudFlare a także możliwość wyboru Chrome jako silnika do scrapowania e-maili ze stron, na których dane są ładowane przez skrypty.
Jest w stanie osiągnąć prędkość do 200 zapytań na minutę – co daje 12 000 linków na godzinę.
Zbierane dane
- Tytuł artykułu -
$title - Ciąg HTML przetworzonej zawartości artykułu -
$content - Tekstowa zawartość artykułu (cały HTML usunięty) -
$textContent - Długość artykułu w znakach -
$length - Opis artykułu lub krótki fragment treści -
$excerpt - Metadane autora -
$byline - Nazwa strony -
$siteName
Funkcje
- Scrapowanie wielostronicowe (przechodzenie po stronach)
- Obsługuje kompresję gzip/deflate/brotli
- Wykrywanie i konwersja kodowania stron na UTF-8
- Omijanie zabezpieczeń CloudFlare
- Wybór silnika (HTTP lub Chrome)
- Możliwość określenia długości artykułu
- Scrapowanie artykułów z tagami HTML i bez
Zastosowania
- Zbieranie gotowych artykułów z dowolnych stron
Zapytania
Jako zapytania należy podawać linki do stron, z których należy scrapować artykuły, na przykład:
https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s
Warianty wyników
A-Parser obsługuje elastyczne formatowanie wyników dzięki wbudowanemu silnikowi szablonów Template Toolkit, co pozwala na wyprowadzanie wyników w dowolnej formie, a także w formie ustrukturyzowanej, np. CSV lub JSON
Możliwe ustawienia
Ogólne ustawienia dla wszystkich scraperów
Obsługuje wszystkie ustawienia scrapera
Net::HTTP.