HTML::ArticleExtractor - Парсер статей

Обзор парсера

HTML::ArticleExtractor собирает статьи с веб-траниц.

Работает с помощью модуля @mozilla/readability который встроен в А-Парсер и собирает такие основные данные как: заглавие, контент с HTML версткой и без, длину статьи.

В основе использует парсер Net::HTTP, это позволяет поддерживать его функционал. Поддерживает многостраничный парсинг (переход по страницам). Имеет встроенные средства обхода защиты CloudFlare и также возможность выбора Chrome в качестве движка для парсинга почт со страниц, данные на которых подгружаются скриптами.

Способен развивать скорость до 200 запросов в минуту – это 12 000 ссылок за час.

Перейти к ДЕМО Купить A-Parser Pro ($299)

Собираемые данные

Заголовок статьи - $title
HTML-строка обработанного содержимого статьи - $content
Текстовое содержимое статьи (весь HTML удален) - $textContent
Длина статьи в символах - $length
Описание статьи или короткий отрывок из содержания - $excerpt
Метаданные автора - $byline
Название сайта - $siteName

Возможности

Многостраничный парсинг (переход по страницам)
Поддерживает сжатия gzip/deflate/brotli
Определение и преобразование кодировок сайтов в UTF-8
Обход защиты CloudFlare
Выбор движка (HTTP или Chrome)
Возможность задать длину статьи
Парсинг статей с HTML тегами и без

Варианты использования

Сбор готовых статей с любых сайтов

Запросы

В качестве запросов необходимо указывать ссылки на страницы, с которых необходимо спарсить статьи, например:

https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s

Варианты вывода результатов

A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON

Возможные настройки

примечание

Общие настройки для всех парсеров Поддерживает все настройки парсера Net::HTTP.

Обзор парсера​

Собираемые данные​

Возможности​

Варианты использования​

Запросы​

Варианты вывода результатов​

Возможные настройки​