HTML::ArticleExtractor - Парсер статей
Обзор парсера
HTML::ArticleExtractor собирает статьи с веб-траниц.Работает с помощью модуля @mozilla/readability который встроен в А-Парсер и собирает такие основные данные как: заглавие, контент с HTML версткой и без, длину статьи.
В основе использует парсер Net::HTTP, это позволяет поддерживать его функционал. Поддерживает многостраничный парсинг (переход по страницам). Имеет встроенные средства обхода защиты CloudFlare и также возможность выбора Chrome в качестве движка для парсинга почт со страниц, данные на которых подгружаются скриптами.
Способен развивать скорость до 200 запросов в минуту – это 12 000 ссылок за час.
Собираемые данные
- Заголовок статьи -
$title
- HTML-строка обработанного содержимого статьи -
$content
- Текстовое содержимое статьи (весь HTML удален) -
$textContent
- Длина статьи в символах -
$length
- Описание статьи или короткий отрывок из содержания -
$excerpt
- Метаданные автора -
$byline
- Название сайта -
$siteName
Возможности
- Многостраничный парсинг (переход по страницам)
- Поддерживает сжатия gzip/deflate/brotli
- Определение и преобразование кодировок сайтов в UTF-8
- Обход защиты CloudFlare
- Выбор движка (HTTP или Chrome)
- Возможность задать длину статьи
- Парсинг статей с HTML тегами и без
Варианты использования
- Сбор готовых статей с любых сайтов
Запросы
В качестве запросов необходимо указывать ссылки на страницы, с которых необходимо спарсить статьи, например:
https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s
Варианты вывода результатов
A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON
Возможные настройки
Общие настройки для всех парсеров Поддерживает все настройки парсера Net::HTTP.