Перейти к основному содержимому

HTML::ArticleExtractor - Парсер статей

Обзор парсера

Обзор парсераHTML::ArticleExtractorHTML::ArticleExtractor собирает статьи с веб-траниц.

Работает с помощью модуля @mozilla/readability который встроен в А-Парсер и собирает такие основные данные как: заглавие, контент с HTML версткой и без, длину статьи.

В основе использует парсер Net::HTTPNet::HTTP, это позволяет поддерживать его функционал. Поддерживает многостраничный парсинг (переход по страницам). Имеет встроенные средства обхода защиты CloudFlare и также возможность выбора Chrome в качестве движка для парсинга почт со страниц, данные на которых подгружаются скриптами.

Способен развивать скорость до 200 запросов в минуту – это 12 000 ссылок за час.

Собираемые данные

  • Заголовок статьи - $title
  • HTML-строка обработанного содержимого статьи - $content
  • Текстовое содержимое статьи (весь HTML удален) - $textContent
  • Длина статьи в символах - $length
  • Описание статьи или короткий отрывок из содержания - $excerpt
  • Метаданные автора - $byline
  • Название сайта - $siteName

Возможности

  • Многостраничный парсинг (переход по страницам)
  • Поддерживает сжатия gzip/deflate/brotli
  • Определение и преобразование кодировок сайтов в UTF-8
  • Обход защиты CloudFlare
  • Выбор движка (HTTP или Chrome)
  • Возможность задать длину статьи
  • Парсинг статей с HTML тегами и без

Варианты использования

  • Сбор готовых статей с любых сайтов

Запросы

В качестве запросов необходимо указывать ссылки на страницы, с которых необходимо спарсить статьи, например:

https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s

Варианты вывода результатов

A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON

Возможные настройки