ArticleExtractor - как настроить многостраничный парсинг?

Сергей 222 · 15 Сен 2023

Есть хороший парсер,

https://a-parser.com/docs/parsers/html-articleextractor

в нем написано возможности - Многостраничный парсинг (переход по страницам)

Подскажите пожалуйста, как настроить, чтобы в списке на обработку были домены (одна строка - один домен, его главная страница),

а парсер HTML::ArticleExtractor переходил по ссылкам внутрь домена и собирал уже то что надо (с настройками что собирать разобрался).

Support · 18 Сен 2023

Сергей 222 сказал(а):
Многостраничный парсинг (переход по страницам)

Имеется в виду проход по пагинации с помощью опций Use pages/Check next page. Единственная особенность, это будет работать только с включенной опцией Page as new query

Сергей 222 · 19 Сен 2023

Support сказал(а):
проход по пагинации

Не совсем. Наверное я неправильно понял из описания.

Проход по внутренним страницам сайта для дальнейшего парсинга статей. Такой опции нет?

Support · 19 Сен 2023

Сергей 222 сказал(а):
Проход по внутренним страницам сайта для дальнейшего парсинга статей.

Это в других парсерах называется Parse to level и в данном парсере такой возможности нету.
Но можно в одном пресете использовать HTML::LinkExtractor (с включенным Parse to level) и данный парсер, тогда первый будет отвечать за проход вглубь, а второй - за сбор данных.

Сергей 222 · 19 Сен 2023

Спасибо за подсказку.

Несколько часов пытаюсь понять и настроить два этих парсера
HTML::LinkExtractor
HTML::ArticleExtractor

Читаю документацию https://a-parser.com/docs/guides/task-settings/several-parsers-in-one-task

Там написано что нельзя передавать в качестве запросов одному парсеру результаты работы предыдущего парсера
(данная возможность запланирована в будущем)

Подскажите, как все-таки передавать ссылки с первого парсера на второй? Ведь только тогда можно объединить два парсера в пресет.
Иначе придется делать два отдельных задания, которые надо контролировать порознь.

Спасибо.

Support · 19 Сен 2023

Не нужно передавать результаты одного на вход другого, а нужно просто

Support сказал(а):
в одном пресете использовать HTML::LinkExtractor (с включенным Parse to level) и данный парсер

Вот простейший пример:

Код:

eJx1U8lu2zAQ/RfCR0NuA/Sim2LESAM5chPnZBgFIY5U1hTJcHESCP73DqnNTp0b
hzPvzZutJY7ag90YsOAsSXct0fFNUsKgol44MieaGgsmuHfkfrvO0zTn8nD37gwt
nTIYMca2xH1oQLTSjitp0ccZmpEihyMI/DlS4THm5rSfD4SZcbwUcI1zv58T1IRP
u1KmoUHbTN8kpZIOZNDXe5/pEbYKvRUXMH2v0HqkTRA1a189mI9E+uaUuPeApYzx
oJSKjjxUOSV8kfw1SCVSYWwAc7Aroxr8chAJIuMgbEdm0SZI4SP2V4chqTMe5sSi
xhVFRWx0VFRY9HAHhmLlRd+4tCVKZkLEpk1hkf7Wc8FwIlmFoJ898HpI8R/Haazu
PNURzJtBDYPQaNwW6wnEVK7qoRWCN9yhbZfKyzCRb/h5ANBjxx5DWKMMjFl6eX1y
3DkNMuzGNKpMT18XVVwM5fIT16DidYH6DWcwRHq5xcUu5FI1WkAoS3ohcCgWnqa1
yGw/hWBMAj+DlzHFxUk4pYR9eO6kasNx7X4EgQ028jxrT1lSIV6e8nNPAFqndCHv
jPk0vbgX5I9z2qaLBcjkjR+4BsZpoky9CNZiTbn8vaF12PSSOqgVrh0Wj0c1HOx4
1u3Vs01bnOoX54c+dP61m44p9Md2AGy0xXmS9PvpH3hUgA4=

Сергей 222 · 20 Сен 2023

Спасибо, работает!

Только результаты собирает в один файл, а хотелось бы как-то в разные, лучше всего где 1 файл это парсинг с 1 статьи.

И в настройках парсера ArticleExtractor отдельно для этого пресета установил result format:
$title
$textContent
но собираются целиком html код страницы с начала до конца.

Support · 21 Сен 2023

Сергей 222 сказал(а):
хотелось бы как-то в разные, лучше всего где 1 файл это парсинг с 1 статьи.

Задайте в формате имени файл результата шаблон, который будет генерировать уникальное для каждого запроса имя. Например, с использованием номера запроса ($query.num)

Сергей 222 сказал(а):
но собираются целиком html код страницы с начала до конца

Значит так задано, проверяйте что у вас указано в Общем формате результата.

ArticleExtractor - как настроить многостраничный парсинг?

Сергей 222

A-Parser Pro License

Support

Administrator

Сергей 222

A-Parser Pro License

Support

Administrator

Сергей 222

A-Parser Pro License

Support

Administrator

Сергей 222

A-Parser Pro License

Support

Administrator

О нас

Быстрая навигация

Соцсети

Поддержка