ArticleExtractor - как настроить многостраничный парсинг?

Сергей 222

A-Parser Pro License
A-Parser Pro
Есть хороший парсер,

https://a-parser.com/docs/parsers/html-articleextractor

в нем написано возможности - Многостраничный парсинг (переход по страницам)

Подскажите пожалуйста, как настроить, чтобы в списке на обработку были домены (одна строка - один домен, его главная страница),

а парсер HTML::ArticleExtractor переходил по ссылкам внутрь домена и собирал уже то что надо (с настройками что собирать разобрался).
 
Многостраничный парсинг (переход по страницам)
Имеется в виду проход по пагинации с помощью опций Use pages/Check next page. Единственная особенность, это будет работать только с включенной опцией Page as new query
975p0_230918125210.png
 
Проход по внутренним страницам сайта для дальнейшего парсинга статей.
Это в других парсерах называется Parse to level и в данном парсере такой возможности нету.
Но можно в одном пресете использовать HTML::LinkExtractor (с включенным Parse to level) и данный парсер, тогда первый будет отвечать за проход вглубь, а второй - за сбор данных.
 
Спасибо за подсказку.

Несколько часов пытаюсь понять и настроить два этих парсера
HTML::LinkExtractor
HTML::ArticleExtractor

Читаю документацию https://a-parser.com/docs/guides/task-settings/several-parsers-in-one-task

Там написано что нельзя передавать в качестве запросов одному парсеру результаты работы предыдущего парсера
(данная возможность запланирована в будущем)

Подскажите, как все-таки передавать ссылки с первого парсера на второй? Ведь только тогда можно объединить два парсера в пресет.
Иначе придется делать два отдельных задания, которые надо контролировать порознь.

Спасибо.
 
Не нужно передавать результаты одного на вход другого, а нужно просто
в одном пресете использовать HTML::LinkExtractor (с включенным Parse to level) и данный парсер
Вот простейший пример:
yj3fd_230919172628.png

Код:
eJx1U8lu2zAQ/RfCR0NuA/Sim2LESAM5chPnZBgFIY5U1hTJcHESCP73DqnNTp0b
hzPvzZutJY7ag90YsOAsSXct0fFNUsKgol44MieaGgsmuHfkfrvO0zTn8nD37gwt
nTIYMca2xH1oQLTSjitp0ccZmpEihyMI/DlS4THm5rSfD4SZcbwUcI1zv58T1IRP
u1KmoUHbTN8kpZIOZNDXe5/pEbYKvRUXMH2v0HqkTRA1a189mI9E+uaUuPeApYzx
oJSKjjxUOSV8kfw1SCVSYWwAc7Aroxr8chAJIuMgbEdm0SZI4SP2V4chqTMe5sSi
xhVFRWx0VFRY9HAHhmLlRd+4tCVKZkLEpk1hkf7Wc8FwIlmFoJ898HpI8R/Haazu
PNURzJtBDYPQaNwW6wnEVK7qoRWCN9yhbZfKyzCRb/h5ANBjxx5DWKMMjFl6eX1y
3DkNMuzGNKpMT18XVVwM5fIT16DidYH6DWcwRHq5xcUu5FI1WkAoS3ohcCgWnqa1
yGw/hWBMAj+DlzHFxUk4pYR9eO6kasNx7X4EgQ028jxrT1lSIV6e8nNPAFqndCHv
jPk0vbgX5I9z2qaLBcjkjR+4BsZpoky9CNZiTbn8vaF12PSSOqgVrh0Wj0c1HOx4
1u3Vs01bnOoX54c+dP61m44p9Md2AGy0xXmS9PvpH3hUgA4=
 
Спасибо, работает!

Только результаты собирает в один файл, а хотелось бы как-то в разные, лучше всего где 1 файл это парсинг с 1 статьи.

И в настройках парсера ArticleExtractor отдельно для этого пресета установил result format:
$title
$textContent
но собираются целиком html код страницы с начала до конца.
 
хотелось бы как-то в разные, лучше всего где 1 файл это парсинг с 1 статьи.
Задайте в формате имени файл результата шаблон, который будет генерировать уникальное для каждого запроса имя. Например, с использованием номера запроса ($query.num)
но собираются целиком html код страницы с начала до конца
Значит так задано, проверяйте что у вас указано в Общем формате результата.
 
Назад
Верх