Есть хороший парсер, https://a-parser.com/docs/parsers/html-articleextractor в нем написано возможности - Многостраничный парсинг (переход по страницам) Подскажите пожалуйста, как настроить, чтобы в списке на обработку были домены (одна строка - один домен, его главная страница), а парсер HTML::ArticleExtractor переходил по ссылкам внутрь домена и собирал уже то что надо (с настройками что собирать разобрался).
Имеется в виду проход по пагинации с помощью опций Use pages/Check next page. Единственная особенность, это будет работать только с включенной опцией Page as new query
Не совсем. Наверное я неправильно понял из описания. Проход по внутренним страницам сайта для дальнейшего парсинга статей. Такой опции нет?
Это в других парсерах называется Parse to level и в данном парсере такой возможности нету. Но можно в одном пресете использовать HTML::LinkExtractor (с включенным Parse to level) и данный парсер, тогда первый будет отвечать за проход вглубь, а второй - за сбор данных.
Спасибо за подсказку. Несколько часов пытаюсь понять и настроить два этих парсера HTML::LinkExtractor HTML::ArticleExtractor Читаю документацию https://a-parser.com/docs/guides/task-settings/several-parsers-in-one-task Там написано что нельзя передавать в качестве запросов одному парсеру результаты работы предыдущего парсера (данная возможность запланирована в будущем) Подскажите, как все-таки передавать ссылки с первого парсера на второй? Ведь только тогда можно объединить два парсера в пресет. Иначе придется делать два отдельных задания, которые надо контролировать порознь. Спасибо.
Не нужно передавать результаты одного на вход другого, а нужно просто Вот простейший пример: Спойлер: Пресет Код: eJx1U8lu2zAQ/RfCR0NuA/Sim2LESAM5chPnZBgFIY5U1hTJcHESCP73DqnNTp0b hzPvzZutJY7ag90YsOAsSXct0fFNUsKgol44MieaGgsmuHfkfrvO0zTn8nD37gwt nTIYMca2xH1oQLTSjitp0ccZmpEihyMI/DlS4THm5rSfD4SZcbwUcI1zv58T1IRP u1KmoUHbTN8kpZIOZNDXe5/pEbYKvRUXMH2v0HqkTRA1a189mI9E+uaUuPeApYzx oJSKjjxUOSV8kfw1SCVSYWwAc7Aroxr8chAJIuMgbEdm0SZI4SP2V4chqTMe5sSi xhVFRWx0VFRY9HAHhmLlRd+4tCVKZkLEpk1hkf7Wc8FwIlmFoJ898HpI8R/Haazu PNURzJtBDYPQaNwW6wnEVK7qoRWCN9yhbZfKyzCRb/h5ANBjxx5DWKMMjFl6eX1y 3DkNMuzGNKpMT18XVVwM5fIT16DidYH6DWcwRHq5xcUu5FI1WkAoS3ohcCgWnqa1 yGw/hWBMAj+DlzHFxUk4pYR9eO6kasNx7X4EgQ028jxrT1lSIV6e8nNPAFqndCHv jPk0vbgX5I9z2qaLBcjkjR+4BsZpoky9CNZiTbn8vaF12PSSOqgVrh0Wj0c1HOx4 1u3Vs01bnOoX54c+dP61m44p9Md2AGy0xXmS9PvpH3hUgA4=
Спасибо, работает! Только результаты собирает в один файл, а хотелось бы как-то в разные, лучше всего где 1 файл это парсинг с 1 статьи. И в настройках парсера ArticleExtractor отдельно для этого пресета установил result format: $title $textContent но собираются целиком html код страницы с начала до конца.
Задайте в формате имени файл результата шаблон, который будет генерировать уникальное для каждого запроса имя. Например, с использованием номера запроса ($query.num) Значит так задано, проверяйте что у вас указано в Общем формате результата.