1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

ArticleExtractor - как настроить многостраничный парсинг?

Тема в разделе "Техническая поддержка", создана пользователем Сергей 222, 15 сен 2023.

  1. Сергей 222

    Сергей 222 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    25 окт 2018
    Сообщения:
    32
    Симпатии:
    1
    Есть хороший парсер,

    https://a-parser.com/docs/parsers/html-articleextractor

    в нем написано возможности - Многостраничный парсинг (переход по страницам)

    Подскажите пожалуйста, как настроить, чтобы в списке на обработку были домены (одна строка - один домен, его главная страница),

    а парсер HTML::ArticleExtractor переходил по ссылкам внутрь домена и собирал уже то что надо (с настройками что собирать разобрался).
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.529
    Симпатии:
    2.158
    Имеется в виду проход по пагинации с помощью опций Use pages/Check next page. Единственная особенность, это будет работать только с включенной опцией Page as new query
    [​IMG]
     
  3. Сергей 222

    Сергей 222 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    25 окт 2018
    Сообщения:
    32
    Симпатии:
    1
    Не совсем. Наверное я неправильно понял из описания.

    Проход по внутренним страницам сайта для дальнейшего парсинга статей. Такой опции нет?
     
  4. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.529
    Симпатии:
    2.158
    Это в других парсерах называется Parse to level и в данном парсере такой возможности нету.
    Но можно в одном пресете использовать HTML::LinkExtractor (с включенным Parse to level) и данный парсер, тогда первый будет отвечать за проход вглубь, а второй - за сбор данных.
     
    Сергей 222 нравится это.
  5. Сергей 222

    Сергей 222 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    25 окт 2018
    Сообщения:
    32
    Симпатии:
    1
    Спасибо за подсказку.

    Несколько часов пытаюсь понять и настроить два этих парсера
    HTML::LinkExtractor
    HTML::ArticleExtractor

    Читаю документацию https://a-parser.com/docs/guides/task-settings/several-parsers-in-one-task

    Там написано что нельзя передавать в качестве запросов одному парсеру результаты работы предыдущего парсера
    (данная возможность запланирована в будущем)

    Подскажите, как все-таки передавать ссылки с первого парсера на второй? Ведь только тогда можно объединить два парсера в пресет.
    Иначе придется делать два отдельных задания, которые надо контролировать порознь.

    Спасибо.
     
  6. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.529
    Симпатии:
    2.158
    Не нужно передавать результаты одного на вход другого, а нужно просто
    Вот простейший пример:
    [​IMG]
    Код:
    eJx1U8lu2zAQ/RfCR0NuA/Sim2LESAM5chPnZBgFIY5U1hTJcHESCP73DqnNTp0b
    hzPvzZutJY7ag90YsOAsSXct0fFNUsKgol44MieaGgsmuHfkfrvO0zTn8nD37gwt
    nTIYMca2xH1oQLTSjitp0ccZmpEihyMI/DlS4THm5rSfD4SZcbwUcI1zv58T1IRP
    u1KmoUHbTN8kpZIOZNDXe5/pEbYKvRUXMH2v0HqkTRA1a189mI9E+uaUuPeApYzx
    oJSKjjxUOSV8kfw1SCVSYWwAc7Aroxr8chAJIuMgbEdm0SZI4SP2V4chqTMe5sSi
    xhVFRWx0VFRY9HAHhmLlRd+4tCVKZkLEpk1hkf7Wc8FwIlmFoJ898HpI8R/Haazu
    PNURzJtBDYPQaNwW6wnEVK7qoRWCN9yhbZfKyzCRb/h5ANBjxx5DWKMMjFl6eX1y
    3DkNMuzGNKpMT18XVVwM5fIT16DidYH6DWcwRHq5xcUu5FI1WkAoS3ohcCgWnqa1
    yGw/hWBMAj+DlzHFxUk4pYR9eO6kasNx7X4EgQ028jxrT1lSIV6e8nNPAFqndCHv
    jPk0vbgX5I9z2qaLBcjkjR+4BsZpoky9CNZiTbn8vaF12PSSOqgVrh0Wj0c1HOx4
    1u3Vs01bnOoX54c+dP61m44p9Md2AGy0xXmS9PvpH3hUgA4=
     
    Сергей 222 нравится это.
  7. Сергей 222

    Сергей 222 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    25 окт 2018
    Сообщения:
    32
    Симпатии:
    1
    Спасибо, работает!

    Только результаты собирает в один файл, а хотелось бы как-то в разные, лучше всего где 1 файл это парсинг с 1 статьи.

    И в настройках парсера ArticleExtractor отдельно для этого пресета установил result format:
    $title
    $textContent
    но собираются целиком html код страницы с начала до конца.
     
  8. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.529
    Симпатии:
    2.158
    Задайте в формате имени файл результата шаблон, который будет генерировать уникальное для каждого запроса имя. Например, с использованием номера запроса ($query.num)
    Значит так задано, проверяйте что у вас указано в Общем формате результата.
     

Поделиться этой страницей