Доброго времени суток! Используется A-Parser версии 1.2.240. Источник парсится через Net::HTTP. Задача: Нужно извлечь ссылку на следующую страницу с помощью "Next page RegEx". Регулярку проверил, работает на html-контенте страницы. Проблема: Почему-то в логе появляется сообщение "Next page found, but URL is undefined". Следующая страница сайта не поступает на парсинг. Подскажите, пожалуйста, что конкретно означает фраза URL is undefined? Где искать ошибку?
Здравствуйте. Это сообщение означает, что урл для следующей страницы некорректен. Выведите в формате результата , то что собирается с помощью этой регулярки, чтобы увидеть что именно в этом урле не так.
Да, там есть нюанс - в URL'е заэскейпены символы амперсанда. Вместо & используется &. Можно отключить эту проверку? Или есть какое-то другое решение?
HTML сущности в Next page преобразуются автоматически. А указанная ошибка скорее всего указывает на то, что урл следующей страницы забирается вместе с доменом. Он должен быть без домена.
Отлично! Без домена сработало. Спасибо за помощь! P.S. Предлагаю зафиксировать это в документации, а то я не нашел