Вопрос по опции Max redirects count

seowin555

A-Parser Pro License
A-Parser Pro
Доброе утро!
Подскажите, пожалуйста, как работает опция "Max redirects count" в парсерах: Net::HTTP и HTML::LinkExtractor?
Есть такая задача, нужно найти определенные движки.
Для ускорения парсинга я сначала прошел по базе доменов с парсером Net::HTTP, ищу код 200 ОК, с методом HEAD.
Далее с помощью этого парсера и регулярных выражений ищу определенный код.
Но вот проблема, на многих сайтах идет, например, редирект на другой сайт и а-парсер считает домен как код "200 ОК", как я понимаю, все из-за опции "Max redirects count"? У меня стоит в настройках Max redirects count=7.
В моем случае при поиске "200 ОК" и поиске кода нужной строки нужно отключать Max redirects count?
Так как я понимаю, парсер проверяет конечный ответ, будь то там 301 редирект или любой другой, но если конечный сайт отвечает 200 ОК, то парсер запишет 200 ОК и также перейдет по нему если будет стоять Good Status 200 OK, все ли так?
 
В моем случае при поиске "200 ОК" и поиске кода нужной строки нужно отключать Max redirects count?
Попробуйте Max redirects count = 0 и включить Follow common redirects.
Это позволит обрабатывать внутренние редиректы, но не переходить на другие домены.
https://a-parser.com/threads/4602/
 
Попробуйте Max redirects count = 0 и включить Follow common redirects.
Это позволит обрабатывать внутренние редиректы, но не переходить на другие домены.
https://a-parser.com/threads/4602/
Как раз так и хотел делать. Спасибо!
Такой вопрос, а Max redirects count и Follow common redirects будут работать ведь и при методе HEAD?
Или они работают только при get запросах?
 
Такой вопрос, а Max redirects count и Follow common redirects будут работать ведь и при методе HEAD?
Да, должны работать.
Но можно оставить метод запроса GET и включить опцию Read only headers, будет по сути то же самое, но немного правильнее.
 
Доброе утро!
Есть такая задача, нужно найти определенные движки.
Для ускорения парсинга я сначала прошел по базе доменов с парсером Net::HTTP, ищу код 200 ОК, с методом HEAD.


Каждый парсер парсит исходный запрос или его вариацию при использовании конструктора запросов, имеет в настройках свой формат запроса, однако, нельзя передавать в качестве запросов одному парсеру результаты работы предыдущего парсера(данная возможность запланирована в будущем)
https://a-parser.com/wiki/several-parsers/

Или есть какие-то способы на данный момент использовать Net::HTTP сразу после результатов SE::Google в 1 задаче?
 
Назад
Верх