Доброе утро! Подскажите, пожалуйста, как работает опция "Max redirects count" в парсерах: Net::HTTP и HTML::LinkExtractor? Есть такая задача, нужно найти определенные движки. Для ускорения парсинга я сначала прошел по базе доменов с парсером Net::HTTP, ищу код 200 ОК, с методом HEAD. Далее с помощью этого парсера и регулярных выражений ищу определенный код. Но вот проблема, на многих сайтах идет, например, редирект на другой сайт и а-парсер считает домен как код "200 ОК", как я понимаю, все из-за опции "Max redirects count"? У меня стоит в настройках Max redirects count=7. В моем случае при поиске "200 ОК" и поиске кода нужной строки нужно отключать Max redirects count? Так как я понимаю, парсер проверяет конечный ответ, будь то там 301 редирект или любой другой, но если конечный сайт отвечает 200 ОК, то парсер запишет 200 ОК и также перейдет по нему если будет стоять Good Status 200 OK, все ли так?
Попробуйте Max redirects count = 0 и включить Follow common redirects. Это позволит обрабатывать внутренние редиректы, но не переходить на другие домены. https://a-parser.com/threads/4602/
Как раз так и хотел делать. Спасибо! Такой вопрос, а Max redirects count и Follow common redirects будут работать ведь и при методе HEAD? Или они работают только при get запросах?
Да, должны работать. Но можно оставить метод запроса GET и включить опцию Read only headers, будет по сути то же самое, но немного правильнее.
Или есть какие-то способы на данный момент использовать Net::HTTP сразу после результатов SE::Google в 1 задаче?