1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Ошибка Ошибка в работе логики Follow common redirects

Тема в разделе "Закрытые без версии", создана пользователем stive84, 6 сен 2022.

  1. stive84

    stive84 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 сен 2013
    Сообщения:
    21
    Симпатии:
    8
    Ошибка достаточно массовая, протестирована выборка из 100к случайных сайтов, проявление наблюдается на 5% сайтов из списка. Проблема заключается в том, что при работе NET::HTTP, в случае установки опции Max redirects count = 0, и включенной галочке Follow common redirects, парсер НЕ проходит по определённым редиректам, даже если они укладываются в рамки стандартных - http > https, или www. > non-www. Видимо, в них есть какая-то особенность, но при использовании анализаторов цепочек редиректа - все ситуации штатные, укладывающиеся в логику смены http / https и модификаций приставок www.

    Примеры таких ситуаций отправлены в личку Support.
     
  2. stive84

    stive84 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 сен 2013
    Сообщения:
    21
    Симпатии:
    8
    Не представляю как вы справляетесь вообще с таким потоком разрозненных задач (и как всегда бесконечно признателен за потрясающий инструмент, который вы делаете), но в качестве предложения - может ввести систему платной "приоретизации"? Есть задачи, которые пользователи готовы ждать, а я вот например с радостью заплатил бы за то, чтобы по определённым вопросам понятно не в моментальном, но хотя бы в более высоком приоритете рассматривалась задача.
     
  3. stive84

    stive84 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 сен 2013
    Сообщения:
    21
    Симпатии:
    8
    В результате общения с поддержкой выяснилось, что ошибка не в апарсере, а в особенностях работы большого количества сайтов c обработкой запросов в зависимости от гео- и иных настроек на стороне клиента.

    Если вдруг кто-то так же будет планировать ориентироваться на логику Follow common redirects, планируя использовать сам апарсер в качестве фильтра "меняла ли организация домен или нет" - мой совет, не делать этого, а реализовывать анализ на своей стороне, не ограничивая искусственно возможности max redirects count.
     

Поделиться этой страницей