1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

баг при парсинге google position?

Тема в разделе "Техническая поддержка", создана пользователем malexoid, 12 мар 2016.

  1. malexoid

    malexoid A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 сен 2015
    Сообщения:
    256
    Симпатии:
    60
    Случайно в логе наткнулся на такие строчки... см. скрин
    1. капча распозналась правильно
    2. парсер проигнорил результат капчи вообще и дальше пытается парсить туже фразу
    версия 1.1.436 beta
    Безымянный.png

    Безымянный1.png
     
    #1 malexoid, 12 мар 2016
    Последнее редактирование: 12 мар 2016
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    в логе отображается конечный урл редиректа, т.е. каптча используется, по логу видно что меняется прокси, т.е. предыдущий ответ был прерван и каптча могла израсходоваться впустую
     
    all3xpress нравится это.
  3. malexoid

    malexoid A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 сен 2015
    Сообщения:
    256
    Симпатии:
    60
    опять логи анализировал, что-то прям таких ситуаций очень много.
    В одном задании в одной сессии насчитал 5 сбоев.

    вот ответ капчи - misoc (см скрин)
    далее происходит 2 обращения:
    1. GET(156): https://ipv4.google.com/sorry/CaptchaRedirect?q=CGMSBA5hjKYY7KrjtwUiGQDxp4NLn9Q7FRwH***** 596 HTTPS(C) proxy error: Read error (0 KB)
    2. Use proxy http://176.9.9.90:21880
    GET(157): https://ipv4.google.com/sorry/CaptchaRedirect?q=CGMSBA5hjKYY7KrjtwUiGQDxp4NLn9Q7FRwH***** - 403 Forbidden (0 KB)

    При первом обращении используется тоже прокси, что и при получении картинки-капчи?
    При втором обращении используется прокси 176.9.9.90:21880 у которой реальный ip уже забанен гуглом и поэтому капча сгорает.

    Проблема в том, что разгадывание капчи для гугла как мы знаем очень дорогая штука по времени и ресурсам.
    Может быть для запросов типа https://ipv4.google.com/sorry/CaptchaRedirect* когда мы отсылаем разгаданную капчу гуглу использовать пул надежных сессий-проксей? или увеличить таймаут/кол-во попыток для той прокси с которой картинка была получена?

    5.png
     
  4. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    что значит надежных? если по прокси получена каптча она вроде уже надежная на тот момент времени?

    это возможно поможет только если прокси не умерла, а она скорее всего умерла раз была ошибка Read error
     
  5. malexoid

    malexoid A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 сен 2015
    Сообщения:
    256
    Симпатии:
    60
    "Надежные" - это прокси через которые успешно забрали выдачу в последнии N секунд.
     
  6. malexoid

    malexoid A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 сен 2015
    Сообщения:
    256
    Симпатии:
    60
    Еще странный пример.
    Я думал, что только при ответе 403 - это бан прокси гуглом и только при таком ответе прекращаются попытки взять выдачу с капчей, но почему прекращаются попытки отправить разгаданную капчу при ответе 503? - ведь гугл так не отвечает, это ответ "плохой" прокси?

    GET(1): https://www.google.ru/search?ie=utf...le.com;+expires=Tue,+29-Mar-2016+05:47:39+GMT - 503 Service Unavailable (1.73 KB)

    upload_2016-3-29_12-57-37.png
     
  7. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    503 это новая каптча
     

Поделиться этой страницей