1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Баг в парсере SE::Yandex::Position ?

Тема в разделе "Техническая поддержка", создана пользователем malexoid, 11 дек 2015.

  1. malexoid

    malexoid A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 сен 2015
    Сообщения:
    256
    Симпатии:
    60
    Почему при парсинге в статистике не видно количество забаненных проксей? раньше было видно...
    и вообще по скорости парсинга, такое ощущение, что плохие прокси не банятся...

    версия а-парсера 1.1.355
     

    Вложения:

    • ячс.png
      ячс.png
      Размер файла:
      12,6 КБ
      Просмотров:
      6
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    в парсере Яндекса прокси никогда не банились, потому что в отличие от Гугла, который может забанить IP, Яндекс всегда показывает каптчу - а это временное явление
     
  3. malexoid

    malexoid A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 сен 2015
    Сообщения:
    256
    Симпатии:
    60
    Может вы можете посоветовать как увеличить скорость парсинга в яндексе?
    Кроме использования капч?
    пробовал включать аккаунты - не заметил разницы :(
     
  4. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    от аккаунтов нет толку, скорость можно увеличить добавив свежих прокси
     
  5. malexoid

    malexoid A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 сен 2015
    Сообщения:
    256
    Симпатии:
    60
    не помогают свежие прокси :( у меня пакет в 300 потоков + свои обновляемые 3000 штуки...
     
  6. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    есть всего 2 варианта: чистые IP или антигейт
     
    Support нравится это.
  7. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    Я измерил скорость парсинга Яндекса на наших проксях, при 100 попытках выходит 75 запросов\минуту, 300 потоков, глубина 5 страниц х 50 результатов:

    [​IMG]

    Вполне нормальный результат учитывая что не используется антикаптча
     
  8. malexoid

    malexoid A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 сен 2015
    Сообщения:
    256
    Симпатии:
    60
    хочется приблизиться к гуглу 1000-2000 запросов в минуту:(
    у меня капчи в яндексе такой скорости не дают
    и вообще капчи странно обрабатываются, запрос на урл капчи в яндексе с одного ип идет, а как только капча разгадана, запрос к яндексу для получения результатов поиска идет уже с другого ип, это нормально?
     
  9. antonevi4

    antonevi4 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    16 апр 2015
    Сообщения:
    67
    Симпатии:
    15
    Есть своя подсетка айпих, отдали под апарсер 100 штук.
    Для гугла подобрали конфигурацию, прекрасно лопатит почти без капч.
    Яндекс сыпет люто. Когда с тех же айпих собираем серпарсером, примерно в 100 раз меньше капч на Яндексе.
    Вопрос в настройках, эмуляции браузера или наших кривых руках?
    Подскажите, пожалуйста, какие используете настройки и есть ли чудесный способ избавления от наших бед?
    Спасибо!
     
  10. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    с чего такие выводы? ответ каптчи будет загружен с тем же прокси с которым и скачивалась

    напиши мне по любому контакту http://a-parser.com/pages/support/ - посмотрим что можно сделать
     
  11. malexoid

    malexoid A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 сен 2015
    Сообщения:
    256
    Симпатии:
    60
    тест с капчами провел: максимальная скорость с проксями пакет 300 потоков + 3000 свои (обновляемые) + антикапча = 400-500 фраз в минуту (парсинг идет в 300 потоков), это по сравнению с гуглом как-то скромно. Уточню, что без капч скорость у яндекса где-то 40-200 (почему-то зависит от времени суток)
    еще у меня в задачах ставлю настройки парсера request retries очень большим, чтобы собрать 100% фраз без ошибок, так вот заметил особенность, что примерно 99% выкачивается быстро, а вот на последних нескольких фразах или одной фразе происходит какой-то тупняк и парсинг может продолжаться в несколько раз!!! больше времени, чем спарсились до этого 99% фраз. почему такое происходит?
    может стратегию добавить, что если текущая скорость парсинга падает, меньше чем на N, то использовать антикапчу? за эту стратегию говорит и тот факт, что после выключении руками антикапчи в настройках парсера, хорошая скорость сохраняется еще продолжительное время. причем если бы антикапча была бы включена, то скорость не сильно выше бы была, а вот деньги бы за капчи списывались бы постоянно.
     
  12. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    для яндекса требуется эмуляция браузера, а это 4-5 лишних запросов на каждую страницу

    по остальному - это костыль и чего то подобного не будет в парсере впринципе
     
  13. malexoid

    malexoid A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 сен 2015
    Сообщения:
    256
    Симпатии:
    60
    спасибо за наводку,
    отключил эмуляцию, скорость стала 250-350.
    я снимаю всегда 1 страницу с 50 результатами, эмуляция мне просто не нужна
     
    Forbidden нравится это.
  14. malexoid

    malexoid A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 сен 2015
    Сообщения:
    256
    Симпатии:
    60
    баг вчера нашел, улр для яндекса какой-то странный, много повторений одних и тех же параметров.
     

    Вложения:

Поделиться этой страницей