Почему при парсинге в статистике не видно количество забаненных проксей? раньше было видно... и вообще по скорости парсинга, такое ощущение, что плохие прокси не банятся... версия а-парсера 1.1.355
в парсере Яндекса прокси никогда не банились, потому что в отличие от Гугла, который может забанить IP, Яндекс всегда показывает каптчу - а это временное явление
Может вы можете посоветовать как увеличить скорость парсинга в яндексе? Кроме использования капч? пробовал включать аккаунты - не заметил разницы
Я измерил скорость парсинга Яндекса на наших проксях, при 100 попытках выходит 75 запросов\минуту, 300 потоков, глубина 5 страниц х 50 результатов: Вполне нормальный результат учитывая что не используется антикаптча
хочется приблизиться к гуглу 1000-2000 запросов в минуту у меня капчи в яндексе такой скорости не дают и вообще капчи странно обрабатываются, запрос на урл капчи в яндексе с одного ип идет, а как только капча разгадана, запрос к яндексу для получения результатов поиска идет уже с другого ип, это нормально?
Есть своя подсетка айпих, отдали под апарсер 100 штук. Для гугла подобрали конфигурацию, прекрасно лопатит почти без капч. Яндекс сыпет люто. Когда с тех же айпих собираем серпарсером, примерно в 100 раз меньше капч на Яндексе. Вопрос в настройках, эмуляции браузера или наших кривых руках? Подскажите, пожалуйста, какие используете настройки и есть ли чудесный способ избавления от наших бед? Спасибо!
с чего такие выводы? ответ каптчи будет загружен с тем же прокси с которым и скачивалась напиши мне по любому контакту http://a-parser.com/pages/support/ - посмотрим что можно сделать
тест с капчами провел: максимальная скорость с проксями пакет 300 потоков + 3000 свои (обновляемые) + антикапча = 400-500 фраз в минуту (парсинг идет в 300 потоков), это по сравнению с гуглом как-то скромно. Уточню, что без капч скорость у яндекса где-то 40-200 (почему-то зависит от времени суток) еще у меня в задачах ставлю настройки парсера request retries очень большим, чтобы собрать 100% фраз без ошибок, так вот заметил особенность, что примерно 99% выкачивается быстро, а вот на последних нескольких фразах или одной фразе происходит какой-то тупняк и парсинг может продолжаться в несколько раз!!! больше времени, чем спарсились до этого 99% фраз. почему такое происходит? может стратегию добавить, что если текущая скорость парсинга падает, меньше чем на N, то использовать антикапчу? за эту стратегию говорит и тот факт, что после выключении руками антикапчи в настройках парсера, хорошая скорость сохраняется еще продолжительное время. причем если бы антикапча была бы включена, то скорость не сильно выше бы была, а вот деньги бы за капчи списывались бы постоянно.
для яндекса требуется эмуляция браузера, а это 4-5 лишних запросов на каждую страницу по остальному - это костыль и чего то подобного не будет в парсере впринципе
спасибо за наводку, отключил эмуляцию, скорость стала 250-350. я снимаю всегда 1 страницу с 50 результатами, эмуляция мне просто не нужна