Баг в парсере SE::Yandex::Position ?

malexoid

A-Parser Enterprise License
A-Parser Enterprise
Почему при парсинге в статистике не видно количество забаненных проксей? раньше было видно...
и вообще по скорости парсинга, такое ощущение, что плохие прокси не банятся...

версия а-парсера 1.1.355
 

Вложения

  • ячс.png
    ячс.png
    12,6 КБ · Просмотры: 6
в парсере Яндекса прокси никогда не банились, потому что в отличие от Гугла, который может забанить IP, Яндекс всегда показывает каптчу - а это временное явление
 
Может вы можете посоветовать как увеличить скорость парсинга в яндексе?
Кроме использования капч?
пробовал включать аккаунты - не заметил разницы :(
 
от аккаунтов нет толку, скорость можно увеличить добавив свежих прокси
 
не помогают свежие прокси :( у меня пакет в 300 потоков + свои обновляемые 3000 штуки...
 
есть всего 2 варианта: чистые IP или антигейт
 
Я измерил скорость парсинга Яндекса на наших проксях, при 100 попытках выходит 75 запросов\минуту, 300 потоков, глубина 5 страниц х 50 результатов:

y59ki.png


Вполне нормальный результат учитывая что не используется антикаптча
 
хочется приблизиться к гуглу 1000-2000 запросов в минуту:(
у меня капчи в яндексе такой скорости не дают
и вообще капчи странно обрабатываются, запрос на урл капчи в яндексе с одного ип идет, а как только капча разгадана, запрос к яндексу для получения результатов поиска идет уже с другого ип, это нормально?
 
Есть своя подсетка айпих, отдали под апарсер 100 штук.
Для гугла подобрали конфигурацию, прекрасно лопатит почти без капч.
Яндекс сыпет люто. Когда с тех же айпих собираем серпарсером, примерно в 100 раз меньше капч на Яндексе.
Вопрос в настройках, эмуляции браузера или наших кривых руках?
Подскажите, пожалуйста, какие используете настройки и есть ли чудесный способ избавления от наших бед?
Спасибо!
 
и вообще капчи странно обрабатываются, запрос на урл капчи в яндексе с одного ип идет, а как только капча разгадана, запрос к яндексу для получения результатов поиска идет уже с другого ип, это нормально?
с чего такие выводы? ответ каптчи будет загружен с тем же прокси с которым и скачивалась

Вопрос в настройках, эмуляции браузера или наших кривых руках?
Подскажите, пожалуйста, какие используете настройки и есть ли чудесный способ избавления от наших бед?
Спасибо!
напиши мне по любому контакту http://a-parser.com/pages/support/ - посмотрим что можно сделать
 
есть всего 2 варианта: чистые IP или антигейт
тест с капчами провел: максимальная скорость с проксями пакет 300 потоков + 3000 свои (обновляемые) + антикапча = 400-500 фраз в минуту (парсинг идет в 300 потоков), это по сравнению с гуглом как-то скромно. Уточню, что без капч скорость у яндекса где-то 40-200 (почему-то зависит от времени суток)
еще у меня в задачах ставлю настройки парсера request retries очень большим, чтобы собрать 100% фраз без ошибок, так вот заметил особенность, что примерно 99% выкачивается быстро, а вот на последних нескольких фразах или одной фразе происходит какой-то тупняк и парсинг может продолжаться в несколько раз!!! больше времени, чем спарсились до этого 99% фраз. почему такое происходит?
может стратегию добавить, что если текущая скорость парсинга падает, меньше чем на N, то использовать антикапчу? за эту стратегию говорит и тот факт, что после выключении руками антикапчи в настройках парсера, хорошая скорость сохраняется еще продолжительное время. причем если бы антикапча была бы включена, то скорость не сильно выше бы была, а вот деньги бы за капчи списывались бы постоянно.
 
это по сравнению с гуглом как-то скромно
для яндекса требуется эмуляция браузера, а это 4-5 лишних запросов на каждую страницу

по остальному - это костыль и чего то подобного не будет в парсере впринципе
 
для яндекса требуется эмуляция браузера, а это 4-5 лишних запросов на каждую страницу

по остальному - это костыль и чего то подобного не будет в парсере впринципе
спасибо за наводку,
отключил эмуляцию, скорость стала 250-350.
я снимаю всегда 1 страницу с 50 результатами, эмуляция мне просто не нужна
 
баг вчера нашел, улр для яндекса какой-то странный, много повторений одних и тех же параметров.
 

Вложения

  • Безымянный.png
    Безымянный.png
    5,5 КБ · Просмотры: 9
Назад
Верх