Есть проблема, которую не можем решить. Нужно парсить ежедневно 10 000 000 запросов в поисковой выдаче Google. На данный момент, мы в парсим 100 позиций выдачи гугла порядка 500к - 1.5 милионов запросов в день. До того, как гугл перешел c цифровой капчи на recaptcha2, для решения капч мы использовали capmonster2 и скорость была около 4к в минуту. После перехода на новую капчу, капмонстр перестал справляться с нагрузкой, в связи с чем было решено попробовать отказаться от него. Пробовали сервисы, в которых оплата идет за определенное количество решенных капч, но они оказались не эффективными, так-как время решения капчи больше, чем выигранное благодаря этому время и средняя скорость еще меньше, чем вообще без разгадывания капчи. Без разгадывания капчи скорость так же очень низкая, варьируется от 50 до 700 запросов в минуту. Дополнительные прокся не сильно помогают, так-как в начале скорость нормальная (около 2к/минуту), но очень быстро запросы банятся и скорость снова падает. Наверно делаем что-то не так.
xevil временное решение, к тому же дорогое для масштабирования, уменьшить аппетит и парсить что надо, а не всякий мусор
дорогое? самый дешевый вариант из всех. Если вы имеете ввиду дорого, в плане ничего не платить или платить за сервера, то об этом можно забыть. дешевых решений как раньше пока не существует. Ждем пока xevil оптимизирует свое решение, на днях что-то обещают.
Связка апарсера+xevil+нормальные прокси с ротацией - всё прекрасно работает на 200 потоках, количество неудачных запросов практически на нуле, хотя да - нужно мощное железо для xevil.
Что-то не совсем получается парсить на 200 потоков, с таким количеством разгадывания ре-капчи. Можешь проконсультировать, как добиться данных результатов.
Если есть много хороших, надёжных прокси, рекапчу можно не гадать, только попыток побольше выставить, все летать будет
Сейчас с парсингом с помощью гадания рекапчи не всё так хорошо, как раньше. Рекапчу разгадать не проблема, проблема в другом, гугл палит что гадание рекапчи и запрос страницы идут с разных ip и очень часто просто повторно капчу подсовывает. А-parser не поддерживает (кажется api antigate v2), чтобы гадание рекапчи шло бы с тем же ip и т.п. параметрами, что и запрос основной страницы.
Непосредственно Util::ReCaptcha2 поддерживает оба метода: ProxyLess (без передачи прокси) и ProxyOn (с передачей прокси и юзерагента). Но в SE::Google::Modern на данный момент момент поддерживается только ProxyLess метод, как минимум по 2-м причинам: - Гугл не требует жесткого соответствия IP с которого запрашивалась страница и разгадывается рекаптча - Прокси с привязкой к IP не будут работать на сервисе разгадывания Возможно, в ближайших сборках мы добавим в виде эксперементальной опции возможность включить ProxyOn метод.
У меня есть возможность всё это протестировать в боевом режиме, если вы добавите такую опцию, хотя бы эксперементально, то было бы отлично. Хочется всё это проверить.
@malexoid а какие сервисы поддерживают ProxyOn метод? По моим тестам точно поддерживает anti-captcha. Rucaptcha и Xevil - не поддерживают
Два варианта либо 1. нужны деньги на пулы проксей ipv4, можно серверные обычные (много разных) либо 2. нужны деньги на хостинги с ipv6 (много разных и постоянно их менять как забанят) либо самому сетки каждый раз менять при бане. + нужно будет несколько серверов для решения рекапчи2 Короче есть деньги и ресурсы человеческие - есть парсинг, проблем в данный момент нет.
1) Какое кол-во проксей потребуется для парсинга 50 000 запросов в час? 2) Тестировали большое кол-во сервисов подписки ipv6, но ничего не подходит.