Знатоки парсинга Google - откликнитесь!

red2see

New Member
Есть проблема, которую не можем решить. Нужно парсить ежедневно 10 000 000 запросов в поисковой выдаче Google.

На данный момент, мы в парсим 100 позиций выдачи гугла порядка 500к - 1.5 милионов запросов в день. До того, как гугл перешел c цифровой капчи на recaptcha2, для решения капч мы использовали capmonster2 и скорость была около 4к в минуту. После перехода на новую капчу, капмонстр перестал справляться с нагрузкой, в связи с чем было решено попробовать отказаться от него. Пробовали сервисы, в которых оплата идет за определенное количество решенных капч, но они оказались не эффективными, так-как время решения капчи больше, чем выигранное благодаря этому время и средняя скорость еще меньше, чем вообще без разгадывания капчи. Без разгадывания капчи скорость так же очень низкая, варьируется от 50 до 700 запросов в минуту. Дополнительные прокся не сильно помогают, так-как в начале скорость нормальная (около 2к/минуту), но очень быстро запросы банятся и скорость снова падает.
Наверно делаем что-то не так.
 
xevil временное решение, к тому же дорогое для масштабирования, уменьшить аппетит и парсить что надо, а не всякий мусор
 
xevil временное решение, к тому же дорогое для масштабирования, уменьшить аппетит и парсить что надо, а не всякий мусор
дорогое? самый дешевый вариант из всех. Если вы имеете ввиду дорого, в плане ничего не платить или платить за сервера, то об этом можно забыть. дешевых решений как раньше пока не существует. Ждем пока xevil оптимизирует свое решение, на днях что-то обещают.
 
Связка апарсера+xevil+нормальные прокси с ротацией - всё прекрасно работает на 200 потоках, количество неудачных запросов практически на нуле, хотя да - нужно мощное железо для xevil.
 
Связка апарсера+xevil+нормальные прокси с ротацией - всё прекрасно работает на 200 потоках, количество неудачных запросов практически на нуле, хотя да - нужно мощное железо для xevil.

Что-то не совсем получается парсить на 200 потоков, с таким количеством разгадывания ре-капчи. Можешь проконсультировать, как добиться данных результатов.
 
Что-то не совсем получается парсить на 200 потоков, с таким количеством разгадывания ре-капчи. Можешь проконсультировать, как добиться данных результатов.
железо надо хорошее и будет вам 200 потоков. +много хороших, надёжных прокси.
 
Последнее редактирование:
железо надо хорошее и будет вам 200 потоков. +много хороших, надёжных прокси.
Если есть много хороших, надёжных прокси, рекапчу можно не гадать, только попыток побольше выставить, все летать будет
 
  • Like
Реакции: d4k
Сейчас с парсингом с помощью гадания рекапчи не всё так хорошо, как раньше. Рекапчу разгадать не проблема, проблема в другом, гугл палит что гадание рекапчи и запрос страницы идут с разных ip и очень часто просто повторно капчу подсовывает. А-parser не поддерживает (кажется api antigate v2), чтобы гадание рекапчи шло бы с тем же ip и т.п. параметрами, что и запрос основной страницы.
 
Непосредственно Util::ReCaptcha2 Util::ReCaptcha2 поддерживает оба метода: ProxyLess (без передачи прокси) и ProxyOn (с передачей прокси и юзерагента). Но в SE::Google::Modern SE::Google::Modern на данный момент момент поддерживается только ProxyLess метод, как минимум по 2-м причинам:
- Гугл не требует жесткого соответствия IP с которого запрашивалась страница и разгадывается рекаптча
- Прокси с привязкой к IP не будут работать на сервисе разгадывания
Возможно, в ближайших сборках мы добавим в виде эксперементальной опции возможность включить ProxyOn метод.
 
Возможно, в ближайших сборках мы добавим в виде эксперементальной опции возможность включить ProxyOn метод.
У меня есть возможность всё это протестировать в боевом режиме, если вы добавите такую опцию, хотя бы эксперементально, то было бы отлично. Хочется всё это проверить.
 
@malexoid а какие сервисы поддерживают ProxyOn метод? По моим тестам точно поддерживает anti-captcha. Rucaptcha и Xevil - не поддерживают
 
Есть проблема, которую не можем решить. Нужно парсить ежедневно 10 000 000 запросов в поисковой выдаче Google.

На данный момент, мы в парсим 100 позиций выдачи гугла порядка 500к - 1.5 милионов запросов в день. До того, как гугл перешел c цифровой капчи на recaptcha2, для решения капч мы использовали capmonster2 и скорость была около 4к в минуту. После перехода на новую капчу, капмонстр перестал справляться с нагрузкой, в связи с чем было решено попробовать отказаться от него. Пробовали сервисы, в которых оплата идет за определенное количество решенных капч, но они оказались не эффективными, так-как время решения капчи больше, чем выигранное благодаря этому время и средняя скорость еще меньше, чем вообще без разгадывания капчи. Без разгадывания капчи скорость так же очень низкая, варьируется от 50 до 700 запросов в минуту. Дополнительные прокся не сильно помогают, так-как в начале скорость нормальная (около 2к/минуту), но очень быстро запросы банятся и скорость снова падает.
Наверно делаем что-то не так.

Удалось решить задачу?
Расскажите как!
 
Удалось решить задачу?
Расскажите как!
Два варианта либо
1. нужны деньги на пулы проксей ipv4, можно серверные обычные (много разных)
либо
2. нужны деньги на хостинги с ipv6 (много разных и постоянно их менять как забанят) либо самому сетки каждый раз менять при бане.

+ нужно будет несколько серверов для решения рекапчи2

Короче есть деньги и ресурсы человеческие - есть парсинг, проблем в данный момент нет.
 
Два варианта либо
1. нужны деньги на пулы проксей ipv4, можно серверные обычные (много разных)
либо
2. нужны деньги на хостинги с ipv6 (много разных и постоянно их менять как забанят) либо самому сетки каждый раз менять при бане.

+ нужно будет несколько серверов для решения рекапчи2

Короче есть деньги и ресурсы человеческие - есть парсинг, проблем в данный момент нет.
1) Какое кол-во проксей потребуется для парсинга 50 000 запросов в час?
2) Тестировали большое кол-во сервисов подписки ipv6, но ничего не подходит.
 
Назад
Верх