прокси & recaptcha2

malexoid · 23 май 2018

Интересует как работает следующий пример (Парсим гугл с использованием ломалки recaptcha2)
1. Имеем список проксей 100 штук, прокси обновляются каждые 30 секунд.
2. Берем проксю А из списка, и с помощью её качаем гугловский урл.
3. Определяем что нужно взломать рекапчу2, отсылаем данные на xevil.
4. проходит 2 минуты, за это время успевает обновится список проксей и прокси A больше нет в списке.
5. Запрашиваем ответ от xevil - рекапча2 успешно взломана.
6. теперь с помощью прокси А мы должны отправить данные на гугловский урл. НО прокси А больше нет в нашем списке.

Вопрос: Запрос в п.6. все таки пойдет с помощью прокси А?

malexoid · 23 май 2018

Слишком много стало 403 & 503 ошибок в п.6 прям пачками идут, xevil рисует что всё корректно гадает.
Может гугл что-то поменял и вот тут нужно, что-то еще передавать...?
POST(1): https://ipv4.google.com/sorry/index - 503 Service Unavailable (2.42 KB)

Support · 23 май 2018

malexoid сказал(а): ↑

Вопрос: Запрос в п.6. все таки пойдет с помощью прокси А?
Нажмите, чтобы раскрыть...

Да, разгаданная рекаптча будет отправлена в Гугл с того IP, на котором она была получена. Если эта прокси умерла или с ней повторно выдалась рекаптча, то будет сделана новая попытка с новой сессией (или с новой прокси, если сессии отключены или нет доступной сессии). Кстати, сессии тоже подразумевают хранение и повторное использование прокси, с которым запрос был успешен.

malexoid сказал(а): ↑

Слишком много стало 403 & 503 ошибок в п.6 прям пачками идут, xevil рисует что всё корректно гадает.
Нажмите, чтобы раскрыть...

403 - это бан IP без выдачи каптчи.
503 - это в большинстве случаев рекаптча (очень редко бан без каптчи), если прокси сильно заюзанные, то рекаптча может выдаваться повторно, даже если первая была разгадана правильно.
Если у вас очень много подобных ошибок, то может быть стоит сменить прокси.
Кроме этого, сейчас в парсерах Гугла используется специальный адаптивный алгоритм, который в начале парсинга (на первых нескольких сотнях или даже тысячах запросов) пробует разные варианты работы и выбирает наиболее оптимальный для дальнейшей работы. Поэтому вначале вполне может наблюдаться повышенное кол-во ошибок.

malexoid · 23 май 2018

почему при ошибке 403, прокся в список забаненых не попадет?

malexoid · 23 май 2018

Support сказал(а): ↑

Если у вас очень много подобных ошибок, то может быть стоит сменить прокси.
Кроме этого, сейчас в парсерах Гугла используется специальный адаптивный алгоритм, который в начале парсинга (на первых нескольких сотнях или даже тысячах запросов) пробует разные варианты работы и выбирает наиболее оптимальный для дальнейшей работы. Поэтому вначале вполне может наблюдаться повышенное кол-во ошибок.
Нажмите, чтобы раскрыть...

у меня прокси свои и от носка, разницы не заметил при парсинге с гаданием, без гадания - в лоб носок рулит конечно.
адаптивный алгоритм только для парсинга без гадания?
У меня для варианта без гадания создаются задачи с пачками запросов по 6000, т.е через api отсылаются такие задания, это мало, какие пачки лучше слать? адаптивный алгоритм запоминает эффективные настройки свои между заданиями? или для каждого задания он по новой начинает поиск оптимальных настроек?

malexoid · 24 май 2018

Еще мысль такая, что если сделать дополнительные попытки - запостить ответ рекапчи в тех ситуация, когда прокся не стабильная?
т.е нужно отдельное кол-во попыток и отдельный timeout для поста.
POST(1): https://ipv4.google.com/sorry/index - 596 HTTPS(C) proxy error: Read error (0 KB)

Тут же проверяю - всё ок, прокся нормальная, обидно рекапча гадалась почти 4 минуты

Support · 24 май 2018

malexoid сказал(а): ↑

почему при ошибке 403, прокся в список забаненых не попадет?
Нажмите, чтобы раскрыть...

Начиная с 1.2.198 при получении 403 ответа в SE::Google::Modern прокси будет баниться.

malexoid сказал(а): ↑

адаптивный алгоритм только для парсинга без гадания?
Нажмите, чтобы раскрыть...

Нет, он как раз направлен на уменьшение кол-ва получаемых рекаптч и банов, включение/отключение разгадывания не влияет.

malexoid сказал(а): ↑

У меня для варианта без гадания создаются задачи с пачками запросов по 6000, т.е через api отсылаются такие задания, это мало, какие пачки лучше слать? адаптивный алгоритм запоминает эффективные настройки свои между заданиями? или для каждого задания он по новой начинает поиск оптимальных настроек?
Нажмите, чтобы раскрыть...

Запоминает вместе с успешными сессиями. Сколько лучше запросов отправлять - зависит от проксей и от "настроения" Гугла. В целом - можете парсить как обычно, не отвлекаясь на подобные моменты

malexoid сказал(а): ↑

Еще мысль такая, что если сделать дополнительные попытки - запостить ответ рекапчи в тех ситуация, когда прокся не стабильная?
Нажмите, чтобы раскрыть...

Ответ рекаптчи должен отправляться с того же IP, на котором он был получен.

malexoid · 24 май 2018

Support сказал(а): ↑

Ответ рекаптчи должен отправляться с того же IP, на котором он был получен.
Нажмите, чтобы раскрыть...

я имел ввиду делать несколько попыток с этого же ip, т.к гадание рекапчи2 по ресурсам слишком дорого, то наверно есть смысл несколько раз туже проксю подолбить надеясь на положительный результат.

Support · 24 май 2018

Выделил в отдельную задачу, попробуем реализовать: https://a-parser.com/threads/4511/

прокси & recaptcha2

malexoid A-Parser Enterprise License
A-Parser Enterprise

malexoid A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

malexoid A-Parser Enterprise License
A-Parser Enterprise

malexoid A-Parser Enterprise License
A-Parser Enterprise

malexoid A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

malexoid A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

Поделиться этой страницей

О нас

Быстрая навигация

Twitter

Поддержка

Быстрый поиск

прокси & recaptcha2

malexoid A-Parser Enterprise License A-Parser Enterprise

malexoid A-Parser Enterprise License A-Parser Enterprise

Support Administrator Команда форума A-Parser Enterprise

malexoid A-Parser Enterprise License A-Parser Enterprise

malexoid A-Parser Enterprise License A-Parser Enterprise

malexoid A-Parser Enterprise License A-Parser Enterprise

Support Administrator Команда форума A-Parser Enterprise

malexoid A-Parser Enterprise License A-Parser Enterprise

Support Administrator Команда форума A-Parser Enterprise

Поделиться этой страницей

Служба поддержки

malexoid A-Parser Enterprise License
A-Parser Enterprise

malexoid A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

malexoid A-Parser Enterprise License
A-Parser Enterprise

malexoid A-Parser Enterprise License
A-Parser Enterprise

malexoid A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

malexoid A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise