Ошибка [1.2.1524] Не принимается результат рекаптчи в SE::Google

Пробую парсить с колч попыток 100, стало лучше, чем было с капчами. Но в целом на 50 потоков скорость 30 запросов в минуту.:( (т.е. 1 запрос в 2 сек)


Кто-то уже пробовал парсить с рекапчей + текстовой капчей? Какая скорость выходит?
 
У меня парсинг одной страницы выдачи занимает 25-50 минут
 
Кто-то уже пробовал парсить с рекапчей + текстовой капчей? Какая скорость выходит?
У нас из-за этого случился перерасход на рукапче, т.к. гугл зацикливал капчу. Пока наиболее оптимально работает сбор позиций без разгадывания капчи, но с большим числом попыток (1000 и более).
 
У нас из-за этого случился перерасход на рукапче, т.к. гугл зацикливал капчу. Пока наиболее оптимально работает сбор позиций без разгадывания капчи, но с большим числом попыток (1000 и более).
да только так ... чисто на просях выезжать... про парсинг с xevil рукапчей капмонстром можно забыть... как на долго неизвестно пока... но думаю эти грабли не на один месяц...
 
У нас из-за этого случился перерасход на рукапче, т.к. гугл зацикливал капчу. Пока наиболее оптимально работает сбор позиций без разгадывания капчи, но с большим числом попыток (1000 и более).
На постинг эти программы и сервисы работают норм... на парсинг увы антибот защита и усё..
 
Рукапча выкатили новый пост в блоге, рекомендации собственно такие же, единственное что вызывает вопрос:

В дополнение мы нашли незначительные изменения в процессе вывода капчи, которые могли влиять на процент рабочих токенов.
Коменде а-парсера об этом изменении что-то известно?
 
Рукапча выкатили новый пост в блоге, рекомендации собственно такие же, единственное что вызывает вопрос:

В дополнение мы нашли незначительные изменения в процессе вывода капчи, которые могли влиять на процент рабочих токенов.
Коменде а-парсера об этом изменении что-то известно?
Да все в курсе событий... просто не всё так радужно и просто...
 
Рукапча выкатили новый пост в блоге, рекомендации собственно такие же, единственное что вызывает вопрос:

В дополнение мы нашли незначительные изменения в процессе вывода капчи, которые могли влиять на процент рабочих токенов.
Коменде а-парсера об этом изменении что-то известно?
Статью прочитал... В рукапче наивные гугл палит не только num переменные но и айпиху и количество этих самых запросов с одного айпи или проксей... антибот защита... а то что они в статье накрапали только вершина айсберга
 
Сейчас реально парсить только с проксями .... остальное от лукавого... поэтому сижу на прокси... ждём чуда...
 
Мы несколько дней тестировали данную проблему и пришли к следующим выводам:
  1. Google начал значительно жестче банить запросы
  2. Довольно часто (но не всегда) Google начал выдавать текстовые каптчи (в виде картинки) после рекаптчи
  3. Зацикливание на рекаптче (или рекаптче->каптче) происходит даже в браузере. Связано это скорее всего с баном IP. Наглядный пример такой ситуации на видео: https://files.a-parser.com/img/52wvo_220609130110.mp4
Исходя из этого, мы добавили в парсер Google поддержку текстовой (графической) каптчи. Чтобы она разгадывалась, нужно кроме пресета для Util::ReCaptcha2 Util::ReCaptcha2 также выбрать настроенный на нужный сервис пресет для Util::Antigate Util::Antigate. К сожалению, это полностью не решает проблему зацикливания, но повышает шансы на прохождение проверки. Как-то еще повлиять на данную проблему со стороны парсера нет возможности, т.к. Google аналогично ведет себя в браузере.
Кроме этого, для снижения вероятности появления данной проблемы рекомендуем по возможности использовать следующие советы:
  • Парсить по 10 результатов на страницу (Results per page)
  • Задавать страну поиска (Search from country)
  • Использовать как можно больше прокси, которые либо заточены под Google, либо максимально "чистые"
  • Парсить без подключения сервисов разгадывания, используя большое кол-во попыток (Request retries)
По нашим тестам 10 результатов на страницу и указанная страна поиска сильно снижают вероятность появления рекаптчи, а также способствуют принятию ответа на рекаптчу с первой попытки.

P.S. Ситуация и рекомендации актуальны на данный момент, в будущем Google может изменить поведение.

Раз такое дело можете пожалуйста добавить Pages count значение 100 (или какую-то галочку Parser All - check next page automatically), потому что сейчас максимум можно только 10 страниц указать.
 
да только так ... чисто на просях выезжать... про парсинг с xevil рукапчей капмонстром можно забыть... как на долго неизвестно пока... но думаю эти грабли не на один месяц...
UTxRllt.png


Лям запросов на Xevil меньше чем за сутки, запросы типа site:, правда ТОР10, не глубже
 
UTxRllt.png


Лям запросов на Xevil меньше чем за сутки, запросы типа site:, правда ТОР10, не глубже
Скорее всего из за запросов вида site:... были бы другие... был бы антибот... и ляма бы не было... проверенно лично ... только палится и сразу зацикливает и не принимает капчу...плюс по скрину вижу запросы простые без операторов...Прозрачные эпоксидные смолы...как то не очень похоже на оператора site:
 
UTxRllt.png


Лям запросов на Xevil меньше чем за сутки, запросы типа site:, правда ТОР10, не глубже
Проверил чисто на запросах без операторов гугла парсит норм...https://prnt.sc/wzm5jYChZ4ol... скорее всего на ближайшие месяцы пока жужель не попустит единственная альтернатива парсингу с операторами
 
Скорее всего из за запросов вида site:... были бы другие... был бы антибот... и ляма бы не было... проверенно лично ... только палится и сразу зацикливает и не принимает капчу...плюс по скрину вижу запросы простые без операторов...Прозрачные эпоксидные смолы...как то не очень похоже на оператора site:

Вот что за недоверчивость
"Прозрачные эпоксидные смолы site:domain.com" там было, для того чтоб определить какая страница ранжируется по этому запросу.

Какие другие запросы интересно проверить?
 
Вот что за недоверчивость
"Прозрачные эпоксидные смолы site:domain.com" там было, для того чтоб определить какая страница ранжируется по этому запросу.

Какие другие запросы интересно проверить?
Дык я ужо сам)))... без операторов норм парсит
 
Google как я понял сейчас смотрит на тип запроса если скажем запрос форум с точки зрения гугла такой запрос может пользователь писать а вот уже запросы inurl:forum тут уже у гугла вопрос а обычный человек будет ли писать такие запросы...)))
 
Свежий тест парсинга Google.
Версия A-Parser - 1.2.1531, прокси из ЛК, 500 потоков, запросы с оператором site:, парсится топ100 (10 страниц по 10 результатов на странице), 500 попыток, без разгадывания каптч/рекаптч. Кроме Links per page, Pages count и Request retries все остальные настройки SE::Google по-умолчанию.
ioi4g_220613130147.png
 
Назад
Верх