Перестал работать парсинг выдачи гугла. Прокси a-parser, рекапча решается через capmonstercloud. По кругу пытается получить результаты и зацикливается на решении рекапчи.
проблема с решением рекапчи через последний ксевил 5.0.15, апарсер выдает такую ошибку Util::ReCaptcha2: POST(1): http://127.0.0.1:8088/createTask - 200 OK (8.99 KB) 06/06 13:05:29 Util::ReCaptcha2: Failed parse json response, error: Unexpected token < in JSON at position 0
Это не имеет отношения к данной задаче, у вас скорее всего некорректные настройки в XEvil (выбран неправильный тип API). Если нужна дополнительная консультация - напишите в один из чатов Технической поддержки.
Да пока тишина. Google сменил защиту от парсинга усложнил её. Тоже наблюдается и в Яндексе... пока везде тихо. Гугл думаю поправят быстрее, Яндекс печальнее...
Тоже самое, капчи принимаются примерно на 30% от решенных. Прокси банятся почти моментально, после 10 запроса с таймаутом 1 сек между запросами. Подскажите, у кого прокси из кабинета апарсера, проблема сохраняется? У меня кстати такой же ксевил, распознает, но особо с парсингом это не помогает..
с кабинета сапорт пишет всё гуд парсится... ксевил на парсинге сейчас не пашет... по слухам только прося из кабинета покупаешь и радуешся...
блин, решил проверить и обломался, купил специально только что прокси в кабинете и ситуация ещё хуже, с первого запроса уже рекапча
Тогда в сапорт стучи пусть настройки пресета глянут. Мне втирали что всё ок с проксями из кабинета все парсится... проверять не стал жду когда рекапчу пофиксят. Но как я понял это будет не скоро...
Под парс просями настройки пресета немного другие ... ксевила нет вообще... типа такого попробуй https://prnt.sc/nqK9nj-wiZht
Проверил на жужеле работает... прокся мои просто не айс скорость не ахти но собирает... яндекс не хочет хавать... ну да бог с ним мне гугла хватит
Паршу всегда проксями из кабинета, пробив/скорость упала процентов на 80-90 от того что было до этого
Скорость упала везде... чет Жужель накрутил в защите от парсинга серьезного... теперь только ползать а не летать... лафа кончилась... даже БМ на форуме каких то прогнозов и сроков не даёт... написал только знаем..думаем...
Продолжил экспериментировать, от RuCaptcha точно так же как от ксевила 80% ответов ведут в бан прокси. Нашел у них на блоге вот такую статью: https://rucaptcha.com/blog/google-ne-prinimaet-otvet-na-recaptcha Пишут что проблема в куках или ИП прокси. Соответственно вопрос, кто эту проблему будет решать?) Сервисы по разгадыванию капч или а-парсер? @Support
Да это понятно... капча гается нормально... только гугл её посылает... и большую часть не принимает... шлёт не успех и ксевил или сервисы пытаются её опять по новой решать. В этом и прикол защиты гугла... по ходу как то палит человек или машина гадает и усё.
Мы несколько дней тестировали данную проблему и пришли к следующим выводам: Google начал значительно жестче банить запросы Довольно часто (но не всегда) Google начал выдавать текстовые каптчи (в виде картинки) после рекаптчи Зацикливание на рекаптче (или рекаптче->каптче) происходит даже в браузере. Связано это скорее всего с баном IP. Наглядный пример такой ситуации на видео: https://files.a-parser.com/img/52wvo_220609130110.mp4 Исходя из этого, мы добавили в парсер Google поддержку текстовой (графической) каптчи. Чтобы она разгадывалась, нужно кроме пресета для Util::ReCaptcha2 также выбрать настроенный на нужный сервис пресет для Util::Antigate. К сожалению, это полностью не решает проблему зацикливания, но повышает шансы на прохождение проверки. Как-то еще повлиять на данную проблему со стороны парсера нет возможности, т.к. Google аналогично ведет себя в браузере. Кроме этого, для снижения вероятности появления данной проблемы рекомендуем по возможности использовать следующие советы: Парсить по 10 результатов на страницу (Results per page) Задавать страну поиска (Search from country) Использовать как можно больше прокси, которые либо заточены под Google, либо максимально "чистые" Парсить без подключения сервисов разгадывания, используя большое кол-во попыток (Request retries) По нашим тестам 10 результатов на страницу и указанная страна поиска сильно снижают вероятность появления рекаптчи, а также способствуют принятию ответа на рекаптчу с первой попытки. P.S. Ситуация и рекомендации актуальны на данный момент, в будущем Google может изменить поведение.
Задать меньшее кол-во результатов на страницу, выбрать страну, использовать больше прокси и попыток - это совсем не костыль. И точно не может влиять на стабильность работы парсера. Если у вас наблюдаются проблемы - имеет смысл написать в поддержку для их решения.