SE::Google парсит странным образом.

vaulroon

A-Parser Pro License
A-Parser Pro
Сейчас сижу на крайней бетке. Странно вообще парсит.
500 потоков, proxy.am, пакет на 5000 проксей.
Запускаю, скорость ~4к (общая), неудачных запрсов 0 (ретрай лимит 20). Полчаса примерно (наверно чуть меньше даже) парсит на такой же скорости, текущая скорость потихонечку начинает падать, а через час оказывается, что текущая скорость уже 1000, а то и вообще до 400 опускается, а кол-во неудачных запросов при этом начинает катастрофически расти. Если выключить и через какое-то время новую задачу сделать, то ситуация повторяется.
Что не так с гуглом? Раньше такого не было, вот еще буквально дня 4 назад стабильно парсило на скорости ~1500. Неудачные запросы были, но их было сравнительно мало.

Q-6KJ21AT7SvU1O5-S6rQg.png


ЗЫ: На текущей стабилке ситуация еще хуже, там скорость начинает от 10 запросов расти и черепашьим темпом начинает потихоньку расти до все тех же 400 запросов в минуту.
ЗЫЫ: Пользуясь моментом, задам еще вопрос: яндекс парсер почему-то плохо парсит, начальная скорость 1000 и постепенно опускается, когда о на до 700 упала, я просто вырубил.Так и должно быть? Я что-то думал, что у яндекса наоборот она пошустрее быть должна. Тем более при наведении на иконку информации показывало полное отсутствие капчи. Тот же QIP парсит со скоростью 1600.
 
Запускаю, скорость ~4к (общая), неудачных запрсов 0 (ретрай лимит 20). Полчаса примерно (наверно чуть меньше даже) парсит на такой же скорости, текущая скорость потихонечку начинает падать, а через час оказывается, что текущая скорость уже 1000, а то и вообще до 400 опускается, а кол-во неудачных запросов при этом начинает катастрофически расти. Если выключить и через какое-то время новую задачу сделать, то ситуация повторяется.
Прокси со временем "устают", т.е. Гугл их банит. Отсюда перебор попыток, снижение скорости и неудачные.
Что не так с гуглом? Раньше такого не было, вот еще буквально дня 4 назад стабильно парсило на скорости ~1500. Неудачные запросы были, но их было сравнительно мало.
Гугл сейчас постоянно что-то "подкручивает", поэтому ситуация может меняться очень часто. Мы стараемся отслеживать все изменения и вносить правки в парсер.

В данной ситуации, рекомендую увеличивать кол-во попыток. Также, Гугл сейчас при бане выдает рекаптчу, ее разгадывание поддерживается в SE::Google::Modern SE::Google::Modern, поэтому для увеличения производительности лучше использовать этот парсер и подключать разгадывание.
ЗЫЫ: Пользуясь моментом, задам еще вопрос: яндекс парсер почему-то плохо парсит, начальная скорость 1000 и постепенно опускается, когда о на до 700 упала, я просто вырубил.Так и должно быть? Я что-то думал, что у яндекса наоборот она пошустрее быть должна. Тем более при наведении на иконку информации показывало полное отсутствие капчи. Тот же QIP парсит со скоростью 1600.
В Яндексе скорость скорее всего падает по аналогичным причинам. Кол-во каптч в статистике отображается только если включено разгадывание (Use AntiGate).
 
Назад
Верх