Добрый вечер, подскажите по такому вопросу - при парсинге google прокси моментально улетают в бан, можно конечно использовать антигейт, но что то разорительно, т.к. буквально за час работы улетает по 3-4 бакса, причем прокси брал и amw*оские, и паблик парсил - всё равно банятца моментом, и в 100 потоков парсил и в 50, может что в настройках ковырнуть надо, чтоб время между запросами увеличить - раньше вроде такого не было.
попробуй поставить Proxy ban time в 0: отпиши о результатах, кстати какие запросы парсишь? с операторами?
Запросы типа inurl:"yabb.pl?board=" практически везде есть оператор inurl:, поставил на ноль время бана прокси - не помогло, процесс стоит, полезли "неудачные запросы" - хотя количество обращений стоит 300.
Я подозреваю что гугл на днях стал сильнее банить запросы с операторами Скоро будет новая версия, там исправлено некорректное определение каптчи, с ней попробуешь потом
+1 старайтесь всегда парсить по косвенным признакам(повторяющийся текст на страницах, повторяющийся уже проспамленый текст(для тех кто собирает базы под A-Poster, XRumer и т.п.), вхождение ссылок без inurl)
да, так и есть, при запросах с оператором inurl гугл каптчу выдаёт, уже месяца 3 так (( с inurl скорость вообще никакая, без inurl каптчу не выдаёт, может какие-то куки ему нужно подкидывать. Пока тоже паршу без inurl, потом в url нужное вхождение проверяю.
по моим тестам - не поможет, т.е. сейчас апарсер себя ведет почти идентично браузеру т.е. если взять проксю, вбить её в браузер и попробовать в гугле вбить тот же запрос - то гугл покажет каптчу помогает если ты залогинен в гугл аккаунт, но это уже другая история )
Поддержую. и без операторов можно норм парсить. Если так принципиальна точность , анализатором в хрумке можно потом прогнать результат.
хрумер для этого не нужен в апарсере есть Rank::CMS, которым можно проверить принадлежность сайта к какому либо движку, или использовать банальный фильтр по вхождению признака в ссылке
проверяем новую фичу CaptchaKiller, отписывайте лучше ли у вас стало парсить P.S. это скорее всего не окончательная версия
на новой версии стало много failed queries, попыток стоит 50, на тех же запросах и настроках пресета на прошлой версии failed queries почти небыло