SE::Google - Ban proxy

  • Автор темы Автор темы Force68
  • Дата начала Дата начала

Force68

A-Parser Enterprise License
A-Parser Enterprise
Добрый вечер, подскажите по такому вопросу -
при парсинге google прокси моментально улетают в бан,
можно конечно использовать антигейт, но что то разорительно,
т.к. буквально за час работы улетает по 3-4 бакса,

причем прокси брал и amw*оские, и паблик парсил - всё равно банятца моментом,
и в 100 потоков парсил и в 50, может что в настройках ковырнуть надо, чтоб время между запросами увеличить -
раньше вроде такого не было.
 
попробуй поставить Proxy ban time в 0:
BJbzJ.png


отпиши о результатах, кстати какие запросы парсишь? с операторами?
 
Запросы типа inurl:"yabb.pl?board="
практически везде есть оператор inurl:,
поставил на ноль время бана прокси - не помогло, процесс стоит,
полезли "неудачные запросы" - хотя количество обращений стоит 300.
 
Запросы типа inurl:"yabb.pl?board="
Я подозреваю что гугл на днях стал сильнее банить запросы с операторами

Скоро будет новая версия, там исправлено некорректное определение каптчи, с ней попробуешь потом
 
Поставил, запустил


что то совсем не утешительно, хотя возможно прокси побанены.

 
Да, без каптчи тут не обойтись видимо
 
Вроде как и без операторов можно неплохие базы собирать. И банан реже получать.
 
Вроде как и без операторов можно неплохие базы собирать. И банан реже получать.
+1 старайтесь всегда парсить по косвенным признакам(повторяющийся текст на страницах, повторяющийся уже проспамленый текст(для тех кто собирает базы под A-Poster, XRumer и т.п.), вхождение ссылок без inurl)
 
да, так и есть, при запросах с оператором inurl гугл каптчу выдаёт, уже месяца 3 так (( с inurl скорость вообще никакая, без inurl каптчу не выдаёт, может какие-то куки ему нужно подкидывать. Пока тоже паршу без inurl, потом в url нужное вхождение проверяю.
 
может какие-то куки ему нужно подкидывать.
по моим тестам - не поможет, т.е. сейчас апарсер себя ведет почти идентично браузеру
т.е. если взять проксю, вбить её в браузер и попробовать в гугле вбить тот же запрос - то гугл покажет каптчу

помогает если ты залогинен в гугл аккаунт, но это уже другая история )
 
Поддержую. и без операторов можно норм парсить. Если так принципиальна точность , анализатором в хрумке можно потом прогнать результат.
 
Если так принципиальна точность , анализатором в хрумке можно потом прогнать результат.
хрумер для этого не нужен :) в апарсере есть Rank::CMS, которым можно проверить принадлежность сайта к какому либо движку, или использовать банальный фильтр по вхождению признака в ссылке
 
Тоже была аналогичная проблема, сейчас обновлюсь и попробую ещё раз. Сенкс.
 
проверяем новую фичу CaptchaKiller, отписывайте лучше ли у вас стало парсить

P.S. это скорее всего не окончательная версия
 
на новой версии стало много failed queries, попыток стоит 50, на тех же запросах и настроках пресета на прошлой версии failed queries почти небыло
 
Назад
Верх