Пробую парсить с колч попыток 100, стало лучше, чем было с капчами. Но в целом на 50 потоков скорость 30 запросов в минуту. (т.е. 1 запрос в 2 сек) Кто-то уже пробовал парсить с рекапчей + текстовой капчей? Какая скорость выходит?
У нас из-за этого случился перерасход на рукапче, т.к. гугл зацикливал капчу. Пока наиболее оптимально работает сбор позиций без разгадывания капчи, но с большим числом попыток (1000 и более).
да только так ... чисто на просях выезжать... про парсинг с xevil рукапчей капмонстром можно забыть... как на долго неизвестно пока... но думаю эти грабли не на один месяц...
Рукапча выкатили новый пост в блоге, рекомендации собственно такие же, единственное что вызывает вопрос: В дополнение мы нашли незначительные изменения в процессе вывода капчи, которые могли влиять на процент рабочих токенов. Коменде а-парсера об этом изменении что-то известно?
Статью прочитал... В рукапче наивные гугл палит не только num переменные но и айпиху и количество этих самых запросов с одного айпи или проксей... антибот защита... а то что они в статье накрапали только вершина айсберга
Сейчас реально парсить только с проксями .... остальное от лукавого... поэтому сижу на прокси... ждём чуда...
Раз такое дело можете пожалуйста добавить Pages count значение 100 (или какую-то галочку Parser All - check next page automatically), потому что сейчас максимум можно только 10 страниц указать.
Скорее всего из за запросов вида site:... были бы другие... был бы антибот... и ляма бы не было... проверенно лично ... только палится и сразу зацикливает и не принимает капчу...плюс по скрину вижу запросы простые без операторов...Прозрачные эпоксидные смолы...как то не очень похоже на оператора site:
Проверил чисто на запросах без операторов гугла парсит норм...https://prnt.sc/wzm5jYChZ4ol... скорее всего на ближайшие месяцы пока жужель не попустит единственная альтернатива парсингу с операторами
Вот что за недоверчивость "Прозрачные эпоксидные смолы site:domain.com" там было, для того чтоб определить какая страница ранжируется по этому запросу. Какие другие запросы интересно проверить?
попробуй эти inurl:"index.php?PAGE_NAME=profile_view" inurl:"index.php?PAGE_NAME=rules" inurl:"view_profile.php?UID=" inurl:"forum/user" inurl:"/forum/?PAGE_NAME=profile_view&UID=" но думаю палево будет и всё закончится антибот защитой
Google как я понял сейчас смотрит на тип запроса если скажем запрос форум с точки зрения гугла такой запрос может пользователь писать а вот уже запросы inurl:forum тут уже у гугла вопрос а обычный человек будет ли писать такие запросы...)))
Свежий тест парсинга Google. Версия A-Parser - 1.2.1531, прокси из ЛК, 500 потоков, запросы с оператором site:, парсится топ100 (10 страниц по 10 результатов на странице), 500 попыток, без разгадывания каптч/рекаптч. Кроме Links per page, Pages count и Request retries все остальные настройки SE::Google по-умолчанию.