Теперь в настройках Антигейта( Util::AntiGate) появилась возможность указать дополнительные настройки для каптчи: длину, регистрозависимость, состоит ли каптча только из цифр или её необходимо отправить русскоговорящему сотруднику, и т.п.
Яндекс ввел показ русской каптчи в выдачи, теперь парсер корректно обрабатывает её:
В дополнении к этому в парсере SE::Yandex появилась опция эмуляции браузера, что позволяет добиться высокой скорости парсинга и малого расхода каптч. Парсинг топ-50 выдачи Яндекса в 500 потоков с использованием антигейта(средняя скорость ~2000 запросов в минуту):
Добавлена опция Parse not found, определяющая парсить ли выдачу если по искомому запросу найдено ноль результатов и предложена выдача по другому запросу
Теперь яндекс гораздо реже показывает каптчу
Исправлена отправка каптчи в связи с изменением в выдачи
В некоторых случаях неверно отправлялся запрос на антигейт о неправильной каптчи
Парсер Яндекс Вордстата SE::Yandex::WordStat:
Улучшена работа с аккаунтами - неверно определялся заблокированный аккаунт
Нельзя было использовать антигейт совместно с аккаунтами
Другие улучшения:
Реализована статистика работы по каждому заданию, в текущей версии считает количество успешных запросов, использование проксей, попыток и HTTP-запросов
Теперь при просмотре логов неудачные запросы выделяются красным цветом для удобства отладки
В связи с тем что WordStat теперь можно парсить только используя аккаунты появился новый парсер SE::Yandex::Register - автоматически регистрирует тысячи аккаунтов используя антигейт.
На скриншоте пример регистрации 1000 аккаунтов за 15 минут. Скорость ограничена возможностями антигейта.
Парсеры SE::Yandex::WordStat и SE::Yandex::WordStat::ByDate теперь поддерживают авторизацию и позволяют парсить миллионы кейвордов и проверять частотность без использования антигейта. Теперь затраты на каптчу только при регистрации аккаунтов!
Новый парсер SE::Yandex::Direct::Frequency - проверка частотности ключевых слов через Яндекс.Директ.
Без распознавания каптчи средняя скорость проверки 3000 ключевых слов в минуту при 500 потоках:
На хороших проксях и при большем числе потоков можно добиться скорости более 20000 кеев в минуту
В парсере HTML::TextExtractor теперь корректно обрабатываются списки(<select>)
Исправления в связи с изменением в выдаче:
Rank::Alexa
SE::Google - определение запросов по которым нет результатов
Другие исправления:
Исправлена логика работы Parse all results(Parse to level) совместно с макросами перебора букв(или фраз из файла)