Теперь в настройках Антигейта( Util::AntiGate) появилась возможность указать дополнительные настройки для каптчи: длину, регистрозависимость, состоит ли каптча только из цифр или её необходимо отправить русскоговорящему сотруднику, и т.п.
Яндекс ввел показ русской каптчи в выдачи, теперь парсер корректно обрабатывает её:
В дополнении к этому в парсере SE::Yandex появилась опция эмуляции браузера, что позволяет добиться высокой скорости парсинга и малого расхода каптч. Парсинг топ-50 выдачи Яндекса в 500 потоков с использованием антигейта(средняя скорость ~2000 запросов в минуту):
Добавлена опция Parse not found, определяющая парсить ли выдачу если по искомому запросу найдено ноль результатов и предложена выдача по другому запросу
Теперь яндекс гораздо реже показывает каптчу
Исправлена отправка каптчи в связи с изменением в выдачи
В некоторых случаях неверно отправлялся запрос на антигейт о неправильной каптчи
Парсер Яндекс Вордстата SE::Yandex::WordStat:
Улучшена работа с аккаунтами - неверно определялся заблокированный аккаунт
Нельзя было использовать антигейт совместно с аккаунтами
Другие улучшения:
Реализована статистика работы по каждому заданию, в текущей версии считает количество успешных запросов, использование проксей, попыток и HTTP-запросов
Теперь при просмотре логов неудачные запросы выделяются красным цветом для удобства отладки
В связи с тем что WordStat теперь можно парсить только используя аккаунты появился новый парсер SE::Yandex::Register - автоматически регистрирует тысячи аккаунтов используя антигейт.
На скриншоте пример регистрации 1000 аккаунтов за 15 минут. Скорость ограничена возможностями антигейта.
Парсеры SE::Yandex::WordStat и SE::Yandex::WordStat::ByDate теперь поддерживают авторизацию и позволяют парсить миллионы кейвордов и проверять частотность без использования антигейта. Теперь затраты на каптчу только при регистрации аккаунтов!
Новый парсер SE::Yandex::Direct::Frequency - проверка частотности ключевых слов через Яндекс.Директ.
Без распознавания каптчи средняя скорость проверки 3000 ключевых слов в минуту при 500 потоках:
На хороших проксях и при большем числе потоков можно добиться скорости более 20000 кеев в минуту
В парсере HTML::TextExtractor теперь корректно обрабатываются списки(<select>)
Исправления в связи с изменением в выдаче:
Rank::Alexa
SE::Google - определение запросов по которым нет результатов
Другие исправления:
Исправлена логика работы Parse all results(Parse to level) совместно с макросами перебора букв(или фраз из файла)
Важное улучшение - теперь все парсеры(а их 43) проходят ежедневное автоматическое тестирование, что позволяет оперативно реагировать на изменения в выдаче или работе всех сервисов, с которыми работает A-Parser.
Улучшения:
Новый макрос результата {dump} - выводит в удобном виде все результаты получаемые парсером
Улучшен парсинг SE::AOL - теперь необходимо гораздо меньше попыток для успешного парсинга
Теперь парсер SE::Bing парсит до 1000 результатов с каждого запроса
В парсере SE::Google::PR если у домена или страницы нету PageRank то в результате выведет -1
Парсер SE::DMOZ переименован в Rank::DMOZ
Исправления:
Исправлена работа уникализации результатов в тесте A-Parser'а