Полностью переписан парсер картинок SE::Google::Images - теперь он парсит новую выдачу, до 10 страниц по 100 результатов
Парсер SE::Bing теперь поддерживает парсинг Bing News, также теперь можно выбрать время выдачи(за все время, за 24 часа, за неделю или за месяц)
Парсер HTML::LinkExtractor теперь автоматически считает внутренними ссылки с поддоменов www. и ftp., возможность учитывать все поддомены как внутренние оставлена без изменений
Исправления
Исправлен парсер SE::Bing::LangDetect в связи с изменением в выдачи
Исправлен парсер Rank::Ahrefs в связи с изменением в выдачи
Теперь в настройках Антигейта( Util::AntiGate) появилась возможность указать дополнительные настройки для каптчи: длину, регистрозависимость, состоит ли каптча только из цифр или её необходимо отправить русскоговорящему сотруднику, и т.п.
Яндекс ввел показ русской каптчи в выдачи, теперь парсер корректно обрабатывает её:
В дополнении к этому в парсере SE::Yandex появилась опция эмуляции браузера, что позволяет добиться высокой скорости парсинга и малого расхода каптч. Парсинг топ-50 выдачи Яндекса в 500 потоков с использованием антигейта(средняя скорость ~2000 запросов в минуту):
Добавлена опция Parse not found, определяющая парсить ли выдачу если по искомому запросу найдено ноль результатов и предложена выдача по другому запросу
Теперь яндекс гораздо реже показывает каптчу
Исправлена отправка каптчи в связи с изменением в выдачи
В некоторых случаях неверно отправлялся запрос на антигейт о неправильной каптчи
Парсер Яндекс Вордстата SE::Yandex::WordStat:
Улучшена работа с аккаунтами - неверно определялся заблокированный аккаунт
Нельзя было использовать антигейт совместно с аккаунтами
Другие улучшения:
Реализована статистика работы по каждому заданию, в текущей версии считает количество успешных запросов, использование проксей, попыток и HTTP-запросов
Теперь при просмотре логов неудачные запросы выделяются красным цветом для удобства отладки
В связи с тем что WordStat теперь можно парсить только используя аккаунты появился новый парсер SE::Yandex::Register - автоматически регистрирует тысячи аккаунтов используя антигейт.
На скриншоте пример регистрации 1000 аккаунтов за 15 минут. Скорость ограничена возможностями антигейта.
Парсеры SE::Yandex::WordStat и SE::Yandex::WordStat::ByDate теперь поддерживают авторизацию и позволяют парсить миллионы кейвордов и проверять частотность без использования антигейта. Теперь затраты на каптчу только при регистрации аккаунтов!