Улучшения
- В связи с переводом основных встроенных парсеров на новую платформу Node.js, полностью переписаны и обновлены парсеры:
- Основные улучшения от перевода данных парсеров на Node.js:
- увеличение производительности в ~1.5 раза
- унификация HTTP движка с JavaScript парсерами, единый обход CloudFlare
- Добавлены новые парсеры:
- В
HTML::EmailExtractor добавлена опция Skip non-HTML blocks, позволяющая отключить сбор почт внутри тегов script, style и т.п. - В
SE::Google::Translate добавлены новые переменные:- $translit_orig - оригинальный текст транслитом
- $translit_translated - переведенный текст транслитом
- $variants.$i.text - список вариантов перевода оригинального текста
- В
SE::Bing обновлен список регионов и языков - В
Social::Instagram::Profile и
Social::Instagram::Post добавлена возможность собирать кол-во видеопросмотров - В
SE::Yandex::Translate добавлена возможность отключать использование сессий - В
Net::HTTP добавлена возможность указывать user-agent для Chrome - В парсере
Rank::MOZ исправлена ошибка, возникающая при вызове парсера из JS методом this.parser.request(). - В
Rank::CMS добавлена поддержка нового apps.json и возможность использовать
Net::HTTP - В
Net::Whois обновлена поддержка всех зон - Для проксичекеров добавлена опция Exclude from "All", а также сделаны изменения в логике:
- "All" - использует все прокси выбранные для задании
- конкретный проксичекер - использует его, даже если он не выбран в задании
- Добавлена поддержка устаревших версий SSL
- JS парсеры: Добавлена опция tlsOpts для this.request(), позволяет передавать настройки для https соединений
- JS парсеры: обновление Node.js с 14.2.0 до 14.15.0
- JS парсеры: модуль puppeteer включен в сборку А-Парсера и не требует отдельной установки
- Множество различных исправлений в
SE::Google и
SE::Yandex в связи с изменениями в выдаче - В
SE::Yandex удалена функция автораспознавания каптч в связи с изменением вида каптч - Исправлена работа
SE::Google::Translate - В
HTML::EmailExtractor исправлена ошибка, при которой пропускались большие блоки html - Исправлена ошибка в
Social::Instagram::profile из-за которой не парсилось больше одной страницы - Исправлена авторизация в
SE::Google::KeywordPlanner - В
SE::Google::TrustCheck исправлено определение горизонтальных блоков ссылок - В
SE::Baidu исправлен парсинг related keywords - В
Shop::Amazon исправлен сбор продавцов, а также исправлена ошибка, связанная с количество страниц - Исправлен
Rank::Linkpad, а также в нем удалена переменная $links_cost, т.к. этого показателя больше нет на источнике - В
Rank::Social::Signal в связи с неактуальностью удалена переменная $googleplus_like - В
Rank::CMS исправлено определение по признакам скриптов для нового apps.json - Также адаптированы к изменениям в выдаче:
SE::Yandex::Translate,
SE::MailRu,
Rank::MajesticSEO,
SE::Yandex::Direct,
SE::Google::ByImage,
Rank::Ahrefs,
Shop::eBay,
SE::Yandex::Register,
SE::Seznam,
Shop::Yandex::Market,
SE::Dogpile,
SE::Dogpile::Images,
SE::Startpage,
SE::Baidu,
Shop::AliExpress,
SE::Youtube,
Rank::Social::Signal,
SE::Yandex::SQI,
SecurityTrails::Domain
- В
SE::Yandex исправлена работа Extra query string - Исправлено регулярное выражение в
HTML::EmailExtractor для устранения ошибок в некоторых случаях - Исправлено поведение парсера
SE::Google::KeywordPlanner при отсутствии результатов по запросу
Maps::Yandex исправлен и переведен на puppeteer- Исправлена ошибка в приоритетах выбора проксичекера
- JS парсеры: исправлен follow_meta_refresh
- API: исправлена работа параметра rawResults
