1.2.1076 - 3 новых парсера, завершение перехода на Node.js, интеграция puppeteer в сборку

Support · 21 Дек 2020

Улучшения

В связи с переводом основных встроенных парсеров на новую платформу Node.js, полностью переписаны и обновлены парсеры:
Основные улучшения от перевода данных парсеров на Node.js:
- увеличение производительности в ~1.5 раза
- унификация HTTP движка с JavaScript парсерами, единый обход CloudFlare
Добавлены новые парсеры:
В HTML::EmailExtractor добавлена опция Skip non-HTML blocks, позволяющая отключить сбор почт внутри тегов script, style и т.п.
В SE::Google::Translate добавлены новые переменные:
- $translit_orig - оригинальный текст транслитом
- $translit_translated - переведенный текст транслитом
- $variants.$i.text - список вариантов перевода оригинального текста
В SE::Bing обновлен список регионов и языков
В Social::Instagram::Profile и Social::Instagram::Post добавлена возможность собирать кол-во видеопросмотров
В SE::Yandex::Translate добавлена возможность отключать использование сессий
В Net::HTTP добавлена возможность указывать user-agent для Chrome
В парсере Rank::MOZ исправлена ошибка, возникающая при вызове парсера из JS методом this.parser.request().
В Rank::CMS добавлена поддержка нового apps.json и возможность использовать Net::HTTP
В Net::Whois обновлена поддержка всех зон
Для проксичекеров добавлена опция Exclude from "All", а также сделаны изменения в логике:
- "All" - использует все прокси выбранные для задании
- конкретный проксичекер - использует его, даже если он не выбран в задании
Добавлена поддержка устаревших версий SSL
JS парсеры: Добавлена опция tlsOpts для this.request(), позволяет передавать настройки для https соединений
JS парсеры: обновление Node.js с 14.2.0 до 14.15.0
JS парсеры: модуль puppeteer включен в сборку А-Парсера и не требует отдельной установки

Исправления в связи с изменениями в выдаче

Множество различных исправлений в SE::Google и SE::Yandex в связи с изменениями в выдаче
В SE::Yandex удалена функция автораспознавания каптч в связи с изменением вида каптч
Исправлена работа SE::Google::Translate
В HTML::EmailExtractor исправлена ошибка, при которой пропускались большие блоки html
Исправлена ошибка в Social::Instagram::profile из-за которой не парсилось больше одной страницы
Исправлена авторизация в SE::Google::KeywordPlanner
В SE::Google::TrustCheck исправлено определение горизонтальных блоков ссылок
В SE::Baidu исправлен парсинг related keywords
В Shop::Amazon исправлен сбор продавцов, а также исправлена ошибка, связанная с количество страниц
Исправлен Rank::Linkpad, а также в нем удалена переменная $links_cost, т.к. этого показателя больше нет на источнике
В Rank::Social::Signal в связи с неактуальностью удалена переменная $googleplus_like
В Rank::CMS исправлено определение по признакам скриптов для нового apps.json
Также адаптированы к изменениям в выдаче: SE::Yandex::Translate, SE::MailRu, Rank::MajesticSEO, SE::Yandex::Direct, SE::Google::ByImage, Rank::Ahrefs, Shop::eBay, SE::Yandex::Register, SE::Seznam, Shop::Yandex::Market, SE::Dogpile, SE::Dogpile::Images, SE::Startpage, SE::Baidu, Shop::AliExpress, SE::Youtube, Rank::Social::Signal, SE::Yandex::SQI, SecurityTrails::Domain

Исправления

В SE::Yandex исправлена работа Extra query string
Исправлено регулярное выражение в HTML::EmailExtractor для устранения ошибок в некоторых случаях
Исправлено поведение парсера SE::Google::KeywordPlanner при отсутствии результатов по запросу
Maps::Yandex исправлен и переведен на puppeteer
Исправлена ошибка в приоритетах выбора проксичекера
JS парсеры: исправлен follow_meta_refresh
API: исправлена работа параметра rawResults

Morgul · 21 Дек 2020

В новости ссылка на https://a-parser.com/wiki/deepl-translator/
Но там нет инфы. Появится позже?

Support · 21 Дек 2020

Morgul сказал(а):
Появится позже?

Конечно появится

1.2.1076 - 3 новых парсера, завершение перехода на Node.js, интеграция puppeteer в сборку

Support

Administrator

Morgul

A-Parser Enterprise License

Support

Administrator

О нас

Быстрая навигация

Соцсети

Поддержка