1.1.108 - улучшения паука сбора ссылок, множество исправлений

Forbidden

Administrator
Команда форума
A-Parser Enterprise
Улучшения парсера HTML::LinkExtractor HTML::LinkExtractor
  • Добавлена опция Follow links позволяющая выбрать порядок следования по ссылкам: только по внутренним, по внутренним и внешним, только по внешним
  • Добавлен массив результатов $followlinks, который содержит ссылки для последующего перехода, над этим массивом можно применять фильтры и конструкторы результатов, что позволяет переходить только по определенным ссылкам(например только по топикам форумов)
  • Добавлена корректная обработка тега <base href=
Другие улучшения
  • Теперь парсер автоматически определяет кодировку по содержимому страницу, если другие методы не дали результатов. В случае если кодировку определить не удается и она не является корректной с точки зрения UTF-8 то содержимое страницы становится недоступным для обработки. Данное улучшение призвано исправить редкие проблемы когда файл результата A-Parser'а невозможно использовать в качестве запросов, т.к. файл мог содержать некорректную кодировку
  • При парсинге рекламы в SE::Google SE::Google теперь дополнительно парсится видимая ссылка на сайт
Исправления
  • Исправлен парсер SE::Yandex SE::Yandex в связи с изменением в выдачи
  • На платформе Windows при закрытии приложения парсера возникала ошибка
  • В парсере Net::Whois Net::Whois не был доступен исходный результат $data для пользовательской обработки
  • В парсере SE::Yandex SE::Yandex была ошибка в получении каптчи если в запросе содержалась скобка
  • Результат $query мог быть изменен некоторыми парсерами
  • Парсер Rank::OpenSiteExplorer Rank::OpenSiteExplorer исправлен в связи с изменением в выдачи
  • Добавлен запрет на изменение результатов с зарезервированными именами($query, $info)
  • При использовании нескольких конструкторов результатов невозможно было выбрать новые результаты для обработки
 
Назад
Верх