1.1.108 - улучшения паука сбора ссылок, множество исправлений

Forbidden · 29 Окт 2014

Улучшения парсера HTML::LinkExtractor

Добавлена опция Follow links позволяющая выбрать порядок следования по ссылкам: только по внутренним, по внутренним и внешним, только по внешним
Добавлен массив результатов $followlinks, который содержит ссылки для последующего перехода, над этим массивом можно применять фильтры и конструкторы результатов, что позволяет переходить только по определенным ссылкам(например только по топикам форумов)
Добавлена корректная обработка тега <base href=

Другие улучшения

Теперь парсер автоматически определяет кодировку по содержимому страницу, если другие методы не дали результатов. В случае если кодировку определить не удается и она не является корректной с точки зрения UTF-8 то содержимое страницы становится недоступным для обработки. Данное улучшение призвано исправить редкие проблемы когда файл результата A-Parser'а невозможно использовать в качестве запросов, т.к. файл мог содержать некорректную кодировку
При парсинге рекламы в SE::Google теперь дополнительно парсится видимая ссылка на сайт

Исправления

Исправлен парсер SE::Yandex в связи с изменением в выдачи
На платформе Windows при закрытии приложения парсера возникала ошибка
В парсере Net::Whois не был доступен исходный результат $data для пользовательской обработки
В парсере SE::Yandex была ошибка в получении каптчи если в запросе содержалась скобка
Результат $query мог быть изменен некоторыми парсерами
Парсер Rank::OpenSiteExplorer исправлен в связи с изменением в выдачи
Добавлен запрет на изменение результатов с зарезервированными именами($query, $info)
При использовании нескольких конструкторов результатов невозможно было выбрать новые результаты для обработки