Теперь парсер-паук для сбора ссылок HTML::LinkExtractor основывается на парсере Net::HTTP и поддерживает все его возможности и опции, включая работу с Cookies
В парсер SE::Google добавлена возможность подставлять в запросы найденные Related keywords, что позволяет собрать большую базу тематических ключевых слов, которая будет сильно отличаться от подсказок
Добавлена возможность выбора текущего пресета для прокси-чекера через API
В парсере SE::Google добавлен обход лишнего редиректа на HTTPS
Улучшена скорость обработки HTTPS запросов на некоторых сайтах, затрагивает парсер SE::Yandex::WordStat
На ОС Windows x64 парсер может использовать до 3Гб оперативной памяти
В интерфейсе добавления заданий появилась возможность сворачивать настройки парсеров
Улучшен импорт пресетов: теперь при совпадении названий пресетов настроек парсеров пользователю будет...
Этот пост продолжает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга
Добавлена опция Follow links позволяющая выбрать порядок следования по ссылкам: только по внутренним, по внутренним и внешним, только по внешним
Добавлен массив результатов $followlinks, который содержит ссылки для последующего перехода, над этим массивом можно применять фильтры и конструкторы результатов, что позволяет переходить только по определенным ссылкам(например только по топикам форумов)
Добавлена корректная обработка тега <base href=
Другие улучшения
Теперь парсер автоматически определяет кодировку по содержимому страницу, если другие методы не дали результатов. В случае если кодировку определить не удается и она не является корректной с точки зрения UTF-8 то содержимое страницы становится недоступным для обработки. Данное улучшение призвано исправить редкие проблемы когда файл результата A-Parser'а невозможно использовать в качестве запросов, т.к. файл мог содержать...
В данной версии добавлена поддержка обработки и фильтрации результатов(Parse custom result, Конструкторы результатов и фильтры) на многоядерных процессорах, что в несколько раз увеличивает скорость парсинга при использовании "тяжелых" регулярных выражений, например скорость сбора email адресов со страниц достигает 10000 ссылок в минуту при 2000 потоках(при этом A-Parser обрабатывает поток 130 мбит\с gzip-сжатых данных)
Другие улучшения
Добавлена возможность указать сразу несколько форматов для запроса, что позволяет комбинировать множество вариантов подстановок для одних и тех же запросов в одном задании
Добавлена возможность использовать формат запроса на всех уровнях вложенного парсинга, например при парсинге ключевых слов с подсказок Google подстановки будут добавляться так же и для новых найденных ключевых слов(как и для исходных запросов)