14-й выпуск Сборника рецептов. Сегодня мы научимся делать кастомные парсеры с помощью XPath, будем анализировать страницы сайта и попробуем делать комбинированные пресеты. Кроме этого ниже обновление 2-х самых популярных пресетов и небольшой сюрприз Поехали!
Быстрое создание кастомного парсера поисковой системы с помощью XPath
В A-Parser есть парсеры для большинства популярных поисковых систем. Но реализовать и поддерживать парсеры для абсолютно всех существующих поисковиков очень сложно, поэтому нам на помощь приходит Net::HTTP с его замечательной возможностью парсить практически все. В данной статье речь пойдет о том, как с помощью XPath и Net::HTTP довольно быстро и легко создать кастомный парсер почти любой поисковой системы. Подробности -...
Денис Бартаев рассказывает, как в несколько кликов создать парсер любой поисковой системы на примере Rambler.ru. Мы получим всю необходимую информацию: ссылки, анкоры, сниппеты, число результатов, связанные ключевые слова и проверку на опечатку в запросе.
В уроке рассмотрены
Использование XPath для создания кастомного парсера
Обход капчи без использования Antigate
Использование Template toolkit для форматирования результата
Объединение результатов парсинга в массив объектов с полями, связанными по индексу
Теперь для парсеров Net::HTTP, HTML::TextExtractor, HTML::LinkExtractor, Rank::CMS кэшируются одинаковые HTTP запросы при использовании любой комбинации из этих парсеров в одном задании, что исключает выполнение повторных запросов к одному URL, как следствие растет скорость, уменьшается нагрузка на целевые сайты
Добавлена опция Max connections per host позволяющая ограничить максимальное число одновременных подключений к одному домену/IP
Добавлена опция Global proxy ban позволяющая расшарить статистику по бану проксей между заданиями
В парсере HTML::TextExtractor улучшено отображение табличных данных и списков
В парсере SE::Yandex::WordStat добавлена возможность указать минимальную частотность для добавления запроса на вложенный парсинг
В парсере SE::Yandex добавлена опция Parse all results позволяющая автоматически...
В период с 10.06.2016 по 14.06.2016 саппорт будет не доступен. В связи с этим на данный период просьба задавать вопросы на форуме, по особо критическим вопросам можно писать администратору по контактам отсюда: Поддержка.
В остальное время тех поддержка работает по обычному графику: с 10 до 20 МСК по будним дням.
Исправлено падение при использовании JavaScript(tools.js) на Windows, также исправлена некорректная работа на Linux
Исправлена проблема с логином на некоторых аккаунтах Яндекса
Исправлено определение ранка в парсере Rank::Alexa для доменов с www.
Исправлена работа с некоторыми доменными зонами в парсере Net::Whois, а также отображение статуса для некоторых зон
Исправлено падение Rank::CMS при использовании опции -nofork
Исправлены проблемы в работе нового прокси чекера: отключение чекера при изменении настроек, переопределение чекера в задании, а также проблема с отображением в некоторых...