Конструктор результатов

20 окт 2015


  • Конструктор результатов - позволяет преобразовывать запросы и результаты от каждого парсера перед их форматированием и сохранением на диск

    Возможности(top)


    • Разделение результата на части с помощью регулярного выражения или с помощью произвольного разделителя
    • Замена подстроки в результате или замена регулярным выражением
    • Выделение домена\главного домена из ссылки
    • Приведение результата к верхнему\нижнему регистру
    • Удаление HTML тегов(<b>text</b> -> text)
    • Преобразование HTML сущностей в их Unicode эквиваленты(&copy; -> ©)
    • Получение данных с помощью XPath-запросов

    [​IMG]

    Основные варианты использования(top)


    • Сохранение в результат только доменов
    • Очистка текста от HTML тегов
    • Поиск и замена подстрок
    • Парсинг произвольной информации через регулярные выражения или с помощью XPath-запросов

    Примеры(top)

    Сохранение только доменов при парсинге ссылок с поисковых систем(top)

    [​IMG]
    В качестве источника(Source result) используются элементы link из массива serp из первого парсера(p1), к каждому элементу будет применена функция извлечения главного домена из ссылки, новый результат будет сохранен под тем же именем(элемент link в массиве serp) - поэтому изменять формат результата не требуется

    Сохранение сниппетов с поисковых систем с очисткой от HTML тегов и преобразованием HTML сущностей(top)

    По умолчанию анкоры и сниппеты парсятся со всеми вложенными тегами, что позволяет сохранять такое же форматирование как при просмотре выдачи с поисковых систем. Если необходим только чистый текст то можно воспользоваться возможностями Конструктора результатов:
    [​IMG]
    В данном примере к сниппетам последовательно применено два Конструктора результатов - удаление HTML тегов и преобразование HTML сущностей

    Парсинг ссылок из поисковой выдачи с помощью XPath(top)


    [​IMG]
    В данном примере показан парсинг ссылок из поисковика search.disconnect.com. Используется XPath-запрос //ul[contains(@id,'normal-results')]/li/a/@href
NikoShark, btr, high_skill и ещё 1-му нравится это.