Перейти к основному содержимому

Конструктор результатов

Конструктор результатов - позволяет преобразовывать результаты от каждого парсера перед их форматированием и сохранением на диск

Возможности

  • Разделение результата на части с помощью регулярного выражения или с помощью произвольного разделителя
  • Замена подстроки в результате или замена регулярным выражением
  • Выделение домена или главного домена из ссылки
  • Приведение результата к верхнему\нижнему регистру
  • Удаление HTML тегов (<b>text</b> -> text)
  • Преобразование HTML сущностей в их Unicode эквиваленты (&copy; -> ©)
  • Получение данных с помощью XPath-запросов
Конструктор результатов

Примеры

Парсинг доменов

Сохранение только доменов при парсинге ссылок с поисковых систем:

Парсинг доменов

В качестве источника используются элементы link из массива serp из первого парсера, к каждому элементу будет применена функция извлечения главного домена из ссылки, новый результат будет сохранен под тем же именем (элемент link в массиве serp) - поэтому изменять формат результата не требуется

Парсинг сниппетов с очисткой

Сохранение сниппетов с поисковых систем с очисткой от HTML тегов и преобразованием HTML сущностей

По умолчанию анкоры и сниппеты парсятся со всеми вложенными тегами, что позволяет сохранять такое же форматирование как при просмотре выдачи с поисковых систем. Если необходим только чистый текст то можно воспользоваться возможностями Конструктора результатов:

Парсинг сниппетов с очисткой

В данном примере к сниппетам последовательно применено два Конструктора результатов - удаление HTML тегов и преобразование HTML сущностей

Парсинг с помощью XPath

Парсинг ссылок из поисковой выдачи с помощью XPath:

Парсинг с помощью XPath

В данном примере показан парсинг ссылок из поисковика Google. Используется XPath-запрос:

//*[@id="rso"]/div[3]/div/div[1]/a/@href