Перейти к основному содержимому

Конструктор результатов

Конструктор результатов - позволяет преобразовывать результаты от каждого парсера перед их форматированием и сохранением на диск

Возможности#

  • Разделение результата на части с помощью регулярного выражения или с помощью произвольного разделителя
  • Замена подстроки в результате или замена регулярным выражением
  • Выделение домена или главного домена из ссылки
  • Приведение результата к верхнему\нижнему регистру
  • Удаление HTML тегов(<b>text</b> -> text)
  • Преобразование HTML сущностей в их Unicode эквиваленты(&copy; -> ©)
  • Получение данных с помощью XPath-запросов

скриншот конструктора результатов

Примеры#

Парсинг доменов#

Сохранение только доменов при парсинге ссылок с поисковых систем:

Пример Парсинг доменов

В качестве источника(Source result) используются элементы link из массива serp из первого парсера(p1), к каждому элементу будет применена функция извлечения главного домена из ссылки, новый результат будет сохранен под тем же именем(элемент link в массиве serp) - поэтому изменять формат результата не требуется

Парсинг сниппетов с очисткой#

Сохранение сниппетов с поисковых систем с очисткой от HTML тегов и преобразованием HTML сущностей

По умолчанию анкоры и сниппеты парсятся со всеми вложенными тегами, что позволяет сохранять такое же форматирование как при просмотре выдачи с поисковых систем. Если необходим только чистый текст то можно воспользоваться возможностями Конструктора результатов:

Пример Парсинг сниппетов с очисткой

В данном примере к сниппетам последовательно применено два Конструктора результатов - удаление HTML тегов и преобразование HTML сущностей

Парсинг с помощью XPath#

Парсинг ссылок из поисковой выдачи с помощью XPath:

Пример Парсинг с помощью XPath

В данном примере показан парсинг ссылок из поисковика google.com. Используется XPath-запрос:

//*[@id="rso"]/div[3]/div/div[1]/a/@href
Последнее обновление