Конструктор результатов

Конструктор результатов - позволяет преобразовывать результаты от каждого парсера перед их форматированием и сохранением на диск

Возможности

Разделение результата на части с помощью регулярного выражения или с помощью произвольного разделителя
Замена подстроки в результате или замена регулярным выражением
Выделение домена или главного домена из ссылки
Приведение результата к верхнему\нижнему регистру
Удаление HTML тегов (<b>text</b> -> text)
Преобразование HTML сущностей в их Unicode эквиваленты (© -> ©)
Получение данных с помощью XPath-запросов

Примеры

Парсинг доменов

Сохранение только доменов при парсинге ссылок с поисковых систем:

В качестве источника используются элементы link из массива serp из первого парсера, к каждому элементу будет применена функция извлечения главного домена из ссылки, новый результат будет сохранен под тем же именем (элемент link в массиве serp) - поэтому изменять формат результата не требуется

Парсинг сниппетов с очисткой

Сохранение сниппетов с поисковых систем с очисткой от HTML тегов и преобразованием HTML сущностей

По умолчанию анкоры и сниппеты парсятся со всеми вложенными тегами, что позволяет сохранять такое же форматирование как при просмотре выдачи с поисковых систем. Если необходим только чистый текст то можно воспользоваться возможностями Конструктора результатов:

В данном примере к сниппетам последовательно применено два Конструктора результатов - удаление HTML тегов и преобразование HTML сущностей

Парсинг с помощью XPath

Парсинг ссылок из поисковой выдачи с помощью XPath:

В данном примере показан парсинг ссылок из поисковика Google. Используется XPath-запрос:

//*[@id="rso"]/div[3]/div/div[1]/a/@href

Возможности​

Примеры​

Парсинг доменов​

Парсинг сниппетов с очисткой​

Парсинг с помощью XPath​

Возможности

Примеры

Парсинг доменов

Парсинг сниппетов с очисткой

Парсинг с помощью XPath