Конструктор результатов
Конструктор результатов - позволяет преобразовывать результаты от каждого парсера перед их форматированием и сохранением на диск
Возможности
- Разделение результата на части с помощью регулярного выражения или с помощью произвольного разделителя
- Замена подстроки в результате или замена регулярным выражением
- Выделение домена или главного домена из ссылки
- Приведение результата к верхнему\нижнему регистру
- Удаление HTML тегов (
<b>text</b>
->text
) - Преобразование HTML сущностей в их Unicode эквиваленты (
©
->©
) - Получение данных с помощью XPath-запросов
![Конструктор результатов](/docs/assets/images/results-builder-1-7dfd6a6992537ee03d4124ff032d1921.png)
Примеры
Парсинг доменов
Сохранение только доменов при парсинге ссылок с поисковых систем:
![Парсинг доменов](/docs/assets/images/results-builder-2-2d1de1cb06a9c79f17c12205f29054e6.png)
В качестве источника используются элементы link
из массива serp
из первого парсера, к каждому элементу будет применена функция извлечения главного домена из ссылки, новый результат будет сохранен под тем же именем (элемент link в массиве serp) - поэтому изменять формат результата не требуется
Парсинг сниппетов с очисткой
Сохранение сниппетов с поисковых систем с очисткой от HTML тегов и преобразованием HTML сущностей
По умолчанию анкоры и сниппеты парсятся со всеми вложенными тегами, что позволяет сохранять такое же форматирование как при просмотре выдачи с поисковых систем. Если необходим только чистый текст то можно воспользоваться возможностями Конструктора результатов:
![Парсинг сниппетов с очисткой](/docs/assets/images/results-builder-3-bd6a2597b825a0ae878268ac01058dbf.png)
В данном примере к сниппетам последовательно применено два Конструктора результатов - удаление HTML тегов и преобразование HTML сущностей
Парсинг с помощью XPath
Парсинг ссылок из поисковой выдачи с помощью XPath:
![Парсинг с помощью XPath](/docs/assets/images/results-builder-4-5b1606b59b670b7901fd00f3a329ad9e.png)
В данном примере показан парсинг ссылок из поисковика Google. Используется XPath-запрос:
//*[@id="rso"]/div[3]/div/div[1]/a/@href