-
Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 1500+ и мы растем!Скрыть объявление
Конструктор результатов
-
Содержание
Конструктор результатов - позволяет преобразовывать запросы и результаты от каждого парсера перед их форматированием и сохранением на диск
Возможности(top)
- Разделение результата на части с помощью регулярного выражения или с помощью произвольного разделителя
- Замена подстроки в результате или замена регулярным выражением
- Выделение домена\главного домена из ссылки
- Приведение результата к верхнему\нижнему регистру
- Удаление HTML тегов(<b>text</b> -> text)
- Преобразование HTML сущностей в их Unicode эквиваленты(© -> ©)
- Получение данных с помощью XPath-запросов
Основные варианты использования(top)
- Сохранение в результат только доменов
- Очистка текста от HTML тегов
- Поиск и замена подстрок
- Парсинг произвольной информации через регулярные выражения или с помощью XPath-запросов
Примеры(top)
Сохранение только доменов при парсинге ссылок с поисковых систем(top)
В качестве источника(Source result) используются элементы link из массива serp из первого парсера(p1), к каждому элементу будет применена функция извлечения главного домена из ссылки, новый результат будет сохранен под тем же именем(элемент link в массиве serp) - поэтому изменять формат результата не требуется
Сохранение сниппетов с поисковых систем с очисткой от HTML тегов и преобразованием HTML сущностей(top)
По умолчанию анкоры и сниппеты парсятся со всеми вложенными тегами, что позволяет сохранять такое же форматирование как при просмотре выдачи с поисковых систем. Если необходим только чистый текст то можно воспользоваться возможностями Конструктора результатов:
В данном примере к сниппетам последовательно применено два Конструктора результатов - удаление HTML тегов и преобразование HTML сущностей
Парсинг ссылок из поисковой выдачи с помощью XPath(top)
В данном примере показан парсинг ссылок из поисковика search.disconnect.com. Используется XPath-запрос //ul[contains(@id,'normal-results')]/li/a/@href