Перейти к основному содержимому

FreeAI::Perplexity - Парсер сервиса ИИ Perplexity

Perplexity

Обзор парсера

Парсер Perplexity - это современный инструмент для сбора структурированной информации из одной из самых быстроразвивающихся ИИ-поисковых систем. Благодаря интеграции с Perplexity, вы получаете не просто списки ссылок, а актуальные, сжатые и релевантные ответы, основанные на большом количестве источников, включая научные статьи, блоги, форумы и новостные порталы.

Парсер Perplexity поддерживает естественно-языковые запросы, включая уточнения, контекстные вопросы и вложенные конструкции. Парсер предоставляет возможность парсить релевантные вопросы, автоматически подставляя их в очередь запросов, тем самым значительно расширяя количество собранной информации.

Скорость обработки достигает 500–800 запросов в минуту благодаря многопоточному режиму работы. В зависимости от конфигурации и используемых пресетов, вы можете получать тысячи уникальных фрагментов текста и ссылок в течение нескольких минут.

Результаты выдачи можно сохранять в любом нужном формате благодаря мощному шаблонизатору Template Toolkit, который позволяет структурировать данные в JSON, CSV, SQL и других форматах, а также применять фильтрацию, сортировку и агрегацию данных на лету.

Парсер Perplexity идеально подходит для задач конкурентной разведки, сбора фактов и цитат, создания баз знаний, мониторинга новостей и анализа тем, благодаря высокому качеству и контекстности выдаваемых результатов.

Собираемые данные

  • Текст ответа (в Markdown форматировании)
  • Ссылки, анкоры и сниппеты источников данных
  • Список похожих вопросов

Возможности

  • Выбор типа источника информации (поддерживается множественный выбор)
  • Подстановка похожих вопросов в очередь запросов до указанной глубины
  • Обход защит и поддержка сессий для более стабильной и быстрой работы

Варианты использования

  • Сбор структурированных ответов по тематическим запросам для создания баз знаний, контент-планов, справочных систем и генерации FAQ
  • Извлечение ссылок на источники с анкорами и сниппетами - идеально для построения списков авторитетных ресурсов, цитирования и сбора обратных ссылок
  • Сбор похожих/уточняющих вопросов из выдачи Perplexity - полезно для анализа пользовательского интереса, формирования семантического ядра и генерации идей для статей
  • Мониторинг упоминаний брендов, продуктов или персон - с привязкой к контексту и источникам
  • Поиск и анализ экспертных мнений, трендов и инсайтов из авторитетных источников
  • Быстрая проверка актуальности и полноты информации по ключевым темам
  • Автоматизация анализа конкурентов: какие ресурсы цитируются, какие темы освещаются и как часто
  • Поддержка исследовательских и аналитических проектов, требующих агрегирования точной информации из разных источников
  • Любые другие задачи, где требуется быстро получить краткие, точные ответы с подтверждением от реальных источников и логическим контекстом

Запросы

В качестве запросов необходимо указывать поисковые запросы, точно так же как если бы их вводили прямо в форму поиска Perplexity, например:

Как научиться быстро учиться?
Как улучшить память и концентрацию?
Что такое парсер?
ТОП10 сайтов рунета

Результаты

к сведению

Тут и далее примеры результаты сокращены для лучшей наглядности

По-умолчанию выводится запрос и ответ на него, например:

Что такое парсер?
Парсер — это программа или скрипт, который автоматически собирает, анализирует и систематизирует информацию из различных источников, чаще всего с веб-сайтов[1][2][5][7]. Основная задача парсера — извлечь нужные данные (например, тексты, цены, контакты, изображения) из структурированных или полуструктурированных массивов информации, таких как HTML-страницы, базы данных, текстовые файлы и другие форматы[1][5][6].

**Как работает парсер:**
- Сканирует указанные источники данных (например, веб-страницы).
...

ТОП10 сайтов рунета
## ТОП-10 сайтов Рунета на июнь 2025

На основании свежих данных Similarweb и других аналитических ресурсов, в список самых посещаемых сайтов российского сегмента интернета (Рунета) входят следующие ресурсы:

1. **Yandex.ru** — крупнейший российский поисковик и интернет-портал[2][6].
2. **Google.com** — глобальный поисковик, которым активно пользуются и в России[2][6].
...

### Таблица для наглядности

| Место | Сайт | Основная функция |
|-------|----------------|------------------------------|
| 1 | yandex.ru | Поиск, сервисы, портал |
| 2 | google.com | Поиск |
...

Варианты вывода результатов

A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структурированной, например CSV или JSON.

Экспорт списка ссылок

Формат результата:

$sources.format('$link\n')

Пример результата:

https://ru.wikipedia.org/wiki/%D0%91%D0%B8%D1%82%D0%BA%D0%BE%D0%B9%D0%BD
https://www.kaspersky.ru/resource-center/definitions/what-is-bitcoin
https://dzengi.com/ru/chto-takoe-bitcoin-prostim-yazikom
https://www.sberbank.ru/ru/person/kibrary/vocabulary/bitkoin
https://help.cryptopay.me/ru/articles/3414939-%D1%87%D1%82%D0%BE-%D1%82%D0%B0%D0%BA%D0%BE%D0%B5-%D0%B1%D0%B8%D1%82%D0%BA%D0%BE%D0%B8%D0%BD
...

Вывод в CSV ссылок, анкоров и сниппетов с их позициями

Формат результата:

[% FOREACH item IN sources;
tools.CSVline(loop.count, item.link, item.anchor, item.snippet);
END %]

Пример результата:

...
6,https://www.kraken.com/ru/learn/what-is-bitcoin-btc,"Что такое Bitcoin (BTC)? полное руководство - Kraken","Узнайте о децентрализованной природе Bitcoin, ограниченном предложении и его роли как цифровой валюты. Узнайте, что лежит в основе BTC, каковы его основные принципы и варианты использования."
7,https://www.vedomosti.ru/finance/articles/2024/09/23/1064026-bitkoin,"Что такое биткойн и зачем он нужен - Ведомости","Это цифровая валюта, используемая как средство платежа и финансовый актив"
8,https://forklog.com/cryptorium/chto-takoe-bitkoin,"Что такое биткоин и как он работает простыми словами? - ForkLog","Биткоин — это децентрализованная система, основанная на принципе прямого обмена между пользователями. Для транзакций используется одноименная криптовалюта BTC."
подсказка

В Общем формате результатов применяется шаблонизатор Template Toolkit для вывода массива $sources в цикле FOREACH.

В имени файла результатов нужно просто изменить разрешение файла на csv.

Вывод в JSON вопроса, ответа и списка похожих вопросов

Общий формат результата:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.answer = p1.answer;
obj.related = [];

FOREACH item IN p1.related;
obj.related.push(item.text);
END;

obj.json %]

Начальный текст:

[

Конечный текст:

]

Пример результата:

[{"related":["Почему биткоин считается первой криптовалютой и чем он отличается от традиционных денег","Как работает технология блокчейн, лежащая в основе биткоина","Какие криптографические методы защищают транзакции в системе биткоин","Чем ограничение в 21 миллион монет делает биткоин уникальным активом","Какие преимущества дает децентрализация и отсутствие посредников при использовании биткоина"],"answer":"**Биткоин** (Bitcoin, BTC) — это первая и самая известная криптовалюта, представляющая собой децентрализованную цифровую платёжную систему, основанную на технологии блокчейн. В этой системе все транзакции записываются в публичный реестр (блокчейн), который защищён криптографическими методами и доступен для проверки любому участнику сети[1][3][4].\n...","query":"Что такое биткоин?"},{"related":["Какие основные правила и советы помогают правильно гуглить","Почему важно избегать вопросов и сложных предложений при поиске","Как использовать английский язык для более эффективного поиска в Google","Какие операторы и символы помогают расширить или уточнить поиск","Чем отличается использование кавычек и тильды при поиске информации"],"answer":"## Как правильно гуглить: основные советы\n\n**Формулируйте запросы коротко и по существу**\n- Используйте 2–6 ключевых слов, избегайте длинных вопросов и сложных предложений. Например, вместо \"что делать если не работает интернет на моем компьютере с windows?\" используйте \"не работает интернет windows как исправить\"[1].\n\n**Ищите точные фразы**\n...","query":"Как правильно гуглить?"}]

Возможные настройки

Название параметраЗначение по умолчаниюОписание
SourcesWebТип источника информации (поддерживается множественный выбор)
Use sessionsCохраняет хорошие сессии, что позволяет парсить еще быстрее, получая меньшее число ошибок
Bypass CloudFlareАвтоматический обход защиты CloudFlare
Bypass CloudFlare Browser Max Pages10Макс. кол-во страниц при обходе CF
Bypass CloudFlare Browser HeadlessЕсли опция включена, браузер не будет отображаться во время обхода CF