FreeAI::Perplexity - Парсер сервиса ИИ Perplexity

Обзор парсера
Парсер Perplexity - это современный инструмент для сбора структурированной информации из одной из самых быстроразвивающихся ИИ-поисковых систем. Благодаря интеграции с Perplexity, вы получаете не просто списки ссылок, а актуальные, сжатые и релевантные ответы, основанные на большом количестве источников, включая научные статьи, блоги, форумы и новостные порталы.
Парсер Perplexity поддерживает естественно-языковые запросы, включая уточнения, контекстные вопросы и вложенные конструкции. Парсер предоставляет возможность парсить релевантные вопросы, автоматически подставляя их в очередь запросов, тем самым значительно расширяя количество собранной информации.
Скорость обработки достигает 500–800 запросов в минуту благодаря многопоточному режиму работы. В зависимости от конфигурации и используемых пресетов, вы можете получать тысячи уникальных фрагментов текста и ссылок в течение нескольких минут.
Результаты выдачи можно сохранять в любом нужном формате благодаря мощному шаблонизатору Template Toolkit, который позволяет структурировать данные в JSON, CSV, SQL и других форматах, а также применять фильтрацию, сортировку и агрегацию данных на лету.
Парсер Perplexity идеально подходит для задач конкурентной разведки, сбора фактов и цитат, создания баз знаний, мониторинга новостей и анализа тем, благодаря высокому качеству и контекстности выдаваемых результатов.
Собираемые данные
- Текст ответа (в Markdown форматировании)
- Ссылки, анкоры и сниппеты источников данных
- Список похожих вопросов
Возможности
- Выбор типа источника информации (поддерживается множественный выбор)
- Подстановка похожих вопросов в очередь запросов до указанной глубины
- Обход защит и поддержка сессий для более стабильной и быстрой работы
Варианты использования
- Сбор структурированных ответов по тематическим запросам для создания баз знаний, контент-планов, справочных систем и генерации FAQ
- Извлечение ссылок на источники с анкорами и сниппетами - идеально для построения списков авторитетных ресурсов, цитирования и сбора обратных ссылок
- Сбор похожих/уточняющих вопросов из выдачи Perplexity - полезно для анализа пользовательского интереса, формирования семантического ядра и генерации идей для статей
- Мониторинг упоминаний брендов, продуктов или персон - с привязкой к контексту и источникам
- Поиск и анализ экспертных мнений, трендов и инсайтов из авторитетных источников
- Быстрая проверка актуальности и полноты информации по ключевым темам
- Автоматизация анализа конкурентов: какие ресурсы цитируются, какие темы освещаются и как часто
- Поддержка исследовательских и аналитических проектов, требующих агрегирования точной информации из разных источников
- Любые другие задачи, где требуется быстро получить краткие, точные ответы с подтверждением от реальных источников и логическим контекстом
Запросы
В качестве запросов необходимо указывать поисковые запросы, точно так же как если бы их вводили прямо в форму поиска Perplexity, например:
Как научиться быстро учиться?
Как улучшить память и концентрацию?
Что такое парсер?
ТОП10 сайтов рунета
Результаты
Тут и далее примеры результаты сокращены для лучшей наглядности
По-умолчанию выводится запрос и ответ на него, например:
Что такое парсер?
Парсер — это программа или скрипт, который автоматически собирает, анализирует и систематизирует информацию из различных источников, чаще всего с веб-сайтов[1][2][5][7]. Основная задача парсера — извлечь нужные данные (например, тексты, цены, контакты, изображения) из структурированных или полуструктурированных массивов информации, таких как HTML-страницы, базы данных, текстовые файлы и другие форматы[1][5][6].
**Как работает парсер:**
- Сканирует указанные источники данных (например, веб-страницы).
...
ТОП10 сайтов рунета
## ТОП-10 сайтов Рунета на июнь 2025
На основании свежих данных Similarweb и других аналитических ресурсов, в список самых посещаемых сайтов российского сегмента интернета (Рунета) входят следующие ресурсы:
1. **Yandex.ru** — крупнейший российский поисковик и интернет-портал[2][6].
2. **Google.com** — глобальный поисковик, которым активно пользуются и в России[2][6].
...
### Таблица для наглядности
| Место | Сайт | Основная функция |
|-------|----------------|------------------------------|
| 1 | yandex.ru | Поиск, сервисы, портал |
| 2 | google.com | Поиск |
...
Варианты вывода результатов
A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структурированной, например CSV или JSON.
Экспорт списка ссылок
Формат результата:
$sources.format('$link\n')
Пример результата:
https://ru.wikipedia.org/wiki/%D0%91%D0%B8%D1%82%D0%BA%D0%BE%D0%B9%D0%BD
https://www.kaspersky.ru/resource-center/definitions/what-is-bitcoin
https://dzengi.com/ru/chto-takoe-bitcoin-prostim-yazikom
https://www.sberbank.ru/ru/person/kibrary/vocabulary/bitkoin
https://help.cryptopay.me/ru/articles/3414939-%D1%87%D1%82%D0%BE-%D1%82%D0%B0%D0%BA%D0%BE%D0%B5-%D0%B1%D0%B8%D1%82%D0%BA%D0%BE%D0%B8%D0%BD
...
Вывод в CSV ссылок, анкоров и сниппетов с их позициями
Формат результата:
[% FOREACH item IN sources;
tools.CSVline(loop.count, item.link, item.anchor, item.snippet);
END %]
Пример результата:
...
6,https://www.kraken.com/ru/learn/what-is-bitcoin-btc,"Что такое Bitcoin (BTC)? полное руководство - Kraken","Узнайте о децентрализованной природе Bitcoin, ограниченном предложении и его роли как цифровой валюты. Узнайте, что лежит в основе BTC, каковы его основные принципы и варианты использования."
7,https://www.vedomosti.ru/finance/articles/2024/09/23/1064026-bitkoin,"Что такое биткойн и зачем он нужен - Ведомости","Это цифровая валюта, используемая как средство платежа и финансовый актив"
8,https://forklog.com/cryptorium/chto-takoe-bitkoin,"Что такое биткоин и как он работает простыми словами? - ForkLog","Биткоин — это децентрализованная система, основанная на принципе прямого обмена между пользователями. Для транзакций используется одноименная криптовалюта BTC."
В Общем формате результатов применяется шаблонизатор Template Toolkit для вывода массива $sources
в цикле FOREACH
.
В имени файла результатов нужно просто изменить разрешение файла на csv.
Вывод в JSON вопроса, ответа и списка похожих вопросов
Общий формат результата:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.answer = p1.answer;
obj.related = [];
FOREACH item IN p1.related;
obj.related.push(item.text);
END;
obj.json %]
Начальный текст:
[
Конечный текст:
]
Пример результата:
[{"related":["Почему биткоин считается первой криптовалютой и чем он отличается от традиционных денег","Как работает технология блокчейн, лежащая в основе биткоина","Какие криптографические методы защищают транзакции в системе биткоин","Чем ограничение в 21 миллион монет делает биткоин уникальным активом","Какие преимущества дает децентрализация и отсутствие посредников при использовании биткоина"],"answer":"**Биткоин** (Bitcoin, BTC) — это первая и самая известная криптовалюта, представляющая собой децентрализованную цифровую платёжную систему, основанную на технологии блокчейн. В этой системе все транзакции записываются в публичный реестр (блокчейн), который защищён криптографическими методами и доступен для проверки любому участнику сети[1][3][4].\n...","query":"Что такое биткоин?"},{"related":["Какие основные правила и советы помогают правильно гуглить","Почему важно избегать вопросов и сложных предложений при поиске","Как использовать английский язык для более эффективного поиска в Google","Какие операторы и символы помогают расширить или уточнить поиск","Чем отличается использование кавычек и тильды при поиске информации"],"answer":"## Как правильно гуглить: основные советы\n\n**Формулируйте запросы коротко и по существу**\n- Используйте 2–6 ключевых слов, избегайте длинных вопросов и сложных предложений. Например, вместо \"что делать если не работает интернет на моем компьютере с windows?\" используйте \"не работает интернет windows как исправить\"[1].\n\n**Ищите точные фразы**\n...","query":"Как правильно гуглить?"}]
Возможные настройки
Название параметра | Значение по умолчанию | Описание |
---|---|---|
Sources | Web | Тип источника информации (поддерживается множественный выбор) |
Use sessions | ☑ | Cохраняет хорошие сессии, что позволяет парсить еще быстрее, получая меньшее число ошибок |
Bypass CloudFlare | ☑ | Автоматический обход защиты CloudFlare |
Bypass CloudFlare Browser Max Pages | 10 | Макс. кол-во страниц при обходе CF |
Bypass CloudFlare Browser Headless | ☑ | Если опция включена, браузер не будет отображаться во время обхода CF |