FreeAI::Perplexity - Perplexity AI 服务爬虫工具

Perplexity 爬虫工具概览
Perplexity 爬虫工具是一款现代化的工具,用于从发展最快的 AI 搜索引擎之一收集结构化信息。通过与 Perplexity 集成,您获得的不仅是链接列表,而是基于大量来源(包括学术文章、博客、论坛和新闻门户)的最新、简洁且相关的答案。
Perplexity 爬虫工具支持自然语言查询,包括补充说明、上下文问题和嵌套结构。该爬虫工具能够抓取相关问题,并自动将其放入查询队列,从而显著扩大收集的信息量。
得益于多线程工作模式,处理速度可达 每分钟 500–800 次查询。根据配置和使用的预设,您可以在几分钟内获得数千个唯一的文本片段和链接。
得益于强大的 Template Toolkit 模板引擎,抓取结果可以保存为任何需要的格式,它允许将数据结构化为 JSON, CSV, SQL 等格式,并能实时进行数据过滤、排序和聚合。
由于输出结果的高质量和上下文相关性,Perplexity 爬虫工具非常适合竞争情报、事实和引用收集、知识库创建、新闻监测和主题分析等任务。
采集数据
- 答案文本(Markdown 格式)
- 数据源的链接、锚点和摘要
- 相关问题列表
功能
- 选择信息源类型(支持多选)
- 将相关问题插入查询队列至指定深度
- 绕过防护并支持会话,以实现更稳定、更快速的工作
应用场景
- 根据主题查询收集结构化答案,用于创建知识库、内容计划、参考系统和生成 FAQ
- 提取带有锚点和摘要的来源链接 - 非常适合构建权威资源列表、引用和收集反向链接
- 从 Perplexity 搜索结果中收集相关/追问问题 - 有助于分析用户兴趣、形成语义核心和生成文章创意
- 监控品牌、产品或人物的提及 - 并关联上下文和来源
- 搜索和分析来自权威来源的专家意见、趋势和洞察
- 快速检查关键主题信息的及时性和完整性
- 自动化竞争对手分析:引用了哪些资源、涵盖了哪些主题以及频率如何
- 支持需要从不同来源汇总准确信息的科研和分析项目
- 任何需要快速获取简明、准确答案,并有真实来源和逻辑上下文支持的任务
查询
在查询中需要指定搜索词,就像直接在 Perplexity 搜索框中输入一样,例如:
如何学会快速学习?
如何提高记忆力和注意力?
什么是爬虫工具?
俄罗斯互联网 TOP10 网站
结果
信息
此处及后续示例中的结果已简化,以便更好地展示
默认输出查询及其答案,例如:
什么是爬虫工具?
爬虫工具是一种程序或脚本,可自动从各种来源(通常是网站)收集、分析和系统化信息[1][2][5][7]。爬虫工具的主要任务是从 HTML 页面、数据库、文本文件和其他格式等结构化或半结构化数据阵列中提取所需数据(例如文本、价格、联系方式、图像)[1][5][6]。
**爬虫工具如何工作:**
- 扫描指定的数据源(例如网页)。
...
俄罗斯互联网 TOP10 网站
## 截至 2025 年 6 月的俄罗斯互联网 TOP-10 网站
根据 Similarweb 的最新数据和其他分析资源,俄罗斯互联网(Runet)访问量最大的网站列表包括以下资源:
1. **Yandex.ru** — 俄罗斯最大的搜索引擎和门户网站[2][6]。
2. **Google.com** — 全球搜索引擎,在俄罗斯也被广泛使用[2][6]。
...
### 概览表
| 排名 | 网站 | 主要功能 |
|-------|----------------|------------------------------|
| 1 | yandex.ru | 搜索、服务、门户 |
| 2 | google.com | 搜索 |
...
结果输出变体
得益于内置的 Template Toolkit 模板引擎,A-Parser 支持灵活的结果格式化,允许以任意形式输出结果,也可以是结构化的格式,例如 CSV 或 JSON。
导出链接列表
结果格式:
$sources.format('$link\n')
结果示例:
https://ru.wikipedia.org/wiki/%D0%91%D0%B8%D1%82%D0%BA%D0%BE%D0%B9%D0%BD
https://www.kaspersky.ru/resource-center/definitions/what-is-bitcoin
https://dzengi.com/ru/chto-takoe-bitcoin-prostim-yazikom
https://www.sberbank.ru/ru/person/kibrary/vocabulary/bitkoin
https://help.cryptopay.me/ru/articles/3414939-%D1%87%D1%82%D0%BE-%D1%82%D0%B0%D0%BA%D0%BE%D0%B5-%D0%B1%D0%B8%D1%82%D0%BA%D0%BE%D0%B8%D0%BD
...
以 CSV 格式输出链接、锚点和摘要及其位置
结果格式:
[% FOREACH item IN sources;
tools.CSVline(loop.count, item.link, item.anchor, item.snippet);
END %]
结果示例:
...
6,https://www.kraken.com/ru/learn/what-is-bitcoin-btc,"什么是比特币 (BTC)?完整指南 - Kraken","了解比特币的去中心化性质、有限的供应量及其作为数字货币的作用。了解 BTC 的核心是什么,其基本原则和使用场景。"
7,https://www.vedomosti.ru/finance/articles/2024/09/23/1064026-bitkoin,"什么是比特币以及为什么需要它 - Vedomosti","这是一种用作支付手段和金融资产的数字货币"
8,https://forklog.com/cryptorium/chto-takoe-bitkoin,"什么是比特币以及它如何工作(通俗易懂)? - ForkLog","比特币 — 是一个基于用户间直接交换原则的去中心化系统。交易使用同名加密货币 BTC。"
提示
在通用结果格式中,使用 Template Toolkit 模板引擎 在 FOREACH 循环中输出 $sources 数组。
在结果文件名中,只需将文件扩展名更改为 csv 即可。
以 JSON 格式输出问题、答案和相关问题列表
通用结果格式:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.answer = p1.answer;
obj.related = [];
FOREACH item IN p1.related;
obj.related.push(item.text);
END;
obj.json %]
起始文本:
[
结束文本:
]
结果示例:
[{"related":["为什么比特币被认为是第一种加密货币,它与传统货币有何不同","比特币背后的区块链技术是如何工作的","哪些加密方法保护比特币系统中的交易","2100 万枚的硬币限制如何使比特币成为独特的资产","使用比特币时,去中心化和无中介带来了哪些优势"],"answer":"**比特币** (Bitcoin, BTC) — 这是第一种也是最著名的加密货币,是一种基于区块链技术的去中心化数字支付系统。在该系统中,所有交易都记录在公共账本(区块链)中,该账本受加密方法保护,并可供网络中的任何参与者查验[1][3][4].\n...","query":"什么是比特币?"},{"related":["哪些基本规则和建议有助于正确使用 Google 搜索","为什么在搜索时应避免使用问题和复杂句子","如何使用英语进行更有效的 Google 搜索","哪些操作符和符号有助于扩大或缩小搜索范围","在搜索信息时,使用引号和波浪号有何区别"],"answer":"## 如何正确使用 Google 搜索:核心建议\n\n**查询表述应简短且切中要害**\n- 使用 2–6 个关键词,避免长问题和复杂句子。例如,不要使用 \"如果我的 windows 电脑无法上网该怎么办?\",而应使用 \"windows 无法上网 如何修复\"[1].\n\n**搜索精确短语**\n...","query":"如何正确使用 Google 搜索?"}]
可能的设置
| 参数名称 | 默认值 | 描述 |
|---|---|---|
| Sources | Web | 信息源类型(支持多选) |
| Use sessions | ☑ | 保存良好的会话,从而使数据抓取更快,错误更少 |
| Bypass CloudFlare | ☑ | 自动绕过 CloudFlare 防护 |
| Bypass CloudFlare Browser Max Pages | 10 | 绕过 CF 时的最大页数 |
| Bypass CloudFlare Browser Headless | ☑ | 如果启用此选项,浏览器在绕过 CF 期间将不会显示 |