跳转到主要内容

FreeAI::Perplexity - Perplexity AI 服务爬虫工具

Perplexity

Perplexity 爬虫工具概览

Perplexity 爬虫工具是一款现代化的工具,用于从发展最快的 AI 搜索引擎之一收集结构化信息。通过与 Perplexity 集成,您获得的不仅是链接列表,而是基于大量来源(包括学术文章、博客、论坛和新闻门户)的最新、简洁且相关的答案。

Perplexity 爬虫工具支持自然语言查询,包括补充说明、上下文问题和嵌套结构。该爬虫工具能够抓取相关问题,并自动将其放入查询队列,从而显著扩大收集的信息量。

得益于多线程工作模式,处理速度可达 每分钟 500–800 次查询。根据配置和使用的预设,您可以在几分钟内获得数千个唯一的文本片段和链接。

得益于强大的 Template Toolkit 模板引擎,抓取结果可以保存为任何需要的格式,它允许将数据结构化为 JSON, CSV, SQL 等格式,并能实时进行数据过滤、排序和聚合。

由于输出结果的高质量和上下文相关性,Perplexity 爬虫工具非常适合竞争情报、事实和引用收集、知识库创建、新闻监测和主题分析等任务。

采集数据

  • 答案文本(Markdown 格式)
  • 数据源的链接、锚点和摘要
  • 相关问题列表

功能

  • 选择信息源类型(支持多选)
  • 将相关问题插入查询队列至指定深度
  • 绕过防护并支持会话,以实现更稳定、更快速的工作

应用场景

  • 根据主题查询收集结构化答案,用于创建知识库、内容计划、参考系统和生成 FAQ
  • 提取带有锚点和摘要的来源链接 - 非常适合构建权威资源列表、引用和收集反向链接
  • 从 Perplexity 搜索结果中收集相关/追问问题 - 有助于分析用户兴趣、形成语义核心和生成文章创意
  • 监控品牌、产品或人物的提及 - 并关联上下文和来源
  • 搜索和分析来自权威来源的专家意见、趋势和洞察
  • 快速检查关键主题信息的及时性和完整性
  • 自动化竞争对手分析:引用了哪些资源、涵盖了哪些主题以及频率如何
  • 支持需要从不同来源汇总准确信息的科研和分析项目
  • 任何需要快速获取简明、准确答案,并有真实来源和逻辑上下文支持的任务

查询

在查询中需要指定搜索词,就像直接在 Perplexity 搜索框中输入一样,例如:

如何学会快速学习?
如何提高记忆力和注意力?
什么是爬虫工具?
俄罗斯互联网 TOP10 网站

结果

信息

此处及后续示例中的结果已简化,以便更好地展示

默认输出查询及其答案,例如:

什么是爬虫工具?
爬虫工具是一种程序或脚本,可自动从各种来源(通常是网站)收集、分析和系统化信息[1][2][5][7]。爬虫工具的主要任务是从 HTML 页面、数据库、文本文件和其他格式等结构化或半结构化数据阵列中提取所需数据(例如文本、价格、联系方式、图像)[1][5][6]。

**爬虫工具如何工作:**
- 扫描指定的数据源(例如网页)。
...

俄罗斯互联网 TOP10 网站
## 截至 2025 年 6 月的俄罗斯互联网 TOP-10 网站

根据 Similarweb 的最新数据和其他分析资源,俄罗斯互联网(Runet)访问量最大的网站列表包括以下资源:

1. **Yandex.ru** — 俄罗斯最大的搜索引擎和门户网站[2][6]。
2. **Google.com** — 全球搜索引擎,在俄罗斯也被广泛使用[2][6]。
...

### 概览表

| 排名 | 网站 | 主要功能 |
|-------|----------------|------------------------------|
| 1 | yandex.ru | 搜索、服务、门户 |
| 2 | google.com | 搜索 |
...

结果输出变体

得益于内置的 Template Toolkit 模板引擎,A-Parser 支持灵活的结果格式化,允许以任意形式输出结果,也可以是结构化的格式,例如 CSV 或 JSON。

导出链接列表

结果格式:

$sources.format('$link\n')

结果示例:

https://ru.wikipedia.org/wiki/%D0%91%D0%B8%D1%82%D0%BA%D0%BE%D0%B9%D0%BD
https://www.kaspersky.ru/resource-center/definitions/what-is-bitcoin
https://dzengi.com/ru/chto-takoe-bitcoin-prostim-yazikom
https://www.sberbank.ru/ru/person/kibrary/vocabulary/bitkoin
https://help.cryptopay.me/ru/articles/3414939-%D1%87%D1%82%D0%BE-%D1%82%D0%B0%D0%BA%D0%BE%D0%B5-%D0%B1%D0%B8%D1%82%D0%BA%D0%BE%D0%B8%D0%BD
...

以 CSV 格式输出链接、锚点和摘要及其位置

结果格式:

[% FOREACH item IN sources;
tools.CSVline(loop.count, item.link, item.anchor, item.snippet);
END %]

结果示例:

...
6,https://www.kraken.com/ru/learn/what-is-bitcoin-btc,"什么是比特币 (BTC)?完整指南 - Kraken","了解比特币的去中心化性质、有限的供应量及其作为数字货币的作用。了解 BTC 的核心是什么,其基本原则和使用场景。"
7,https://www.vedomosti.ru/finance/articles/2024/09/23/1064026-bitkoin,"什么是比特币以及为什么需要它 - Vedomosti","这是一种用作支付手段和金融资产的数字货币"
8,https://forklog.com/cryptorium/chto-takoe-bitkoin,"什么是比特币以及它如何工作(通俗易懂)? - ForkLog","比特币 — 是一个基于用户间直接交换原则的去中心化系统。交易使用同名加密货币 BTC。"
提示

通用结果格式中,使用 Template Toolkit 模板引擎FOREACH 循环中输出 $sources 数组。

在结果文件名中,只需将文件扩展名更改为 csv 即可。

以 JSON 格式输出问题、答案和相关问题列表

通用结果格式:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.answer = p1.answer;
obj.related = [];

FOREACH item IN p1.related;
obj.related.push(item.text);
END;

obj.json %]

起始文本:

[

结束文本:

]

结果示例:

[{"related":["为什么比特币被认为是第一种加密货币,它与传统货币有何不同","比特币背后的区块链技术是如何工作的","哪些加密方法保护比特币系统中的交易","2100 万枚的硬币限制如何使比特币成为独特的资产","使用比特币时,去中心化和无中介带来了哪些优势"],"answer":"**比特币** (Bitcoin, BTC) — 这是第一种也是最著名的加密货币,是一种基于区块链技术的去中心化数字支付系统。在该系统中,所有交易都记录在公共账本(区块链)中,该账本受加密方法保护,并可供网络中的任何参与者查验[1][3][4].\n...","query":"什么是比特币?"},{"related":["哪些基本规则和建议有助于正确使用 Google 搜索","为什么在搜索时应避免使用问题和复杂句子","如何使用英语进行更有效的 Google 搜索","哪些操作符和符号有助于扩大或缩小搜索范围","在搜索信息时,使用引号和波浪号有何区别"],"answer":"## 如何正确使用 Google 搜索:核心建议\n\n**查询表述应简短且切中要害**\n- 使用 2–6 个关键词,避免长问题和复杂句子。例如,不要使用 \"如果我的 windows 电脑无法上网该怎么办?\",而应使用 \"windows 无法上网 如何修复\"[1].\n\n**搜索精确短语**\n...","query":"如何正确使用 Google 搜索?"}]

可能的设置

参数名称默认值描述
SourcesWeb信息源类型(支持多选)
Use sessions保存良好的会话,从而使数据抓取更快,错误更少
Bypass CloudFlare自动绕过 CloudFlare 防护
Bypass CloudFlare Browser Max Pages10绕过 CF 时的最大页数
Bypass CloudFlare Browser Headless如果启用此选项,浏览器在绕过 CF 期间将不会显示