SE::Baidu - Baidu 搜索结果爬虫工具

爬虫工具概览

Baidu 搜索结果爬虫工具。借助 Baidu 爬虫工具，您可以获取海量的链接库，供后续使用。您可以直接在搜索框中使用与 Bing 相同的查询方式，包括搜索运算符（filetype, site, intitle）。

A-Parser 的功能允许您保存 Baidu 爬虫工具的数据抓取设置（预设）以便将来使用，还可以设置数据抓取计划等。您可以使用自动查询扩展、从文件替换子查询、遍历数字字母组合和列表，以获取尽可能多的结果。

在 Baidu 爬虫工具中，由于内置了强大的 Template Toolkit 模板引擎，您可以按所需的格式和结构保存结果，该引擎允许对结果应用额外的逻辑，并以各种格式输出数据，包括 JSON, SQL 和 CSV。

前往演示购买 A-Parser Pro ($299)

爬虫工具应用案例

🔗 Baidu 全链接数据抓取

此资源展示了如何进行全链接数据抓取

🔗 Baidu 搜索建议

Baidu 搜索建议的多级数据抓取

🔗 JS 爬虫工具 JS::SE::Baidu::Suggest

创建 JS 爬虫工具。获取 Baidu 搜索建议

采集数据

链接
摘要 (Snippets)
锚点
结果总数
相关搜索词列表
搜索结果页数

功能

每个查询最多抓取 5000 个结果
支持所有 Baidu 搜索运算符 (filetype:, site:, intitle:)。
采集查询结果及相关关键词
将截断的链接转换为完整链接（Get full links 选项）

使用场景

采集链接库 - 用于 A-Poster, XRumer, AllSubmitter 等。
评估关键词竞争程度
检查网站收录情况
采集页面标题中包含指定关键词的页面

查询

查询时需要指定搜索短语，例如：

test
site:www.baidu.com  
百度产品大全
intitle:爬虫工具

查询占位符

您可以使用内置宏来扩展查询，例如我们想要获取一个非常庞大的论坛数据库，可以指定几个不同语言的基础查询：

forum
论坛
foro
论坛

在查询格式中指定从 a 到 zzzz 的字符遍历，这种方法可以最大限度地轮换搜索结果并获得大量新的唯一结果：

$query {az:a:zzzz}

该宏将为每个原始搜索查询创建 475254 个额外查询，总计将产生 4 x 475254 = 1901016 个搜索查询，这个数字令人印象深刻，但对于 A-Parser 来说完全不是问题。在每分钟 2000 个查询的速度下，该任务仅需 16 小时即可处理完毕。

使用运算符

您可以在查询格式中使用搜索运算符，这样它将自动添加到列表中的每个查询：

site:$query

结果输出选项

得益于内置的 Template Toolkit 模板引擎，A-Parser 支持灵活的结果格式化，这使其能够以任意形式以及结构化形式（如 CSV 或 JSON）输出结果。

结果处理

A-Parser 允许在数据抓取过程中直接处理结果，本节列出了 Baidu 爬虫工具最常用的案例。

链接去重

与 SE::Google 类似。

按域名进行链接去重

与 SE::Google 类似。

提取域名

与 SE::Google 类似。

去除锚点和摘要中的标签

与 SE::Google 类似。

按包含关系过滤链接

与 SE::Google 类似。

可用设置

备注

所有爬虫工具的通用设置

参数名称	默认值	描述
Pages count	`5`	抓取的页数（1 到 100）
Links per page	`50`	每页显示的链接数量 (10 / 20 / 50)
Get full links	`☐`	将截断的链接转换为完整链接（默认关闭）

爬虫工具概览​

爬虫工具应用案例​

🔗 Baidu 全链接数据抓取

🔗 Baidu 搜索建议

🔗 JS 爬虫工具 JS::SE::Baidu::Suggest

采集数据​

功能​

使用场景​

查询​

查询占位符​

使用运算符​

结果输出选项​

导出链接列表​

链接 + 锚点 + 摘要并输出排名​

将链接、锚点和摘要输出到 CSV 表格​

保存相关关键词​

关键词竞争程度​

检查链接收录​

以 SQL 格式保存​

将结果转储为 JSON​

结果处理​

链接去重​

按域名进行链接去重​

提取域名​

去除锚点和摘要中的标签​

按包含关系过滤链接​

可用设置​

爬虫工具概览

爬虫工具应用案例

采集数据

功能

使用场景

查询

查询占位符

使用运算符

结果输出选项

导出链接列表

链接 + 锚点 + 摘要并输出排名

将链接、锚点和摘要输出到 CSV 表格

保存相关关键词

关键词竞争程度

检查链接收录

以 SQL 格式保存

将结果转储为 JSON

结果处理

链接去重

按域名进行链接去重

提取域名

去除锚点和摘要中的标签

按包含关系过滤链接

可用设置