SE::Bing - Bing 搜索结果爬虫工具

爬虫工具概览
Bing 搜索结果爬虫工具。借助 SE::Bing 爬虫工具,您可以获取海量的链接库,供后续使用。您可以直接使用在 Bing 搜索栏中输入的查询语句,包括搜索运算符(contains, intitle, language, site 等)。详情请参阅官方页面 Advanced search keywords。
A-Parser 的功能允许您保存 Bing 爬虫工具的配置以供后续使用(预设),设置数据抓取计划等。您可以使用自动查询扩展、从文件替换子查询、遍历字母数字组合和列表,以获取尽可能多的结果。
得益于内置强大的 Template Toolkit 模板引擎,您可以按所需的格式和结构保存结果,该引擎允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON, SQL 和 CSV。
爬虫工具应用案例
🔗 数据抓取 Bing 搜索结果
Bing 数据抓取,支持自动扩展查询(抓取所有结果)
🔗 抓取前 10 名及标签内容
多级数据抓取。抓取前 10 名网站及其 title 和 description 标签的内容
🔗 基于 Bing 爬虫工具的 JS 爬虫工具
创建 JS 爬虫工具。从标准爬虫工具获取结果
🔗 抓取 Bing 中的所有结果
通过 Template Toolkit 模板引擎和 tools.query.add 进行智能查询替换的数据抓取
🔗 Bing 中的去重
按关键词抓取唯一 URL 并按域名去重,可指定单个域名的最大 URL 数量
🔗 预设中使用多个爬虫工具
该预设展示了使用多个爬虫工具的示例
采集的数据
- 每个查询的结果数量
- 搜索结果中的链接、锚点和摘要
- 相关关键词列表 (Related keywords)
- 广告结果中的链接、可见链接、锚点、摘要和广告位置

功能
- 支持所有 Bing 搜索运算符 (site:, ip: 等)。详情请参阅官方页面 Advanced search keywords。
- 抓取 Bing 返回的最大结果数 - 最多 200 页 结果
- 可以自动抓取每个查询超过 1000 个结果 - 通过添加额外字符(Parse all results 选项)
- 可以按相关关键词进行深度抓取 (Parse related to level)
- 可以搜索相关关键词
- 可以抓取缓存页面的链接
- 可以抓取移动端搜索结果
- 支持在移动端布局中滚动加载数据
以下爬虫工具基于 Bing 爬虫工具运行:
SE::Bing::Position - 根据查询列表确定搜索结果中任何网站的排名
使用场景
- 收集链接库 - 用于 A-Poster, XRumer, AllSubmitter 等。
- 评估关键词竞争程度
- 查找网站的反向链接(提及)
- 检查网站收录情况
- 查找有漏洞的网站
- 查找同一 IP 地址下的网站
- 任何其他涉及以某种形式抓取 Bing 数据的场景
查询
在查询中需要指定搜索短语,就像直接在 Bing 搜索框中输入一样,例如:
test
okna Moskva
site:http://lenta.ru
ip:222.36.12.12
查询占位符
您可以使用 内置宏 来扩展查询,例如我们想获取一个非常大的论坛数据库,指定几个不同语言的基础查询:
forum
论坛
foro
论坛
在查询格式中指定从 a 到 zzzz 的字符遍历,此方法可以最大程度地轮换搜索结果并获得大量新的唯一结果:
$query {az:a:zzzz}
该宏将为每个原始搜索查询创建 475254 个额外查询,总计将产生 4 x 475254 = 1901016 个搜索查询,这个数字令人印象深刻,但对于 A-Parser 来说完全不是问题。在每分钟 2000 个查询的速度下,此类任务仅需 16 小时即可处理完毕。
使用运算符
您可以在查询格式中使用搜索运算符,这样它将自动添加到列表中的每个查询:
site:$query
结果输出示例
A-Parser 得益于内置的模板引擎 Template Toolkit,支持灵活的结果格式化,这使其能够以任意形式以及结构化形式(如 CSV 或 JSON)输出结果。
导出链接列表
链接 + 锚点 + 摘要并输出位置
将链接、锚点和摘要输出到 CSV 表格
保存相关关键词
关键词竞争度
检查链接收录
以 SQL 格式保存
将结果转储为 JSON
结果处理
A-Parser 允许在数据抓取过程中直接处理结果,本节列出了 Bing 爬虫工具最受欢迎的案例
链接去重
按域名进行链接去重
提取域名
从锚点和摘要中删除标签
按包含关系过滤链接
可能的设置
| 参数名称 | 默认值 | 描述 |
|---|---|---|
| Pages count | 10 | 要抓取的页数(从 1 到 200) |
| Region | Based on IP | 选择地区。地区列表。 |
| Interface language | Any | 选择界面语言。语言列表。 |
| Safe Search | Moderate | 选择安全搜索选项 (Strict / Moderate / Off) |
| Device | Desktop | 选择搜索设备 (Desktop / Mobile) |
| Show inaccessible results | ☐ | 允许显示隐藏的结果 |
| Stop pagination by results count | 0 | 达到指定结果数量时停止翻页。作为 Pages count 的补充,抓取将在达到指定页数或指定结果数量时(以先到者为准)停止。 |
| Handle captcha max pages | 10 | 同时打开的用于生成通过验证码所需 cookies 的最大页面数。限制验证码绕过阶段的并发量。 |