SE::AOL - search.aol.com 搜索结果爬虫工具

AOL 爬虫工具概览
AOL 爬虫工具是一款针对 AOL 搜索结果的爬虫工具。通过 AOL 爬虫工具,您可以获取海量的链接库,供后续使用。您可以直接使用在 AOL 搜索栏中输入的查询语句,包括搜索运算符(contains, intitle, language, site 等)。详情请参阅官方页面 AOL Search FAQs。
A-Parser 的功能允许您保存 AOL 爬虫工具的抓取设置以便后续使用(预设),设置抓取计划等等。您可以使用自动查询扩展、从文件替换子查询、遍历数字字母组合和列表,以获取尽可能多的结果。
得益于内置强大的模板引擎 Template Toolkit,抓取结果可以按您需要的形式和结构进行保存,该引擎允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON, SQL 和 CSV。
采集的数据
- 每个查询的结果数量
- 搜索结果中的链接、锚点和摘要

功能
AOL 搜索引擎爬虫工具具有以下功能和设置:
- 支持所有 AOL 搜索运算符 (site:, prefer:, url:, feed: 等)。详情请参阅官方页面 AOL Search FAQs
- 抓取 AOL 返回的最大结果数 - 100 页,每页 20 个搜索结果元素
- 支持搜索时间范围 (Anytime, Day, Week, Month)
应用场景
- 采集链接库 - 用于 A-Poster, XRumer, AllSubmitter 等
- 评估关键词竞争程度
- 抓取 Google 美国地区的搜索结果
- 查找网站的反向链接(提及)
- 检查网站收录情况
- 寻找有漏洞的网站
- 任何其他涉及以某种形式抓取 AOL 的场景
查询
查询应指定为搜索短语,就像直接在 AOL 搜索表单中输入一样,例如:
测试
buy house
site:www.realtor.com
feed:football
a-parser loc:ca
查询替换
您可以使用 内置宏 来扩展查询,例如我们想要获取一个非常大的论坛数据库,指定几个不同语言的基础查询:
forum
论坛
foro
论坛
在查询格式中指定从 a 到 zzzz 的字符遍历,此方法可以最大程度地轮换搜索结果并获取大量新的唯一结果:
$query {az:a:zzzz}
该宏将为每个原始搜索查询创建 475254 个额外查询,总计 4 x 475254 = 1901016 个搜索查询,这个数字令人印象深刻,但对于 A-Parser 来说完全不是问题。在每分钟 2000 个查询的速度下,此任务仅需 16 小时即可处理完毕。
使用运算符
您可以在查询格式中使用搜索运算符,这样它将自动添加到列表中的每个查询:
site:$query
结果输出示例
得益于内置的模板引擎 Template Toolkit,A-Parser 支持灵活的结果格式化,使其能够以任意形式以及结构化形式(如 CSV 或 JSON)输出结果。
导出链接列表
链接 + 锚点 + 摘要并输出位置
将链接、锚点和摘要输出到 CSV 表格
保存相关关键词
关键词竞争度
检查链接收录
以 SQL 格式保存
将结果转储为 JSON
结果处理
A-Parser 允许在数据抓取过程中直接处理结果,本节列出了 AOL 爬虫工具最常用的案例。
链接去重
按域名进行链接去重
提取域名
从锚点和摘要中删除标签
按包含关系过滤链接
可用设置
| 参数名称 | 默认值 | 描述 |
|---|---|---|
| Pages count | 5 | 抓取页数(1 到 100) |
| Period | Anytime | 搜索时间范围 (Anytime, Day, Week, Month) |
| AOL domain | search.aol.com | 选择搜索结果的国家/地区 (search.aol.com, search.aol.co.uk, recherche.aol.fr, suche.aol.de) |