跳转到主要内容

SE::AOL::Suggest - AOL 搜索建议爬虫工具

爬虫工具概览

AOL 关键词搜索建议爬虫工具。得益于 SE::AOL::Suggest 爬虫工具,您可以根据查询请求自动从 AOL 搜索引擎的搜索建议中采集关键词库。使用 SE::AOL::Suggest 爬虫工具可以轻松快速地抓取 AOL 的搜索建议。

得益于 A-Parser 的多线程工作机制,查询处理速度可达每分钟 4700 次,平均每分钟可获取 13500-14500 条结果。

爬虫工具概览:运行速度

您可以利用自动查询扩展、从文件中替换子查询、循环遍历数字字母组合及列表,以获取尽可能多的结果。通过使用 结果过滤,您可以立即清理结果,删除所有不需要的垃圾信息(使用否定词)。

A-Parser 的功能允许保存 SE::AOL::Suggest 爬虫工具的数据抓取设置以便日后使用(预设),设置数据抓取计划等等。

由于内置了强大的 Template Toolkit 模板引擎,可以将结果保存为您需要的任何形式和结构,该引擎允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON、SQL 和 CSV

采集的数据

  • 每个查询的结果数量
  • 查询建议

SE::AOL::Suggest 爬虫工具采集哪些数据

功能

  • 支持所有 AOL 搜索运算符(如 site: 等)
  • 抓取 AOL 提供的最大结果数 - 100 页,每页 20 条记录

应用场景

  • 采集关键词库

查询

需要指定搜索短语作为查询,例如:

write essay
Football
Speak in english
forex
cheap essay

查询占位符

您可以使用 内置宏 自动从文件中替换子查询,例如我们想为每个查询添加另一个单词列表,指定几个主要查询:

essay
article
thesis

在查询格式中指定从 Keywords.txt 文件替换额外单词的宏,此方法可以成倍增加查询的多样性:

{subs:Keywords} $query 

该宏将为每个原始搜索查询创建与文件中相同数量的额外查询,宏运行后的结果总数为:[原始查询数量(域名)] x [Keywords 文件中的查询数量] = [总查询数量]

例如,如果 Keywords.txt 文件包含:

buy
cheap

最终,替换宏将把 3 个主要查询变为 6 个:

buy essay
cheap essay
buy article
cheap article
buy thesis
cheap thesis

结果输出示例

得益于内置的 Template Toolkit 模板引擎,A-Parser 支持灵活的结果格式化,使其能够以任意形式以及结构化形式(如 CSV 或 JSON)输出结果。

导出建议列表

与 SE::Google::Suggest 类似。

输出到 CSV 表格

与 SE::Google::Suggest 类似。

保存为 SQL 格式

结果格式:

[% FOREACH results;
"INSERT INTO serp VALUES('" _ query _ "', '"; suggest _ "')\n";
END %]

结果示例:

INSERT INTO serp VALUES('write essay', 'write essay for me')
INSERT INTO serp VALUES('write essay', 'write essay')
INSERT INTO serp VALUES('write essay', 'write essay online')
INSERT INTO serp VALUES('write essay', 'write essay for you')
INSERT INTO serp VALUES('write essay', 'write essay free')
INSERT INTO serp VALUES('write essay', 'write essay conclusion')
INSERT INTO serp VALUES('write essay', 'write essay today')
INSERT INTO serp VALUES('write essay', 'write essays for money')
...

将结果转储为 JSON

与 SE::Google::Suggest 类似。

结果处理

A-Parser 允许在数据抓取过程中直接处理结果,在本节中,我们列出了 SE::AOL::Suggest 爬虫工具最常用的案例。

抓取层级选项 (Parse to level)

与 SE::Google::Suggest 类似。

结果过滤(使用否定词)

与 SE::Google::Suggest 类似。

可能的设置