部分爬虫工具的附加选项
某些爬虫工具支持额外的选项,可以通过设置的上下文菜单进行添加。

抓取所有结果 / Parse all results
此选项适用于爬虫工具
SE::Google、
SE::Yandex、
SE::Bing、
SE::Yahoo,允许绕过单个查询 1000 条结果的输出限制:
- 在抓取查询时,A-Parser 会评估 Google 或 Yandex 显示的搜索结果数量
- 根据结果数量,爬虫工具会添加大量额外的查询,从而允许通过一个查询抓取更多结果(通常是全部)
抓取至层级 / Parse to level
此选项存在于建议词爬虫工具(例如
SE::Google::Suggest)、
SE::Yandex::WordStat 爬虫工具以及链接爬虫工具
HTML::LinkExtractor 中:
- 对于关键词建议和 Wordstat 爬虫工具,将抓取到的关键词重新代入查询,从而允许抓取到指定层级的所有嵌套关键词
- 对于爬虫工具
HTML::LinkExtractor,它会将网站的所有内部链接重新代入查询,从而允许抓取整个网站并生成其链接地图
备注
对于该选项,必须开启查询去重,否则可能会出现爬虫工具循环抓取相同关键词或链接的情况
Parse related to level
此选项允许指定根据相关关键词进行深度数据抓取的能力。由爬虫工具
SE::Google、
SE::Bing、
SE::Yahoo 支持。
其他选项
针对不同的爬虫工具有一系列额外的选项,关于其用途的更多详情可以在每个爬虫工具的文档中找到:
- Use Pages, Check Content, Check Next Page - 爬虫工具
Net::HTTP 的选项 - Parse People also ask - 爬虫工具
SE::Google 的选项