跳转到主要内容

部分爬虫工具的附加选项

某些爬虫工具支持额外的选项,可以通过设置的上下文菜单进行添加。

爬虫工具的额外选项

抓取所有结果 / Parse all results

此选项适用于爬虫工具 SE::GoogleSE::GoogleSE::YandexSE::YandexSE::BingSE::BingSE::YahooSE::Yahoo,允许绕过单个查询 1000 条结果的输出限制:

  • 在抓取查询时,A-Parser 会评估 Google 或 Yandex 显示的搜索结果数量
  • 根据结果数量,爬虫工具会添加大量额外的查询,从而允许通过一个查询抓取更多结果(通常是全部)

抓取至层级 / Parse to level

此选项存在于建议词爬虫工具(例如 SE::Google::SuggestSE::Google::Suggest)、SE::Yandex::WordStatSE::Yandex::WordStat 爬虫工具以及链接爬虫工具 HTML::LinkExtractorHTML::LinkExtractor 中:

  • 对于关键词建议和 Wordstat 爬虫工具,将抓取到的关键词重新代入查询,从而允许抓取到指定层级的所有嵌套关键词
  • 对于爬虫工具 HTML::LinkExtractorHTML::LinkExtractor,它会将网站的所有内部链接重新代入查询,从而允许抓取整个网站并生成其链接地图
备注

对于该选项,必须开启查询去重,否则可能会出现爬虫工具循环抓取相同关键词或链接的情况

此选项允许指定根据相关关键词进行深度数据抓取的能力。由爬虫工具 SE::GoogleSE::GoogleSE::BingSE::BingSE::YahooSE::Yahoo 支持。

其他选项

针对不同的爬虫工具有一系列额外的选项,关于其用途的更多详情可以在每个爬虫工具的文档中找到:

  • Use Pages, Check Content, Check Next Page - 爬虫工具 Net::HTTPNet::HTTP 的选项
  • Parse People also ask - 爬虫工具 SE::GoogleSE::Google 的选项