跳转到主要内容

SE::Yahoo - Yahoo 搜索结果爬虫工具

Yahoo

爬虫工具概览

Yahoo 搜索结果爬虫工具。借助 Yahoo 爬虫工具,您可以获取大量可供后续使用的链接库。您可以直接使用在 Yahoo 搜索栏中输入的查询语句,包括搜索运算符(site, ip 等)。

A-Parser 的功能允许您保存 Yahoo 爬虫工具的数据抓取设置以供将来使用(预设),设置数据抓取计划等等。您可以使用自动查询扩展、从文件替换子查询、遍历数字字母组合和列表,以获取尽可能多的结果。

由于内置了强大的模板引擎 Template Toolkit,可以将结果保存为您需要的任何形式和结构,该引擎允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON, SQL 和 CSV

采集数据

  • 搜索结果中的链接、锚点和摘要
  • 相关关键词列表 (Related keywords)
  • 广告结果
采集数据

功能

  • 支持所有 Yahoo 搜索运算符 (site:, ip: 等)
  • 抓取 Yahoo 提供的最大结果数 - 50 页,每页 100 个元素
  • 可以自动抓取每个查询超过 1000 个结果 - 通过自动补全额外字符(选项 Parse all results
  • 可以按相关关键词进行深度抓取 (Parse related to level)
  • 可以搜索相关关键词
  • 支持指定搜索结果时间范围

应用场景

  • 收集链接库 - 用于 A-Poster, XRumer, AllSubmitter 等
  • 评估关键词竞争程度
  • 查找网站的反向链接(提及)
  • 检查网站收录情况
  • 查找同一 IP 地址上的网站
  • 查找有漏洞的网站
  • 任何涉及以某种形式抓取 Yahoo 数据的其他场景

查询

作为查询,需要指定搜索短语,就像直接在 Yahoo 搜索框中输入一样,例如:

test
窗户 莫斯科
site:http://lenta.ru
ip:222.36.12.12

查询替换

您可以使用内置宏来扩展查询,例如我们想获取一个非常大的论坛数据库,指定几个不同语言的核心查询:

forum
论坛
foro
论坛

在查询格式中指定从 a 到 zzzz 的字符遍历,此方法可以最大限度地轮换搜索结果并获得许多新的唯一结果:

$query {az:a:zzzz}

该宏将为每个原始搜索查询创建 475254 个额外查询,总计 4 x 475254 = 1901016 个搜索查询,这个数字令人印象深刻,但对于 A-Parser 来说完全不是问题。在每分钟 2000 个查询的速度下,此类任务仅需 16 小时即可处理完毕。

使用运算符

您可以在查询格式中使用搜索运算符,这样它将自动添加到列表中的每个查询:

site:$query

结果输出示例

得益于内置的模板引擎 Template Toolkit,A-Parser 支持灵活的结果格式化,使其能够以任意形式以及结构化形式(如 CSV 或 JSON)输出结果。

导出链接列表

与 SE::Google 类似。

与 SE::Google 类似。

与 SE::Google 类似。

与 SE::Google 类似。

关键词竞争度

与 SE::Google 类似。

检查链接收录

与 SE::Google 类似。

以 SQL 格式保存

与 SE::Google 类似。

将结果转储为 JSON

与 SE::Google 类似。

结果处理

A-Parser 允许在数据抓取过程中直接处理结果,在本节中,我们列出了 Yahoo 爬虫工具最常用的案例

与 SE::Google 类似。

与 SE::Google 类似。

提取域名

与 SE::Google 类似。

从锚点和摘要中删除标签

与 SE::Google 类似。

与 SE::Google 类似。

可能的设置

参数名称默认值描述
Pages count5要抓取的页数(1 到 50)
Serp timeAll time搜索结果时间(时间相关搜索,参数 "tbs=": All time / Past 24 hours / Past week / Past month)
Safe SearchModerate选择安全搜索选项 (Off / Moderate / Strict)
Yahoo domainUnited States (English)选择 Yahoo 域名
Yahoo languageAny选择 Yahoo 语言,允许选择搜索语言
Yahoo countryAny选择国家,允许选择进行搜索的国家
Not found is error是否将无结果视为错误