跳转到主要内容

结果构造器

Result Builders (结果构造器) - 允许在格式化并保存到磁盘之前,对每个爬虫工具的结果进行转换

功能与优势

  • 使用正则表达式或任意分隔符将结果拆分为多个部分
  • 替换结果中的子字符串或使用正则表达式进行替换
  • 从链接中提取域名或主域名
  • 将结果转换为大写/小写
  • 删除 HTML 标签 (<b>text</b> -> text)
  • 将 HTML 实体转换为其 Unicode 等效项 (&copy; -> ©)
  • 使用 XPath 查询获取数据
结果构造器

示例

域名抓取

在抓取搜索引擎链接时仅保存域名:

域名抓取

使用来自第一个爬虫工具serp 数组中的 link 元素作为源,对每个元素应用从链接中提取主域名的函数,新结果将以相同的名称(serp 数组中的 link 元素)保存 - 因此无需更改结果格式

带清理功能的摘要抓取

抓取搜索引擎摘要并清除 HTML 标签及转换 HTML 实体

默认情况下,锚点和摘要会连同所有嵌套标签一起抓取,这可以保留与查看搜索引擎搜索结果时相同的格式。如果只需要纯文本,可以使用结果构造器的功能:

带清理功能的摘要抓取

在此示例中,对摘要连续应用了两个结果构造器 - 删除 HTML 标签和转换 HTML 实体

使用 XPath 抓取

使用 XPath 从搜索结果中抓取链接:

使用 XPath 抓取

此示例展示了从 Google 搜索引擎抓取链接。使用的 XPath 查询为:

//*[@id="rso"]/div[3]/div/div[1]/a/@href