跳转到主要内容

SE::Startpage - startpage.com 搜索结果爬虫工具

Startpage

爬虫工具概览

Startpage 搜索结果爬虫工具。借助 Startpage 爬虫工具,您可以获取海量的链接库,供后续使用。您可以直接使用在 Startpage 搜索栏中输入的查询语句,包括搜索运算符(site, inurl 等)。

A-Parser 的功能允许您保存 Startpage 爬虫工具的数据抓取设置以便后续使用(预设),设置数据抓取计划等等。您可以使用自动查询扩展、从文件替换子查询、遍历数字字母组合和列表,以获取尽可能多的结果。

得益于内置强大的 Template Toolkit 模板引擎,您可以按所需的格式和结构保存结果,该引擎允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON, SQL 和 CSV

采集的数据

  • 搜索结果中的链接、锚文本和摘要
采集的数据

功能

  • 支持选择国家、搜索语言和页面语言
  • 可选择同时或分别输出锚文本、链接、摘要
  • 可指定输出结果的数量
  • 指定搜索结果大小(10 或 20 条结果)

应用场景

  • 采集链接、锚文本和摘要库
  • 获取在搜索引擎中被引用最频繁的网站列表
  • 任何其他获取信息的应用场景

查询

查询应指定为单词、短语或词组,格式与在搜索引擎中输入的一致。示例:

测试   
site:http://test.ru
红玫瑰

查询占位符

您可以使用内置宏来扩展查询,例如我们想要获取一个非常大的论坛数据库,可以指定几种不同语言的基础查询:

forum
论坛
foro
论坛

在查询格式中指定从 a 到 zzzz 的字符遍历,此方法可以最大限度地轮换搜索结果并获取大量新的唯一结果:

$query {az:a:zzzz}

该宏将为每个原始搜索查询创建 475254 个额外查询,总计将产生 4 x 475254 = 1901016 个搜索查询,这个数字令人印象深刻,但对于 A-Parser 来说完全不是问题。在每分钟 2000 个查询的速度下,该任务仅需 16 小时即可处理完成。

使用运算符

您可以在查询格式中使用搜索运算符,这样它将自动添加到列表中的每个查询中:

site:$query

结果输出示例

得益于内置的 Template Toolkit 模板引擎,A-Parser 支持灵活的结果格式化,这使其能够以任意形式以及结构化形式(如 CSV 或 JSON)输出结果。

导出链接列表

与 SE::Google 类似。

与 SE::Google 类似。

与 SE::Google 类似。

以 SQL 格式保存

与 SE::Google 类似。

将结果转储为 JSON

与 SE::Google 类似。

结果处理

A-Parser 允许在数据抓取过程中直接处理结果,在本节中,我们列出了 Startpage 爬虫工具最常用的案例。

与 SE::Google 类似。

与 SE::Google 类似。

提取域名

与 SE::Google 类似。

从锚文本和摘要中删除标签

与 SE::Google 类似。

与 SE::Google 类似。

可用设置

参数名称默认值描述
Pages count5要抓取的页数(1 到 50)
Family filterFilter depending on search选择过滤级别 (Filter all results / Filter depending on search / Do not filter my results)
PeriodAny time选择结果时间范围 (Any time / Past 24 hours / Past week / Past month / Past year)
Links per page10搜索结果大小 (10 / 20)
Results languageEnglish选择结果语言
Page languageEnglish选择页面语言
Search countryAll选择进行搜索的国家