跳转到主要内容

术语表

爬虫工具

爬虫工具是一个脚本,它根据指定的查询从指定的 Web 资源收集数据,对其进行处理,并以默认或指定的格式输出结果。

内置爬虫工具

内置爬虫工具是预装的、初始可用的爬虫工具,其功能性得到持续维护。

定制 JS 爬虫工具

定制 JS 爬虫工具是使用 JavaScript 编写的开源爬虫工具,可在 JS 爬虫工具编辑器中使用,并可随任务一起导出和导入。此类爬虫工具的示例可以在爬虫工具与预设目录中找到。

预设

预设既指在任务编辑器中通过选择爬虫工具集合、设置和选项来创建的已保存任务,也指单个爬虫工具的设置(设置预设)。

爬虫工具设置

爬虫工具设置是可以编辑或更改(重写)的选项,用于改变爬虫工具的运行算法以获得非标准结果。

已保存任务

已保存任务是已被保存并可重复使用的预设。

线程配置

线程配置是一组线程设置,可以按名称保存并与不同的预设重复使用。

线程

多线程是指同时启动多个用于数据抓取的上下文,在这些上下文中,A-Parser 并行执行查询,根据线程配置中定义的特定策略轮换代理,并记录每个查询的数据抓取执行过程。

代理检查器

代理检查器是一个控制器,负责根据代理检查器的设置组合来加载和验证代理。

代理

代理是一个特定格式的字符串/字符串数组(或指向字符串/字符串数组的链接),它允许在数据抓取中通过发送请求,并利用中间代理服务器在服务器与客户端之间传输数据包,从而隐藏真实的 IP 地址。

结果模板

结果模板是一个定义结果格式和所采集数据的模板,可以直接设置,也可以使用内置的 Template Toolkit 模板引擎进行设置。