术语表
爬虫工具
爬虫工具是一个脚本,它根据指定的查询从指定的 Web 资源收集数据,对其进行处理,并以默认或指定的格式输出结果。
内置爬虫工具
内置爬虫工具是预装的、初始可用的爬虫工具,其功能性得到持续维护。
定制 JS 爬虫工具
定制 JS 爬虫工具是使用 JavaScript 编写的开源爬虫工具,可在 JS 爬虫工具编辑器中使用,并可随任务一起导出和导入。此类爬虫工具的示例可以在爬虫工具与预设目录中找到。
预设
预设既指在任务编辑器中通过选择爬虫工具集合、设置和选项来创建的已保存任务,也指单个爬虫工具的设置(设置预设)。
爬虫工具设置
爬虫工具设置是可以编辑或更改(重写)的选项,用于改变爬虫工具的运行算法以获得非标准结果。
已保存任务
已保存任务是已被保存并可重复使用的预设。
线程配置
线程配置是一组线程设置,可以按名称保存并与不同的预设重复使用。
线程
多线程是指同时启动多个用于数据抓取的上下文,在这些上下文中,A-Parser 并行执行查询,根据线程配置中定义的特定策略轮换代理,并记录每个查询的数据抓取执行过程。
代理检查器
代理检查器是一个控制器,负责根据代理检查器的设置组合来加载和验证代理。
代理
代理是一个特定格式的字符串/字符串数组(或指向字符串/字符串数组的链接),它允许在数据抓取中通过发送请求,并利用中间代理服务器在服务器与客户端之间传输数据包,从而隐藏真实的 IP 地址。
结果模板
结果模板是一个定义结果格式和所采集数据的模板,可以直接设置,也可以使用内置的 Template Toolkit 模板引擎进行设置。