跳转到主要内容

界面概览

结构

A-Parser 界面

A-Parser 界面由三部分组成:

  • Menu (菜单)(左侧)
  • Status bar (状态栏)(底部)
  • Current tab (当前标签页)(右侧)

新闻

新闻

该标签页分为两个区域:

  • A-Parser 新闻(左侧),包括:
    • 更新的最新信息
    • 案例集和文章
    • 视频教程
  • 论坛最新帖子(右侧)

快速任务

快速任务

此标签页允许您在不使用编辑器的情况下启动简单任务。

任务编辑器

任务编辑器

功能完善的任务编辑器。允许详细配置爬虫工具、应用过滤器、使用正则表达式、保存去重状态数据库、格式化查询和结果,并具有一系列其他功能。有关任务设置的更多详细信息,请参阅Task Editor (任务编辑器)章节。

导出预设

导出预设

导入预设

导入预设

悬停提示

悬停提示

当鼠标悬停在特定字段(爬虫工具、结果格式、查询格式等)上时,会出现悬停提示。

下拉列表搜索

下拉列表搜索

要使用下拉列表中的搜索功能,请点击其中的文本,清空内容 (CTRL+A, DELETE\BACKSPACE) 并开始输入。如果找到多个匹配项,您可以使用箭头键进行导航。找到所需项后,按 ENTER 键。

备注

使用搜索功能时,无法选择多个元素。为此,必须手动滚动列表并选择所需元素。

爬虫工具

在此区域中,您可以添加爬虫工具用于任务,添加查询构造器结果构造器,修改结果格式,重写爬虫工具选项,选择预设并执行任务测试

结果格式

默认结果格式
按钮 按钮 允许恢复默认结果格式。
点击 按钮 以打开支持换行的多行输入框。

爬虫工具选项

爬虫工具的设置保存在预设中——即保存的设置集合。

所有设置都有一个默认预设——default。它不能被修改。所有更改都必须保存为具有新名称的预设。

重写选项

重写选项

Override preset (添加重写) – 快速重写爬虫工具的设置。此选项可以直接在任务编辑器中添加。设置列表中显示的是默认值。

查询

可以通过两种方式指定查询列表:从文件加载或在字段中输入。

来自文件的查询

来自文件的查询

来自文本的查询

来自文本的查询

结果

结果

在任务编辑器的Results (结果)字段中,可以看到调节结果写入文件的选项。

选项

任务编辑器的附加选项。

任务队列

任务队列

任务队列界面交互演示。在活动任务和已完成任务之间切换,在页面之间跳转。

任务卡片

任务卡片。 卡片上反映了任务的主要信息。队列中的任务状态及其说明

  • 设置
    • Parsers (爬虫工具)。此项显示任务中涉及的爬虫工具。
    • Add time (添加时间)。任务添加到队列的时间。
    • Queries (查询)。以逗号分隔列出的查询,或指向查询文件的相对路径(相对于 /aparser/queries/)。
    • Config preset (线程配置)。任务中使用的线程配置名称。
    • Results file (结果文件)。结果文件的名称。
  • 状态
    • Changed time (修改时间)。任务最后一次更改的时间。
    • Queries done/all (查询 完成/总计)。查询总数和已完成数量。
    • Failed queries (失败查询)。数量。
    • Results unique/all (结果 唯一/总计)
    • Status (状态)
    • Active threads (活动线程)
    • Wait proxy threads (等待线程)
    • Speed cur/avg (速度 当前/总体)。任务执行速度,以每分钟查询数计:当前显示过去一分钟内执行的查询数,总体显示任务运行全过程的平均值。
    • Current query (当前查询)
备注

暂停和停止任务有什么区别? 暂停的任务继续占用活动槽位,停止的任务则不占用。停止或暂停后都可以继续执行。

备注

如何设置队列中显示的任务数量? 进入 ⚙ 设置 标签页,然后选择 常规设置,在 Tasks per page (每页任务数) 项中指定所需的数量。点击 💾 保存 使更改生效。

每页任务数量

计划任务

计划任务

Scheduler (计划任务) 允许您安排需要定期执行的任务启动。

日志查看器

日志查看器

查看特定任务的日志。每个线程的日志是分开记录的。

查看日志主要用于任务调试,以分析任务执行过程并查看任务中何时何地发生错误。例如,如果任务不工作,没有采集到结果,那么就需要查看任务日志并分析为什么没有结果。

备注

要查看任务日志,必须在添加任务前开启 Do log (记录日志) 选项。如果在未开启此选项的情况下添加任务,则无法查看日志。

如何开启记录日志选项

代理检查器

代理检查器概览

代理检查器的管理在 Proxy Checker (代理检查器) 标签页中进行,在那里可以添加、删除以及启用和禁用代理检查器。此外,该标签页还显示每个代理检查器的运行统计信息、存活代理图表以及源处理统计信息。

工具

工具

包括几个标签页:

  • Template Tester – 用于编写和检查模板的工具
  • JavaScript Editor – 允许添加自己的 JS 函数并从模板引擎中执行它们
  • Update A-Parser – 检查更新并自动更新到最新版本
  • Maintenance – 停止和重启爬虫服务器,以及调试窗口
  • Regex Builder – 允许创建和测试正则表达式

更多关于Tools (工具)的信息

设置

设置

A-Parser 包含以下设置组:

  • Global Settings – 程序的主要设置:语言、密码、更新参数、活动任务数量
  • Config Presets – 任务的线程设置和去重方法
  • Parser Presets – 能够配置每个单独的爬虫工具
  • Proxy Checker Presets – 代理检查器的线程数和所有设置
  • Advanced Settings – 面向高级用户的可选设置

更多关于Settings (设置)的信息

测试抓取

测试抓取

此标签页用于调试爬虫工具。支持调试模式。

更多关于Parser Test (测试抓取)的信息

状态栏

状态栏

状态栏包含以下元素:

  1. A-Parser status (A-Parser 状态)。默认值为 Idle。这意味着 A-Parser 处于等待模式。一旦添加至少一个任务,状态将变为 Parsing
  2. 反映 current number of tasks (当前任务数量)。从左到右依次为:正在运行的任务数、总任务数(运行中或已停止)。
  3. 显示 proxy information (代理信息):
    1. 存活数量。
    2. 总加载量。
  4. 显示 number of active threads (已占用线程数)。
  5. new version available (有新版本可用) 时出现。点击将打开 Update A-Parser 标签页。
  6. Website link (A-Parser 网站链接)。