跳转到主要内容

安装与更新

安装前准备

在安装之前,需要执行以下操作:

  1. 在会员中心检查您的 IP 地址是否填写正确(对于使用动态 IP 地址的用户,在更换新 IP 时需要同步修改)

    IP 设置
  2. 前往 A-Parser -> 下载 选项卡

  3. 在下载所需版本之前,应先点击 Update (更新),以更新到 A-Parser 的最新版本

    版本更新

A-Parser Release - A-Parser 的稳定版本,关于新版本发布的更多信息可以在 新闻 板块阅读

A-Parser Beta - A-Parser 的中间版本,会不断补充功能,关于变更的更多信息可以在论坛的 Next Release 板块阅读

安装 A-Parser

⏩ A-Parser 视频:安装、启动与更新

TODO: (next) 更新视频内容

在 Windows 上安装

完成 安装前准备 阶段后,需要下载程序压缩包并解压到您需要的文件夹中(可以是任何文件夹,甚至是桌面)

下载压缩包解压压缩包

进入 aparser 文件夹并运行 aparser.exe

启动程序

首次启动可能需要较长时间,从 30 秒到几分钟不等。服务器窗口出现后,在浏览器中打开 http://127.0.0.1:9091/

默认密码 为空。只需点击 Login 按钮,随后将显示 A-Parser 的 Web 界面

故障排除

不兼容的程序

已知与以下杀毒软件和程序存在兼容性问题:

  • Norton Internet Security - 爬虫工具运行可能不稳定
  • Emsisoft Anti-Malware - 爬虫工具运行可能不稳定
  • Guard Mail.ru - 必须从系统中完全卸载
  • HTTPDebugger - 会在启动 2 小时后中断 A-Parser 的运行
禁用 Windows 索引服务

索引服务可能会在 A-Parser 运行过程中锁定文件访问。如果爬虫工具无法启动或在运行过程中崩溃,需要查看 A-Parser 日志 是否存在以下记录:

IO error: ... Append: cannot write

sysopen: Permission denied

要禁用索引服务,请执行以下操作:

  1. 打开 服务管理开始 - 运行 或使用快捷键 Win + R,输入 services.msc
  2. 在打开的窗口中选择 Windows Search,点击鼠标右键并选择 属性
  3. 在属性窗口的 常规 选项卡中,将 启动类型 更改为 禁用 并点击 应用
  4. 如果此时 Stop 按钮处于激活状态 - 点击它并停止服务
停止索引服务
更新发行版时出错

在某些情况下,Windows 可能会锁定 A-Parser 发行版文件的访问权限,此时在 aparser.log 中会有如下记录:

remove_tree failed for dist\nodejs\node_modules\...

解决该问题:

  • 确保任务管理器中没有挂起的 aparser.exeaparser-node.exe 进程
  • 删除 A-Parser 目录中的 dist 文件夹,如果 Windows 提示删除错误 - 请将 dist 文件夹重命名为 dist_

在 MacOS 上安装

目前在 MacOS 上可以使用 Docker 进行安装

默认密码 为空。只需点击 Login 按钮,随后将显示 A-Parser 的 Web 界面

警告

在搭载 Apple 芯片的 MacOS 上,需要在 Docker Desktop 中开启以下选项

Docker Desktop

在 Linux 上安装

我们建议使用 docker 或 docker-compose 在 Linux 上安装 A-Parser,对于传统安装请遵循此说明

备注

A-Parser 实现了自己的 Web 服务器,因此请选择没有 Web 访问权限的目录进行安装

为了方便从服务器下载,实现了临时链接功能。在 会员中心 需要点击 单次链接(英文版为 Get one-time link)- 通过获取的链接可以下载一次发行版。在终端中进入安装目录(例如 ~/)并使用获取的链接执行以下命令:

wget https://a-parser.com/members/onetime/ce42f308eaa577b5/aparser-linux-x64.tar.gz
tar zxf aparser-linux-x64.tar.gz
rm -f aparser-linux-x64.tar.gz
cd aparser/
chmod +x aparser
./aparser

首次启动可能需要较长时间,从 30 秒到几分钟不等。服务器窗口出现后,在浏览器中打开 http://127.0.0.1:9091/,您也可以使用服务器的公网 IP 地址访问 A-Parser

默认密码 为空。只需点击 Login 按钮,随后将显示 A-Parser 的 Web 界面

警告

请注意,默认情况下 A-Parser 在所有接口上都可用。建议设置强密码,并根据需要使用 iptables 限制访问

故障排除

有时服务器上可能缺少某些库,例如:

./aparser
./aparser: error while loading shared libraries: libz.so.1: cannot open shared object file: No such file or directory

需要安装缺失的库:

yum -y install zlib

并重新启动 A-Parser:

./aparser

如果没有输出任何消息 - 这表明 A-Parser 已成功启动。可以通过命令 tail -f aparser.log 进行确认

如果 aparser.log 包含此类行:

./dist/nodejs/bin/aparser-node: /lib64/libc.so.6: version `GLIBC_2.25' not found (required by ./dist/nodejs/bin/aparser-node)
./dist/nodejs/bin/aparser-node: /lib64/libc.so.6: version `GLIBC_2.28' not found (required by ./dist/nodejs/bin/aparser-node)

则这表明使用的是过时的 Linux 版本,在这种情况下建议更新操作系统或使用 docker 或 docker-compose

为更多线程优化 Linux

默认情况下,Linux 将每个用户的打开文件和套接字数量限制为 1024,要增加限制请执行以下命令:

echo 'root soft nofile 10240' >> /etc/security/limits.conf
echo 'root hard nofile 10240' >> /etc/security/limits.conf

如果您不是以 root 身份而是以其他用户身份运行爬虫工具,请将 root 替换为用户名

同样需要增加 ip_conntrack 表的大小:

sysctl -w net.ipv4.netfilter.ip_conntrack_max=262144
echo 'net.ipv4.netfilter.ip_conntrack_max=262144' >> /etc/sysctl.conf

在没有 iptables 防火墙的情况下,该命令会报错 - 直接忽略即可

需要重新进入终端 (ssh),然后重启 A-Parser。要检查当前限制,请执行:

ulimit -n

在某些系统上,还需要在 /etc/pam.d/common-session 文件中添加以下行:

session required pam_limits.so

在 FreeBSD 上安装

目前 FreeBSD 的 Linux 模拟器无法稳定运行 A-Parser

已安装程序的文件结构

A-Parser 文件结构

A-Parser 工作目录结构:

文件描述
config包含配置文件的目录,建议在更新 A-Parser 前进行备份
dist包含 A-Parser 发行版的目录,包括 NodeJS 和其他附加模块
files/proxy包含 代理检查器设置 的目录
files/parsers目录包含由用户创建或导入的 JavaScript 爬虫工具源代码
logs任务执行日志
queries包含爬虫工具查询请求的目录
results数据抓取结果目录
tmp临时目录
.htaccessapache Web 服务器配置文件,用于保护工作目录免受 Web 访问
aparser.exeaparserA-Parser 可执行文件
aparser.logA-Parser 运行日志,诊断当前状态和可能错误的主要方式
config 目录结构

config 目录结构:

文件描述
tasks包含任务文件(正在运行和已完成)的目录
unique包含去重文件的目录
config.db主配置文件,存储设置和预设
queue.db包含任务队列数据的文件
scheduler.db包含计划任务数据的文件
config.txt附加 配置文件
提示

要在 Windows 操作系统中显示文件扩展名,请开启以下设置:

在 Windows 中开启文件扩展名

初始设置

初始设置

开始使用 A-Parser 时,需要先在 Settings -> Global Settings 菜单中根据自己的需求进行配置

  • Password - 默认密码为空,您可以创建新的登录密码。
  • Language - 可以选择界面、新闻和提示的语言 - 提供俄语和英语。
  • Check updates (检查更新) 和 Updates channel (更新通道) - 关于爬虫工具新版本发布的通知。更新通道允许在稳定版、测试版(beta)和预览版(alpha)之间选择。

其他选项的设置在 常规设置 章节中有详细说明

默认密码

默认密码为空。只需点击 Login 按钮,随后将显示 A-Parser 的 Web 界面。如需重置密码,请参见下文。

重置密码

可以通过在命令行中使用 -resetpassword 选项运行爬虫工具来重置访问密码

对于 Windows:

aparser.exe -resetpassword

对于 Linux:

./aparser -resetpassword

密码将被重置为空,登录 A-Parser 时只需点击 Login

更新 A-Parser

通过界面更新

在常规设置中选择更新通道:

更新通道

在工具菜单中前往 更新 A-Parser 选项卡:

更新 A-Parser

选择要更新的文件,A-Parser 将会重启:

待更新文件
警告

注意!除非另有说明,否则只需更新可执行文件(aparser.exe 或 aparser)即可

在 Windows 上手动更新

通常情况下,只需替换爬虫工具的可执行文件即可。

  • 停止 A-Parser - 点击 Stop server
  • 会员中心 下载压缩包并覆盖 aparser.exe
  • 运行 aparser.exe

在 Linux 上手动更新

  • 停止 A-Parser - 在控制台执行 killall aparser
  • 会员中心 下载压缩包并覆盖 aparser 文件
  • 运行 aparser - 在控制台执行 ./aparser
wget https://a-parser.com/members/onetime/0d19621928c25a48/aparser.tar.gz
kill $(cat files/pid)
sleep 1
tar xzf aparser.tar.gz -O aparser/aparser > aparser
rm -f aparser.tar.gz
chmod +x aparser
./aparser

在多台电脑上安装一个许可证

每个许可证同时只能在一台电脑/服务器上使用。同时,拥有一个许可证并不禁止在多台电脑上安装 A-Parser。但在这种情况下,A-Parser 只能在会员中心填写的 IP 所对应的电脑/服务器上运行

这种使用方式的一个例子是办公室电脑和家里笔记本:可以在两台机器上都安装爬虫工具,但要么在办公室电脑上使用,要么在家里笔记本上使用。会员中心修改 IP 的次数没有限制,但不建议每天修改超过 5 次,否则可能需要确认是否存在欺诈行为。

要在多台电脑或服务器上同时运行 A-Parser,请执行以下操作:

  1. 添加 额外许可证
  2. 会员中心 前往 A-Parser -> IP 设置 选项卡
  3. 填写额外电脑的 IP 地址

在一台电脑或服务器上安装多个副本

每个许可证允许在同一台机器内同时安装并运行无限数量的 A-Parser 副本。这可以最大限度地利用高性能系统的能力,即当一个副本无法占用所有资源且需要提高性能时。

在同一系统上安装多个爬虫工具副本的过程:

  • 需要根据标准安装说明将每个副本下载并安装到单独的目录中
  • 在每个副本的 config 目录中需要创建 config.txt 文件并写入如下设置:
bind: 0.0.0.0:9092
  • 9092 替换为该副本将运行的端口

之后即可启动爬虫工具,它将在指定的端口上可用

警告

禁止任何形式的共享访问以及出租 A-Parser,一经发现,许可证将被注销,且不予退款或恢复。