通用信息
A-Parser - 专业人士的首选爬虫工具

A-Parser - 是一款多线程搜索引擎、网站评估服务、关键词、内容(文本、链接、任意数据)及其他各种服务(YouTube、图片、翻译等)的爬虫工具,A-Parser 包含 超过 90 种内置爬虫工具。

A-Parser 的核心特性包括支持 Windows/Linux 平台、具备远程访问能力的 Web 界面、无需编写代码即可创建自定义爬虫工具的能力,以及支持使用 JavaScript / TypeScript 语言开发复杂逻辑爬虫工具并支持 NodeJS 模块。
卓越的性能、代理处理、绕过 CloudFlare 防护、快速的 HTTP 引擎、支持通过 puppeteer 控制 Chrome、通过 API 管理爬虫工具等诸多功能,使 A-Parser 成为独一无二的解决方案。在本手册中,我们将尽力展示 A-Parser 的所有优势及其使用方法。
应用场景
A-Parser 能够解决多种任务,为了方便起见,我们按应用领域将其分为以下几类,点击下方链接了解详情:
AI 集成
SEO 专家与工作室
面向企业与自由职业者
面向开发者
面向营销人员与分析师
面向电商与平台
面向联盟营销人员
功能与优势
在本节中,我们简要列出了 A-Parser 的主要优势,更多详细信息可通过下方链接查看:
功能全景概览
⏩ A-Parser 网络研讨会:概览与答疑
多线程与性能
- A-Parser 基于最新版本的 NodeJS 和 V8 JavaScript 引擎运行
- AsyncHTTPX - 自主实现的 HTTP 引擎,支持 HTTP/1.1 和 HTTP/2、HTTPS/TLS,支持带可选身份验证的 HTTP/SOCKS4/SOCKS5 代理
- 爬虫工具能够以几乎不受限的并发多线程执行 HTTP 请求,具体取决于计算机配置和任务需求
- 每个任务(请求集合)按指定的线程数进行数据抓取
- 在一个任务中使用多个爬虫工具时,对不同爬虫工具的每个请求都会在不同线程中同时执行
- 爬虫工具支持并行运行多个任务
- 从源地址检查和加载代理同样以多线程模式进行
定制爬虫工具开发
- 无需编写代码即可创建爬虫工具
- 使用正则表达式
- 支持多页数据抓取
- 检查内容及是否存在下一页
- 更换 User-Agent 并在每次请求时随机切换
- 嵌套抓取 - 支持将获取的结果代入后续请求
- 完善的 JSON 处理:解析与生成
- 支持添加并使用自定义 JS 函数,直接在爬虫工具中处理获取的结果
使用 JavaScript 开发爬虫工具
- 基于 async/await 的丰富内置 API
- 支持 TypeScript
- 支持连接任何 NodeJS 模块
- 通过 puppeteer 管理 Chrome/Chromium,支持为每个标签页分配独立代理
强大的请求与结果构建工具
- 请求构造器与结果构造器 - 允许修改数据(查找替换、从链接提取域名、正则表达式转换、XPath 等)
- 查询占位符 - 支持从文件读取;遍历单词、字符和数字,包括指定步长
- 结果过滤 - 按子串包含、相等、大于/小于进行过滤
- 结果去重 - 按行、按域名、按主域名(A-Parser 识别所有顶级域名,包括 co.uk, msk.ru 等)
- 基于 Template Toolkit 的强大结果模板引擎 - 允许以任何方便的形式输出结果(文本、CSV、HTML、XML、自定义格式)
- 爬虫工具使用预设系统 - 可以为每个爬虫工具针对不同场景创建多种预设配置
- 一切皆可配置 - 无任何框架限制
- 导出与导入设置功能,方便与其他用户交流经验