跳转到主要内容

通用信息

A-Parser - 专业人士的首选爬虫工具

任务编辑器配置示例

A-Parser - 是一款多线程搜索引擎、网站评估服务、关键词、内容(文本、链接、任意数据)及其他各种服务(YouTube、图片、翻译等)的爬虫工具,A-Parser 包含 超过 90 种内置爬虫工具

img

A-Parser 的核心特性包括支持 Windows/Linux 平台、具备远程访问能力的 Web 界面、无需编写代码即可创建自定义爬虫工具的能力,以及支持使用 JavaScript / TypeScript 语言开发复杂逻辑爬虫工具并支持 NodeJS 模块

卓越的性能、代理处理、绕过 CloudFlare 防护、快速的 HTTP 引擎、支持通过 puppeteer 控制 Chrome、通过 API 管理爬虫工具等诸多功能,使 A-Parser 成为独一无二的解决方案。在本手册中,我们将尽力展示 A-Parser 的所有优势及其使用方法。


应用场景

A-Parser 能够解决多种任务,为了方便起见,我们按应用领域将其分为以下几类,点击下方链接了解详情:

AI 集成

SEO 专家与工作室

面向企业与自由职业者

面向开发者

面向营销人员与分析师

面向电商与平台

面向联盟营销人员

功能与优势

在本节中,我们简要列出了 A-Parser 的主要优势,更多详细信息可通过下方链接查看:

功能全景概览

⏩ A-Parser 网络研讨会:概览与答疑

多线程与性能

  • A-Parser 基于最新版本的 NodeJSV8 JavaScript 引擎运行
  • AsyncHTTPX - 自主实现的 HTTP 引擎,支持 HTTP/1.1 和 HTTP/2、HTTPS/TLS,支持带可选身份验证的 HTTP/SOCKS4/SOCKS5 代理
  • 爬虫工具能够以几乎不受限的并发多线程执行 HTTP 请求,具体取决于计算机配置和任务需求
  • 每个任务(请求集合)按指定的线程数进行数据抓取
  • 在一个任务中使用多个爬虫工具时,对不同爬虫工具的每个请求都会在不同线程中同时执行
  • 爬虫工具支持并行运行多个任务
  • 从源地址检查和加载代理同样以多线程模式进行

定制爬虫工具开发

使用 JavaScript 开发爬虫工具

强大的请求与结果构建工具

  • 请求构造器结果构造器 - 允许修改数据(查找替换、从链接提取域名、正则表达式转换、XPath 等)
  • 查询占位符 - 支持从文件读取;遍历单词、字符和数字,包括指定步长
  • 结果过滤 - 按子串包含、相等、大于/小于进行过滤
  • 结果去重 - 按行、按域名、按主域名(A-Parser 识别所有顶级域名,包括 co.uk, msk.ru 等)
  • 基于 Template Toolkit 的强大结果模板引擎 - 允许以任何方便的形式输出结果(文本、CSV、HTML、XML、自定义格式)
  • 爬虫工具使用预设系统 - 可以为每个爬虫工具针对不同场景创建多种预设配置
  • 一切皆可配置 - 无任何框架限制
  • 导出导入设置功能,方便与其他用户交流经验

API

  • 支持从您自己的程序和脚本中集成并管理爬虫工具
  • 实现业务流程的全自动化
  • 提供适用于 PHPNodeJsPerlPython 的客户端