HTML::ArticleExtractor - 文章爬虫工具

爬虫工具概览

HTML::ArticleExtractor 从网页中抓取文章。

它通过内置在 A-Parser 中的 @mozilla/readability 模块工作，可以采集诸如标题、带 HTML 格式及不带格式的正文内容、文章长度等核心数据。

其核心使用 Net::HTTP 爬虫工具，这使其能支持相应的功能。支持多页数据抓取（翻页）。内置了绕过 CloudFlare 防护的手段，并可选择 Chrome 作为引擎，用于抓取那些通过脚本加载数据的页面中的邮箱。

速度可达每分钟 200 次请求，– 即每小时 12 000 个链接。

前往演示购买 A-Parser Pro ($299)

采集数据

文章标题 - $title
处理后的文章内容 HTML 字符串 - $content
文章文本内容（移除所有 HTML） - $textContent
文章字符长度 - $length
文章摘要或内容简短片段 - $excerpt
作者元数据 - $byline
网站名称 - $siteName

功能

多页数据抓取（翻页）
支持 gzip/deflate/brotli 压缩
自动识别并将网站编码转换为 UTF-8
绕过 CloudFlare 防护
选择引擎（HTTP 或 Chrome）
可设置文章长度
支持抓取带 HTML 标签或不带标签的文章

应用场景

从任何网站采集现成的文章

查询

在查询中需要指定待抓取文章的页面链接，例如：

https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s

结果输出示例

得益于内置的 Template Toolkit 模板引擎，A-Parser 支持灵活的结果格式化，允许以任意形式输出结果，包括 CSV 或 JSON 等结构化格式。

可用设置

备注

所有爬虫工具的通用设置支持 Net::HTTP 爬虫工具的所有设置。

爬虫工具概览​

采集数据​

功能​

应用场景​

查询​

结果输出示例​

可用设置​

爬虫工具概览

采集数据

功能

应用场景

查询

结果输出示例

可用设置