HTML::ArticleExtractor - 文章爬虫工具
爬虫工具概览

HTML::ArticleExtractor 从网页中抓取文章。它通过内置在 A-Parser 中的 @mozilla/readability 模块工作,可以采集诸如标题、带 HTML 格式及不带格式的正文内容、文章长度等核心数据。
其核心使用
Net::HTTP 爬虫工具,这使其能支持相应的功能。支持多页数据抓取(翻页)。内置了绕过 CloudFlare 防护的手段,并可选择 Chrome 作为引擎,用于抓取那些通过脚本加载数据的页面中的邮箱。
速度可达每分钟 200 次请求,– 即每小时 12 000 个链接。
采集数据
- 文章标题 -
$title - 处理后的文章内容 HTML 字符串 -
$content - 文章文本内容(移除所有 HTML) -
$textContent - 文章字符长度 -
$length - 文章摘要或内容简短片段 -
$excerpt - 作者元数据 -
$byline - 网站名称 -
$siteName
功能
- 多页数据抓取(翻页)
- 支持 gzip/deflate/brotli 压缩
- 自动识别并将网站编码转换为 UTF-8
- 绕过 CloudFlare 防护
- 选择引擎(HTTP 或 Chrome)
- 可设置文章长度
- 支持抓取带 HTML 标签或不带标签的文章
应用场景
- 从任何网站采集现成的文章
查询
在查询中需要指定待抓取文章的页面链接,例如:
https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s
结果输出示例
得益于内置的 Template Toolkit 模板引擎,A-Parser 支持灵活的结果格式化,允许以任意形式输出结果,包括 CSV 或 JSON 等结构化格式。
可用设置
备注
所有爬虫工具的通用设置
支持
Net::HTTP 爬虫工具的所有设置。