跳转到主要内容

HTML::ArticleExtractor - 文章爬虫工具

爬虫工具概览

爬虫工具概览HTML::ArticleExtractorHTML::ArticleExtractor 从网页中抓取文章。

它通过内置在 A-Parser 中的 @mozilla/readability 模块工作,可以采集诸如标题、带 HTML 格式及不带格式的正文内容、文章长度等核心数据。

其核心使用 Net::HTTPNet::HTTP 爬虫工具,这使其能支持相应的功能。支持多页数据抓取(翻页)。内置了绕过 CloudFlare 防护的手段,并可选择 Chrome 作为引擎,用于抓取那些通过脚本加载数据的页面中的邮箱。

速度可达每分钟 200 次请求,– 即每小时 12 000 个链接。

采集数据

  • 文章标题 - $title
  • 处理后的文章内容 HTML 字符串 - $content
  • 文章文本内容(移除所有 HTML) - $textContent
  • 文章字符长度 - $length
  • 文章摘要或内容简短片段 - $excerpt
  • 作者元数据 - $byline
  • 网站名称 - $siteName

功能

  • 多页数据抓取(翻页)
  • 支持 gzip/deflate/brotli 压缩
  • 自动识别并将网站编码转换为 UTF-8
  • 绕过 CloudFlare 防护
  • 选择引擎(HTTP 或 Chrome)
  • 可设置文章长度
  • 支持抓取带 HTML 标签或不带标签的文章

应用场景

  • 从任何网站采集现成的文章

查询

在查询中需要指定待抓取文章的页面链接,例如:

https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s

结果输出示例

得益于内置的 Template Toolkit 模板引擎,A-Parser 支持灵活的结果格式化,允许以任意形式输出结果,包括 CSV 或 JSON 等结构化格式。

可用设置