跳转到主要内容

Reddit::PostInfo - Reddit 帖子信息爬虫工具

SE::Quora

Reddit::PostInfo 爬虫工具概览

Reddit::PostInfoReddit::PostInfo - Reddit 帖子信息数据抓取工具。

采集帖子的详细信息,包括评论。

您可以使用自动查询扩展、从文件中提取子查询、遍历数字字母组合以及列表,以获取尽可能多的结果。

A-Parser 的功能允许保存 Reddit::PostInfo 爬虫工具的采集设置以供将来使用(预设),设置采集计划等等。

得益于内置强大的 Template Toolkit 模板引擎,可以将结果保存为您需要的任何形式和结构,它允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON、SQL 和 CSV

采集的数据

  • 帖子链接
  • 标题和标签 (flair)
  • 评分、评论数量和奖励数量
  • 创建日期
  • 发布帖子的社区
  • 作者及其标签 (flair)
  • 帖子内容:Markdown 文本、媒体内容链接和外部资源链接
  • 帖子是否为广告

评论数组:

  • ID
  • 父级 ID
  • 链接
  • 作者
  • 文本(清除标签后)
  • 文本(带标签)

功能

  • 可以限制要抓取的评论数量

查询

支持一种查询方式:

帖子链接

示例:

https://www.reddit.com/r/Audi/comments/151atr5/audi_r8_high_speed_crash_294_km/
https://www.reddit.com/r/Lexus/comments/1dc7r2m/anyone_come_from_audi_to_lexus/

默认情况下,结果将输出不带评论的帖子信息

结果输出选项

A-Parser 凭借内置的 Template Toolkit 模板引擎支持灵活的结果格式化,这使其能够以任意形式以及结构化形式(例如 CSV 或 JSON)输出结果。

可用设置

参数默认值描述
Max comments count50要抓取的评论数量