Reddit::PostInfo - Reddit 帖子信息爬虫工具

Reddit::PostInfo 爬虫工具概览
Reddit::PostInfo - Reddit 帖子信息数据抓取工具。采集帖子的详细信息,包括评论。
您可以使用自动查询扩展、从文件中提取子查询、遍历数字字母组合以及列表,以获取尽可能多的结果。
A-Parser 的功能允许保存 Reddit::PostInfo 爬虫工具的采集设置以供将来使用(预设),设置采集计划等等。
得益于内置强大的 Template Toolkit 模板引擎,可以将结果保存为您需要的任何形式和结构,它允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON、SQL 和 CSV。
采集的数据
- 帖子链接
- 标题和标签 (flair)
- 评分、评论数量和奖励数量
- 创建日期
- 发布帖子的社区
- 作者及其标签 (flair)
- 帖子内容:Markdown 文本、媒体内容链接和外部资源链接
- 帖子是否为广告
评论数组:
- ID
- 父级 ID
- 链接
- 作者
- 文本(清除标签后)
- 文本(带标签)
功能
- 可以限制要抓取的评论数量
查询
支持一种查询方式:
帖子链接
示例:
https://www.reddit.com/r/Audi/comments/151atr5/audi_r8_high_speed_crash_294_km/
https://www.reddit.com/r/Lexus/comments/1dc7r2m/anyone_come_from_audi_to_lexus/
默认情况下,结果将输出不带评论的帖子信息
结果输出选项
A-Parser 凭借内置的 Template Toolkit 模板引擎支持灵活的结果格式化,这使其能够以任意形式以及结构化形式(例如 CSV 或 JSON)输出结果。
可用设置
| 参数 | 默认值 | 描述 |
|---|---|---|
| Max comments count | 50 | 要抓取的评论数量 |