Reddit::PostInfo - Redditの投稿情報を抽出するスクレイパー

Reddit::PostInfo スクレイパーの概要
Reddit::PostInfo - Redditの投稿情報を取得するスクレイパーです。コメントを含む、投稿に関する情報を収集します。
自動クエリ増殖、ファイルからのサブクエリ置換、英数字の組み合わせやリストの総当たりを使用して、可能な限り多くの結果を取得できます。
A-Parserの機能により、Reddit::PostInfo スクレイパーのスクレイピング設定を後で再利用するために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。
結果の保存は、内蔵された強力なテンプレートエンジン Template Toolkit により、必要な形式や構造で保存できます。これにより、結果に追加のロジックを適用したり、JSON、SQL、CSV を含む様々なフォーマットでデータを出力したりできます。
収集データ
- 投稿へのリンク
- タイトルとフレア (flair)
- レーティング、コメント数、アワード数
- 作成日
- 投稿が公開されたコミュニティ
- 著者とそのフレア (flair)
- 投稿内容:Markdownテキスト、メディアコンテンツへのリンク、外部リソースへのリンク
- 広告投稿かどうか
コメントの配列:
- ID
- 親ID
- リンク
- 著者
- テキスト(タグ除去済み)
- テキスト(タグあり)
機能
- スクレイピングするコメントの数を制限する機能
クエリ
1つのクエリ形式をサポートしています:
投稿へのリンク
例:
https://www.reddit.com/r/Audi/comments/151atr5/audi_r8_high_speed_crash_294_km/
https://www.reddit.com/r/Lexus/comments/1dc7r2m/anyone_come_from_audi_to_lexus/
デフォルトの結果では、コメントなしの投稿情報が出力されます。
結果の出力形式
A-Parserは、内蔵されたテンプレートエンジン Template Toolkit により柔軟な結果のフォーマットをサポートしており、任意の形式や、CSVやJSONなどの構造化された形式で結果を出力できます。
設定可能な項目
| パラメータ | デフォルト値 | 説明 |
|---|---|---|
| Max comments count | 50 | スクレイピングするコメントの数 |