メインコンテンツへスキップ

Reddit::PostInfo - Redditの投稿情報を抽出するスクレイパー

SE::Quora

Reddit::PostInfo スクレイパーの概要

Reddit::PostInfoReddit::PostInfo - Redditの投稿情報を取得するスクレイパーです。

コメントを含む、投稿に関する情報を収集します。

自動クエリ増殖、ファイルからのサブクエリ置換、英数字の組み合わせやリストの総当たりを使用して、可能な限り多くの結果を取得できます。

A-Parserの機能により、Reddit::PostInfo スクレイパーのスクレイピング設定を後で再利用するために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。

結果の保存は、内蔵された強力なテンプレートエンジン Template Toolkit により、必要な形式や構造で保存できます。これにより、結果に追加のロジックを適用したり、JSON、SQL、CSV を含む様々なフォーマットでデータを出力したりできます。

収集データ

  • 投稿へのリンク
  • タイトルとフレア (flair)
  • レーティング、コメント数、アワード数
  • 作成日
  • 投稿が公開されたコミュニティ
  • 著者とそのフレア (flair)
  • 投稿内容:Markdownテキスト、メディアコンテンツへのリンク、外部リソースへのリンク
  • 広告投稿かどうか

コメントの配列:

  • ID
  • 親ID
  • リンク
  • 著者
  • テキスト(タグ除去済み)
  • テキスト(タグあり)

機能

  • スクレイピングするコメントの数を制限する機能

クエリ

1つのクエリ形式をサポートしています:

投稿へのリンク

例:

https://www.reddit.com/r/Audi/comments/151atr5/audi_r8_high_speed_crash_294_km/
https://www.reddit.com/r/Lexus/comments/1dc7r2m/anyone_come_from_audi_to_lexus/

デフォルトの結果では、コメントなしの投稿情報が出力されます。

結果の出力形式

A-Parserは、内蔵されたテンプレートエンジン Template Toolkit により柔軟な結果のフォーマットをサポートしており、任意の形式や、CSVやJSONなどの構造化された形式で結果を出力できます。

設定可能な項目

パラメータデフォルト値説明
Max comments count50スクレイピングするコメントの数