メインコンテンツへスキップ

Reddit::Comments - Redditコメントスクレイパー

SE::Quora

Reddit::Comments スクレイパー概要

Reddit::CommentsReddit::Comments - Redditのメッセージを抽出するスクレイパーです。

同名のサービスから、コメントのリストとそれぞれの詳細情報を収集します。

クエリの自動増殖、ファイルからのサブクエリの挿入、英数字の組み合わせやリストの総当たりを使用して、最大限の結果を取得することが可能です。

A-Parserの機能により、Reddit::Posts スクレイパーの設定を将来の使用のために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。

結果の保存は、内蔵の強力なテンプレートエンジン Template Toolkit により、必要な形式と構造で保存できます。これにより、結果に追加のロジックを適用したり、JSON、SQL、CSV を含む様々なフォーマットでデータを出力したりできます。

収集データ

コメントの配列:

  • コメントへのリンク
  • コメントの内容(markdown形式)
  • レーティングとアワード数
  • コメント作成日
  • コメント投稿者とフレア(flair)
  • 当該コメントが属する投稿へのリンク
  • 投稿のタイトルとフレア(flair)
  • 投稿のレーティング、コメント数、アワード数
  • 投稿作成日
  • 投稿が公開されたコミュニティ
  • 投稿者とフレア(flair)
  • 投稿の内容:markdownテキスト、メディアコンテンツへのリンク、外部リソースへのリンク

機能

  • スクレイピングするページ数の指定
  • 結果のソート方法の指定
  • 特定のコミュニティ内でのスクレイピング機能

ユースケース

  • Reddit上のメッセージに残されたコメントを収集する必要があるあらゆるシナリオ

クエリ

2種類のクエリ形式をサポートしています:

キーワード

例:

wordpress features
parser

デフォルトの結果には、以下のようなコメントへのリンクの一覧が出力されます:

https://www.reddit.com/r/node/comments/14lmqbq/how_to_work_with_xlsx_files/jpy3r5a/
https://www.reddit.com/r/StardewValley/comments/14qidly/having_problems_installing_stardew_valley/jqnalwz/
https://www.reddit.com/r/elasticsearch/comments/14pr86i/how_to_parsing_this_lin_logstash/jqkstjw/
https://www.reddit.com/r/vexillology/comments/14fh5th/flag_of_riga_michigan/jp10w17/
https://www.reddit.com/r/Marvel/comments/14otc3t/hank_pym_is_a_really_humble_guy_the_mighty/jqf27xy/
https://www.reddit.com/r/math/comments/14p1lkg/from_the_perspective_of_you_mathematicians_what/jqgug4q/
https://www.reddit.com/r/Wordpress/comments/14okx06/help_looking_for_a_specific_plugin_for_booking/jqhwtu5/
https://www.reddit.com/r/osr/comments/13u8g7s/difference_between_whitebox_whitehack/jlzhthi/
...

キーワードとコミュニティへのリンク

スクレイパーは、特定のコミュニティ内でのキーワード検索をサポートしています。この場合、クエリにキーワードとスペース区切りでコミュニティへのリンクを指定します。例:

jesus https://www.reddit.com/r/atheism/
stage 3 https://www.reddit.com/r/Audi/

デフォルトの結果には、以下のような投稿へのリンクの一覧が出力されます:

https://www.reddit.com/r/atheism/comments/14dp1rv/sen_josh_hawley_shares_his_mindblowingly_stupid/jor20zd/
https://www.reddit.com/r/atheism/comments/14kt69e/why_do_my_christian_friends_view_my_atheism_as_an/jpsgbe5/
https://www.reddit.com/r/atheism/comments/14p6yir/finally_happened_the_one_babysitter_we_can_get/jqhk48s/
https://www.reddit.com/r/Audi/comments/14nyn9m/excuse_me_we_late/jqbdu2a/
https://www.reddit.com/r/Audi/comments/14oqxce/talk_me_inout_of_buying_this_gorgeous_audi_s5/jqev0p6/
https://www.reddit.com/r/Audi/comments/14pqr8a/is_this_a_good_deal_in_your_guys_opinions/jql4wnb/
...

結果の出力オプション

A-Parserは、内蔵のテンプレートエンジン Template Toolkit により柔軟な結果フォーマットをサポートしており、任意の形式や CSV、JSON などの構造化された形式で結果を出力できます。

設定可能な項目

パラメータデフォルト値説明
Pages count5取得するページ数
SortRelevance結果のソート