Social::Instagram::Tag - Instagramタグ別ポストスクレイパー

スクレイパーの概要
Social::Instagram::Tag – Instagramからタグに基づいて投稿をスクレイピングします。投稿タイプ、テキスト、投稿日、コメント数、いいね数など、あらゆるデータを自動で収集します。コメントのテキストとともに、投稿者のプロフィールURL、コメントのいいね数、作成日時も収集されます。クエリの自動増殖、ファイルからのサブクエリの置換、英数字の組み合わせやリストの総当たりを使用して、可能な限り多くの結果を取得できます。結果のフィルタリングを使用すると、除外キーワードを活用して不要なゴミを削除し、結果をすぐにクリーンアップできます。
A-Parserの機能により、Social::Instagram::Tag スクレイパーのスクレイピング設定を将来の使用のために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。
結果の保存は、組み込みの強力なテンプレートエンジン Template Toolkit により、必要な形式と構造で保存できます。これにより、結果にさらなるロジックを適用し、JSON、SQL、CSV を含む様々なフォーマットでデータを出力できます。
スクレイパーは認証済みアカウントのデータを使用します。 スクレイパーを動作させるには、cookie オプションの値を指定する必要があります。
スクレイパーの使用例
タグによる全投稿の収集

- Count of pages with posts オプションを上書きし、リストから
100を選択します。 - Result format オプションを上書きし、値として
$posts.format('$link\n')を指定します。 - クエリとしてタグを指定します。
サンプルをダウンロード
eJx1U01v2zAM/S9CgK5AEKSHXXxLAwTokNVdk56SHAibNrTIoibJWQvD/72U7NhJ
P24i+fj4KJKN8OCO7smiQ+9EsmuEiW+RiBwLqJUXU2HAOrQhvBMbyiSoJHnQzkNp
oUqSLZQMGuCN8G8GmYBOaK3MkYMyZ9tAiRnVOlCeQNWMuZvP2+8TCrIVeNbTyehz
xMSQ827WRX/cTJTUx/1e39yK9nCYig7vVjEc4XezvqkhuIETbimUkApH94qtR6hi
kRw8hui5zu3MvwYGyHPpJWlQXYXwLWPVFy3/RZGaGMtPK9GtLFXs8hgJgvPtrG4n
JtEWTFHH3D9djkgKUA6nwrHUFbCQ/GNEerTgyaYm6GF/I0gvlFrjCdUIi/z3tVQ5
z3BRcNJDn/g1JP3E0Q7tXZbiYf23rGFgidZ9+nvMymlN5fkzlKykZ9st4w4kYs7O
I6IZ/uwxwCqyOJTpmfvqvKYGddiMcWQLM7qu2rgay7UzI13IMu237Yys9ZZvIdVL
qozC0JeuleKxOHwe12Ph+jEEYxT4MXkZS1xdkSdS7temk2qs5PX7GQRW/JOXVXvK
DJR6eV5fRsS4Umxkpt5rZ8gG8oy3tSTeI+6lPQwnOxx2893hJk3Lg/rrnrqE0FWA
s4+/x/EU+Ejbd0hbdis=
収集されるデータ
通常の投稿とトップ投稿の2つの配列:
- 投稿タイプ
- 投稿へのリンク
- テキスト
- 公開日(Unix形式)
- コメント数
- いいね数
- アイコンへのリンク
- 画像の幅と高さ
- アバターへのリンク
- 投稿数
ユースケース
- タグによる投稿の収集
設定
認証のための必須オプションの取得
スポイラー: cookieの見つけ方は?
F12キーを押してデバッグモードを開いた状態で、任意のプロフィールに移動します。
graphql/query 文字列(jsonタイプ)を使用して、スクレイパー用の値が含まれている必要なリクエストを探します。
リクエストに移動し、cookie パラメータから値をコピーします。

クエリ
クエリとしてタグを指定する必要があります。例:
sport
cpu
結果の出力例
A-Parserは、組み込みのテンプレートエンジン Template Toolkit により柔軟な結果のフォーマットをサポートしており、任意の形式や、CSV、JSONなどの構造化された形式で結果を出力できます。
デフォルト出力
結果フォーマット:
$query:\nPosts:\n$posts.format('$link\n')
結果の例:
Posts:
https://www.instagram.com/p/B0FtUJboZC0/
https://www.instagram.com/p/B0Fs7maCIvq/
https://www.instagram.com/p/B0FszBRgOoS/
https://www.instagram.com/p/B0FrgVTBgFI/
https://www.instagram.com/p/B0FqeKvBSjC/
https://www.instagram.com/p/B0FogPGnOIG/
https://www.instagram.com/p/B0FoHSuCSUr/
https://www.instagram.com/p/B0Fl5JWgWts/
https://www.instagram.com/p/B0Fj_P0ji83/
https://www.instagram.com/p/B0Fgn5YHCiC/
https://www.instagram.com/p/B0Fd4uvAOyf/
https://www.instagram.com/p/B0FdfGjnVVs/
https://www.instagram.com/p/B0FdLEDgrTe/
https://www.instagram.com/p/B0FdEORCa0Z/
トップ投稿へのリンク
結果フォーマット:
$top.format('$link\n')
結果の例:
https://www.instagram.com/p/CMMKTr4pi3o/
https://www.instagram.com/p/CMMKTCGHZ1c/
https://www.instagram.com/p/CMMKStkF59q/
https://www.instagram.com/p/CMMKRNun5Jg/
https://www.instagram.com/p/CMMKRI-JTp8/
https://www.instagram.com/p/CMMKQmfBD9O/
https://www.instagram.com/p/CMMKHsiF5GT/
https://www.instagram.com/p/CMMKQUpHXy4/
https://www.instagram.com/p/CMMKPL1HxTx/
https://www.instagram.com/p/CMMKOAkn1mP/
可能な設定
| パラメータ | デフォルト値 | 説明 |
|---|---|---|
| Count of pages with posts | 10 | 投稿が含まれるページ数 |
| Treat disconnect as IP ban | ☑ | 接続断をIPバンとみなす |