SE::YouTube - 本格的なYouTubeスクレイパー

スクレイパー概要
YouTube検索結果のスクレイパー。YouTubeスクレイパーを使用することで、その後の利用に最適な動画リンクの膨大なデータベースを取得できます。YouTubeの検索窓に入力するのと同様の形式でクエリを使用可能です。YouTubeスクレイパーを利用すれば、マルチスレッドモードで動画の基本データを収集できます。各動画の詳細データを取得するには、
SE::YouTube::Videoを使用できます。
A-Parserの機能により、YouTubeスクレイパーのスクレイピング設定を後で利用するために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。自動クエリ増殖、ファイルからのサブクエリ置換、英数字の組み合わせやリストの総当たりを使用して、最大限の結果を取得できます。
内蔵された強力なテンプレートエンジン Template Toolkit により、結果に必要なロジックを適用し、JSON、SQL、CSVを含む様々な形式でデータを出力するなど、必要な形式と構造で結果を保存できます。
収集データ
データは http://www.youtube.com/ から収集されます。
- メイン検索結果
- 動画リンク
- 動画タイトル (title)
- 動画の説明
- ユーザー名
- プレビュー画像のリンク
- 視聴回数
- 動画の長さ
- 動画投稿日
- チャンネル登録者数
- AIによる要約 (summary) ※利用可能な場合

- 「関連キーワード」配列
- キーワード
- プレビューリンク
機能
- YouTubeでの最大スクレイピングページ数 - 50ページ
- 検索を実行する国の選択
- 投稿日による検索
- 結果タイプの選択(動画、チャンネル、プレイリスト)
- 動画の長さの選択
- 詳細な検索パラメータ設定(字幕、3D、HD、ライブ配信、クリエイティブ・コモンズ・ライセンス)
- 関連度、投稿日、評価、視聴回数によるSort (並べ替え)
- 追加で動画のプレビューリンクをスクレイピング
- インターフェース言語の選択が可能
- セーフモード検索の有効化が可能
ユースケース
- YouTubeにおける情報の検索、収集、分析
クエリ
クエリとして検索フレーズを指定する必要があります。例:
Football
ナイアガラの滝
Speak in english
Cats and dogs
自動車
クエリ置換
クエリを増殖させるために内蔵マクロを使用できます。例えば、非常に大規模なフォーラムのデータベースを取得したい場合、複数の言語でいくつかのメインクエリを指定します:
forum
フォーラム
foro
クエリ形式で a から zzzz までの文字の総当たりを指定します。このメソッドにより、検索結果を最大限にローテーションさせ、多くの新しいユニークな結果を得ることができます:
$query {az:a:zzzz}
このマクロは、元の検索クエリごとに 475254 個の追加クエリを作成し、合計で 4 x 475254 = 1901016 個の検索クエリになります。これは印象的な数字ですが、A-Parserにとっては全く問題ありません。毎分 2000 クエリの速度であれば、このタスクは約 16 時間で処理されます。
結果の出力例
A-Parserは内蔵のテンプレートエンジン Template Toolkit により柔軟な結果フォーマットをサポートしており、任意の形式や、CSVやJSONなどの構造化された形式で結果を出力できます。
リンク一覧のエクスポート
リンク + 動画タイトル + 説明(順位付き)
結果フォーマット:
[% FOREACH item IN p1.serp; loop.count _ ' - ' _ item.link _ ' - ' _ item.title _ ' - ' _ item.desc _ "\n"; END %]
結果の例:
1 - https://www.youtube.com/watch?v=dm_T7H6J2U8 - あなたはどれくらい賢い? 多くの大人が合格できない簡単なテスト - この動画では、あなたがどれほど賢いかを確認できます。学校の簡単な問題で構成された<b>テスト</b>があなたを待っています...
2 - https://www.youtube.com/watch?v=iDAYNEV9Kxg - 脳の老化に関するユニークな日本のテスト! ぜひ自分をチェックしてみて! - 脳の老化に関するユニークな日本の<b>テスト</b>! ぜひ自分をチェックしてみて! この<b>テスト</b>は日本で開発されました。どのように...
3 - https://www.youtube.com/watch?v=0PEy2_sSy6A - この簡単なテストがあなたの最も深い恐怖を明らかにします - 私たちの潜在意識はかなり暗い場所であり、それを理解するには長年の精神分析が必要です。そしてこの...
4 - https://www.youtube.com/watch?v=j6K9nIugzAY - India vs England 2nd Test Day 4 Highlights 2021| Royal Sports Tv - India vs England 2nd <b>Test</b> Day 4 Highlights 2021 India vs England 2nd <b>Test</b> Day 4 Highlights 2021 | ind vs eng <b>test</b> series India vs ...
5 - https://www.youtube.com/watch?v=ALDqwSMVYKQ - メンタルテスト/ 929秒の笑い/ 2021年2月のベストおもしろ動画 爆笑/ 笑ったら負け! BEST COUB - Telegramチャンネル: https://t.me/CrazyHumor129k チャンネルでは、最高の動画による929秒の極上の笑いをお届けします...
6 - https://www.youtube.com/watch?v=6X1puBtvc_s - ドラマ「妊娠テスト」第1話 - ロシアのドラマ 2015 HD - ドラマプレミア - <b>テスト</b> 妊娠 第1話 - ロシアのドラマ 2015 患者の死後、産婦人科医のナタリアは...
7 - https://www.youtube.com/watch?v=hXuhVD7Dwp0 - テスト! あなたについての意外な真実を明らかにする錯視! - <b>テスト</b>! あなたについての意外な真実を明らかにする錯視! さまざまなタイプが存在します...
8 - https://www.youtube.com/watch?v=BYA8lY4o33A - テスト! あなたの守護動物は何? あなたの魂に隠れている猛獣は? 正確な性格テスト - <b>テスト</b>! あなたはどの神聖な動物? あなたの魂に隠れている猛獣は? 性格に関する正確な<b>テスト</b> そのために...
9 - https://www.youtube.com/watch?v=V-kqty2vAm4 - テスト! 誰かが密かにあなたに恋をしています! 誰か突き止めよう! - <b>テスト</b>! 誰かが密かにあなたに恋をしています! 誰か突き止めよう! あなたはしばしば孤独を感じ、本当の出会いを夢見ています...
10 - https://www.youtube.com/watch?v=9HtbSe_oJto - このテストを受けて、あなたの注意力をチェックしてください - この動画では、あなたの注意力がどれほど発達しているかを確認します。いくつかのレベルの異なるタイプの課題があなたを待っています...
...
リンク、タイトル、説明をCSVテーブルに出力
内蔵ツールの tools.CSVLine を使用すると、ExcelやGoogleスプレッドシートにインポート可能な正しい形式のテーブルドキュメントを作成できます。
結果の全体フォーマット:
[% FOREACH i IN p1.serp; tools.CSVline(i.link, i.title, i.desc); END %]
ファイル名:
$datefile.format().csv
開始テキスト:
リンク,アンカー,スニペット
結果の全体フォーマットでは、FOREACH ループで $serp 配列を出力するために Template Toolkit テンプレートエンジンが使用されます。
結果のファイル名では、ファイルの拡張子を csv に変更するだけです。
タスクエディタで「Prepend text」オプションを表示するには、「More options」を有効にする必要があります。 「Prepend text」には、カンマ区切りで列名を記入し、2行目を空行にします。
キーワードの競合
SQL形式での保存
結果フォーマット:
[% FOREACH serp; "INSERT INTO serp VALUES('" _ query _ "', '"; link _ "', '"; title _ "')\n"; END %]
結果の例:
INSERT INTO serp VALUES('テスト', 'https://www.youtube.com/watch?v=dm_T7H6J2U8', 'あなたはどれくらい賢い? 多くの大人が合格できない簡単なテスト')
INSERT INTO serp VALUES('テスト', 'https://www.youtube.com/watch?v=iDAYNEV9Kxg', '脳の老化に関するユニークな日本のテスト! ぜひ自分をチェックしてみて!')
INSERT INTO serp VALUES('テスト', 'https://www.youtube.com/watch?v=0PEy2_sSy6A', 'この簡単なテストがあなたの最も深い恐怖を明らかにします')
INSERT INTO serp VALUES('テスト', 'https://www.youtube.com/watch?v=BYA8lY4o33A', 'テスト! あなたの守護動物は何? あなたの魂に隠れている猛獣は? 正確な性格テスト')
INSERT INTO serp VALUES('テスト', 'https://www.youtube.com/watch?v=5Se6w0lOkyY', '新型ルノー Duster.Test-draiv Anton Avtoman.')
INSERT INTO serp VALUES('テスト', 'https://www.youtube.com/watch?v=Ko8cFdoOV6U', 'テスト! あなたはどんな女の子? お嬢様タイプ、それともお転婆タイプ?')
INSERT INTO serp VALUES('テスト', 'https://www.youtube.com/watch?v=j6K9nIugzAY', 'India vs England 2nd Test Day 4 Highlights 2021| Royal Sports Tv')
INSERT INTO serp VALUES('テスト', 'https://www.youtube.com/watch?v=9HtbSe_oJto', 'このテストを受けて、あなたの注意力をチェックしてください')
INSERT INTO serp VALUES('テスト', 'https://www.youtube.com/watch?v=V-kqty2vAm4', 'テスト! 誰かが密かにあなたに恋をしています! 誰か突き止めよう!')
...
結果のJSONダンプ
結果の処理
A-Parserでは、スクレイピング中に直接結果を処理できます。このセクションでは、YouTubeスクレイパーで最も一般的なケースを紹介します。
リンクの重複排除
ドメインによるリンクの重複排除
ドメインの抽出
動画タイトルと説明からのタグ削除
Result Builders (結果コンストラクター)を追加し、ドロップダウンリストからソース:$p1.serp.$i.title - Title を選択します。タイプ:Remove HTML tags を選択します。
再度 Result Builders (結果コンストラクター)を追加し、ドロップダウンリストからソース:$p1.serp.$i.desc - Description を選択します。タイプ:Remove HTML tags を選択します。
例をダウンロード
eJyVVMtu2zAQ/BWBMJAGUI3k0ItujlsjLZw4tZ1D4fjASCuBDUWyJOXGEPTv3aVo
y07TQ2/kPmb2MWTLPHcv7sGCA+9YtmmZCWeWsdWXLPuhm3XzDMkSar2D5HZ9N088
r1xSWl0na+EluISrIvkMLrfCeKGVYykz3DqwBLg5xUFPASVvpGdpy/zeAPIgsLWi
IKco8G54BbluFMawHZcNxlx3/w4vta25x6ID6iGDjZDfjHvnh4uRp1KTj8mowEKf
ntTFJeu225T1eW4W4ijNXI/jBI7OFd/BWhOVkDCYZ3i753UgK7gH8h4IL8f+lRB4
UQiaCZc9A01kYH1U4lcoVmmMxaMV4GY4WTR5CABk3B+q27BRuDOEaELu9z6HZSWX
DlLmsNQZx0KKtx7hwXKv7SLuKGuZVhMp57ADOYQF/JtGyALXNykx6WtMfD9k8RdG
d2zvlAqX9ttiDUeUcLtZ3A1ZhZ7rCjsvnrFvKWrh8e6mQQkZu0LjC4A5zuyeZlZr
C0eaiBzZUdMGFClkWNnEDKazNs7WcmJsmdONzZFvc5VuGGkKU4OYGMknatKG53Hr
a0k7t5bv0XgIJuX0GaTi9/BIk/8FFxI6TMi1KkW1iE/i0Eaj1viqF2qqayOBhq4a
KVEzDpaDdicuaoQuw/TeJk8DRSCNLxdr0NJ9W/VzNFZgSZ/SWPUpa4TMuZSPy/mp
hw16D1p3BJvjI6o0ypvmHvSfsUrrKjw6eDX4zwAuz9sGui11H3+Z4+/Vnv01Wduh
qn66hz6KuqQYtOG4HEqG/pU/xum9JQ==
結果コンストラクターは必要な数だけ追加できます。
参照:結果コンストラクター
含有によるリンクのフィルタリング
設定可能な項目
| パラメータ名 | デフォルト値 | 説明 |
|---|---|---|
| Device | Desktop | 検索結果タイプの選択 (Desktop/Mobile) |
| Pages count | 10 | スクレイピングするページ数 (1〜50) |
| Search from country | Auto (Based on IP) | 検索を実行する国の選択 |
| Interface language | English | インターフェース言語の選択 |
| Restricted mode | ☐ | 検索の「セーフモード」の有効/無効 |
| Uploaded time | All time | 投稿日による検索 |
| Result type | Video | 結果タイプの選択 |
| Duration | All | 動画の長さの選択 |
| Features | All | 詳細な検索パラメータ設定 |
| Sort by | Relevancy | 結果の並べ替え |
| Advanced filters (param sp=) | 複雑なフィルタの組み合わせを指定できます。ブラウザのURLにあるパラメータ sp の値を取得してこのフィールドに入力します。この値はスクレイパー設定で指定されたフィルタよりも優先されます。 |