メインコンテンツへスキップ

SE::YouTube - 本格的なYouTubeスクレイパー

YouTube

スクレイパー概要

YouTube検索結果のスクレイパー。YouTubeスクレイパーを使用することで、その後の利用に最適な動画リンクの膨大なデータベースを取得できます。YouTubeの検索窓に入力するのと同様の形式でクエリを使用可能です。YouTubeスクレイパーを利用すれば、マルチスレッドモードで動画の基本データを収集できます。各動画の詳細データを取得するには、SE::YouTube::VideoSE::YouTube::Videoを使用できます。

A-Parserの機能により、YouTubeスクレイパーのスクレイピング設定を後で利用するために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。自動クエリ増殖、ファイルからのサブクエリ置換、英数字の組み合わせやリストの総当たりを使用して、最大限の結果を取得できます。

内蔵された強力なテンプレートエンジン Template Toolkit により、結果に必要なロジックを適用し、JSON、SQL、CSVを含む様々な形式でデータを出力するなど、必要な形式と構造で結果を保存できます。

収集データ

データは http://www.youtube.com/ から収集されます。

  • メイン検索結果
    • 動画リンク
    • 動画タイトル (title)
    • 動画の説明
    • ユーザー名
    • プレビュー画像のリンク
    • 視聴回数
    • 動画の長さ
    • 動画投稿日
    • チャンネル登録者数
    • AIによる要約 (summary) ※利用可能な場合
収集データ
  • 「関連キーワード」配列
    • キーワード
    • プレビューリンク

機能

  • YouTubeでの最大スクレイピングページ数 - 50ページ
  • 検索を実行する国の選択
  • 投稿日による検索
  • 結果タイプの選択(動画、チャンネル、プレイリスト)
  • 動画の長さの選択
  • 詳細な検索パラメータ設定(字幕、3D、HD、ライブ配信、クリエイティブ・コモンズ・ライセンス)
  • 関連度、投稿日、評価、視聴回数によるSort (並べ替え)
  • 追加で動画のプレビューリンクをスクレイピング
  • インターフェース言語の選択が可能
  • セーフモード検索の有効化が可能

ユースケース

  • YouTubeにおける情報の検索、収集、分析

クエリ

クエリとして検索フレーズを指定する必要があります。例:

Football   
ナイアガラの滝
Speak in english
Cats and dogs
自動車

クエリ置換

クエリを増殖させるために内蔵マクロを使用できます。例えば、非常に大規模なフォーラムのデータベースを取得したい場合、複数の言語でいくつかのメインクエリを指定します:

forum
フォーラム
foro

クエリ形式で a から zzzz までの文字の総当たりを指定します。このメソッドにより、検索結果を最大限にローテーションさせ、多くの新しいユニークな結果を得ることができます:

$query {az:a:zzzz}

このマクロは、元の検索クエリごとに 475254 個の追加クエリを作成し、合計で 4 x 475254 = 1901016 個の検索クエリになります。これは印象的な数字ですが、A-Parserにとっては全く問題ありません。毎分 2000 クエリの速度であれば、このタスクは約 16 時間で処理されます。

結果の出力例

A-Parserは内蔵のテンプレートエンジン Template Toolkit により柔軟な結果フォーマットをサポートしており、任意の形式や、CSVやJSONなどの構造化された形式で結果を出力できます。

リンク一覧のエクスポート

SE::Googleと同様です。

結果フォーマット:

[% FOREACH item IN p1.serp;    loop.count _ ' - ' _ item.link _ ' - ' _ item.title _ ' - ' _ item.desc _ "\n"; END %]

結果の例:

1 - https://www.youtube.com/watch?v=dm_T7H6J2U8 - あなたはどれくらい賢い? 多くの大人が合格できない簡単なテスト - この動画では、あなたがどれほど賢いかを確認できます。学校の簡単な問題で構成された<b>テスト</b>があなたを待っています...
2 - https://www.youtube.com/watch?v=iDAYNEV9Kxg - 脳の老化に関するユニークな日本のテスト! ぜひ自分をチェックしてみて! - 脳の老化に関するユニークな日本の<b>テスト</b>! ぜひ自分をチェックしてみて! この<b>テスト</b>は日本で開発されました。どのように...
3 - https://www.youtube.com/watch?v=0PEy2_sSy6A - この簡単なテストがあなたの最も深い恐怖を明らかにします - 私たちの潜在意識はかなり暗い場所であり、それを理解するには長年の精神分析が必要です。そしてこの...
4 - https://www.youtube.com/watch?v=j6K9nIugzAY - India vs England 2nd Test Day 4 Highlights 2021| Royal Sports Tv - India vs England 2nd <b>Test</b> Day 4 Highlights 2021 India vs England 2nd <b>Test</b> Day 4 Highlights 2021 | ind vs eng <b>test</b> series India vs ...
5 - https://www.youtube.com/watch?v=ALDqwSMVYKQ - メンタルテスト/ 929秒の笑い/ 2021年2月のベストおもしろ動画 爆笑/ 笑ったら負け! BEST COUB - Telegramチャンネル: https://t.me/CrazyHumor129k チャンネルでは、最高の動画による929秒の極上の笑いをお届けします...
6 - https://www.youtube.com/watch?v=6X1puBtvc_s - ドラマ「妊娠テスト」第1話 - ロシアのドラマ 2015 HD - ドラマプレミア - <b>テスト</b> 妊娠 第1話 - ロシアのドラマ 2015 患者の死後、産婦人科医のナタリアは...
7 - https://www.youtube.com/watch?v=hXuhVD7Dwp0 - テスト! あなたについての意外な真実を明らかにする錯視! - <b>テスト</b>! あなたについての意外な真実を明らかにする錯視! さまざまなタイプが存在します...
8 - https://www.youtube.com/watch?v=BYA8lY4o33A - テスト! あなたの守護動物は何? あなたの魂に隠れている猛獣は? 正確な性格テスト - <b>テスト</b>! あなたはどの神聖な動物? あなたの魂に隠れている猛獣は? 性格に関する正確な<b>テスト</b> そのために...
9 - https://www.youtube.com/watch?v=V-kqty2vAm4 - テスト! 誰かが密かにあなたに恋をしています! 誰か突き止めよう! - <b>テスト</b>! 誰かが密かにあなたに恋をしています! 誰か突き止めよう! あなたはしばしば孤独を感じ、本当の出会いを夢見ています...
10 - https://www.youtube.com/watch?v=9HtbSe_oJto - このテストを受けて、あなたの注意力をチェックしてください - この動画では、あなたの注意力がどれほど発達しているかを確認します。いくつかのレベルの異なるタイプの課題があなたを待っています...
...

内蔵ツールの tools.CSVLine を使用すると、ExcelやGoogleスプレッドシートにインポート可能な正しい形式のテーブルドキュメントを作成できます。

結果の全体フォーマット:

[%  FOREACH i IN p1.serp;    tools.CSVline(i.link, i.title, i.desc); END  %]

ファイル名:

$datefile.format().csv

開始テキスト:

リンク,アンカー,スニペット

ヒント

結果の全体フォーマットでは、FOREACH ループで $serp 配列を出力するために Template Toolkit テンプレートエンジンが使用されます。

結果のファイル名では、ファイルの拡張子を csv に変更するだけです。

タスクエディタで「Prepend text」オプションを表示するには、「More options」を有効にする必要があります。 「Prepend text」には、カンマ区切りで列名を記入し、2行目を空行にします。

キーワードの競合

SE::Googleと同様です。

SQL形式での保存

結果フォーマット:

[%  FOREACH serp;   "INSERT INTO serp VALUES('" _ query _ "', '";   link _ "', '";  title _ "')\n"; END  %]

結果の例:

INSERT INTO serp VALUES('テスト', 'https://www.youtube.com/watch?v=dm_T7H6J2U8', 'あなたはどれくらい賢い? 多くの大人が合格できない簡単なテスト')
INSERT INTO serp VALUES('テスト', 'https://www.youtube.com/watch?v=iDAYNEV9Kxg', '脳の老化に関するユニークな日本のテスト! ぜひ自分をチェックしてみて!')
INSERT INTO serp VALUES('テスト', 'https://www.youtube.com/watch?v=0PEy2_sSy6A', 'この簡単なテストがあなたの最も深い恐怖を明らかにします')
INSERT INTO serp VALUES('テスト', 'https://www.youtube.com/watch?v=BYA8lY4o33A', 'テスト! あなたの守護動物は何? あなたの魂に隠れている猛獣は? 正確な性格テスト')
INSERT INTO serp VALUES('テスト', 'https://www.youtube.com/watch?v=5Se6w0lOkyY', '新型ルノー Duster.Test-draiv Anton Avtoman.')
INSERT INTO serp VALUES('テスト', 'https://www.youtube.com/watch?v=Ko8cFdoOV6U', 'テスト! あなたはどんな女の子? お嬢様タイプ、それともお転婆タイプ?')
INSERT INTO serp VALUES('テスト', 'https://www.youtube.com/watch?v=j6K9nIugzAY', 'India vs England 2nd Test Day 4 Highlights 2021| Royal Sports Tv')
INSERT INTO serp VALUES('テスト', 'https://www.youtube.com/watch?v=9HtbSe_oJto', 'このテストを受けて、あなたの注意力をチェックしてください')
INSERT INTO serp VALUES('テスト', 'https://www.youtube.com/watch?v=V-kqty2vAm4', 'テスト! 誰かが密かにあなたに恋をしています! 誰か突き止めよう!')
...

結果のJSONダンプ

SE::Googleと同様です。

結果の処理

A-Parserでは、スクレイピング中に直接結果を処理できます。このセクションでは、YouTubeスクレイパーで最も一般的なケースを紹介します。

SE::Googleと同様です。

SE::Googleと同様です。

ドメインの抽出

SE::Googleと同様です。

動画タイトルと説明からのタグ削除

Result Builders (結果コンストラクター)を追加し、ドロップダウンリストからソース:$p1.serp.$i.title - Title を選択します。タイプ:Remove HTML tags を選択します。

再度 Result Builders (結果コンストラクター)を追加し、ドロップダウンリストからソース:$p1.serp.$i.desc - Description を選択します。タイプ:Remove HTML tags を選択します。

例をダウンロード

A-Parserへのプリセットインポート方法

eJyVVMtu2zAQ/BWBMJAGUI3k0ItujlsjLZw4tZ1D4fjASCuBDUWyJOXGEPTv3aVo
y07TQ2/kPmb2MWTLPHcv7sGCA+9YtmmZCWeWsdWXLPuhm3XzDMkSar2D5HZ9N088
r1xSWl0na+EluISrIvkMLrfCeKGVYykz3DqwBLg5xUFPASVvpGdpy/zeAPIgsLWi
IKco8G54BbluFMawHZcNxlx3/w4vta25x6ID6iGDjZDfjHvnh4uRp1KTj8mowEKf
ntTFJeu225T1eW4W4ijNXI/jBI7OFd/BWhOVkDCYZ3i753UgK7gH8h4IL8f+lRB4
UQiaCZc9A01kYH1U4lcoVmmMxaMV4GY4WTR5CABk3B+q27BRuDOEaELu9z6HZSWX
DlLmsNQZx0KKtx7hwXKv7SLuKGuZVhMp57ADOYQF/JtGyALXNykx6WtMfD9k8RdG
d2zvlAqX9ttiDUeUcLtZ3A1ZhZ7rCjsvnrFvKWrh8e6mQQkZu0LjC4A5zuyeZlZr
C0eaiBzZUdMGFClkWNnEDKazNs7WcmJsmdONzZFvc5VuGGkKU4OYGMknatKG53Hr
a0k7t5bv0XgIJuX0GaTi9/BIk/8FFxI6TMi1KkW1iE/i0Eaj1viqF2qqayOBhq4a
KVEzDpaDdicuaoQuw/TeJk8DRSCNLxdr0NJ9W/VzNFZgSZ/SWPUpa4TMuZSPy/mp
hw16D1p3BJvjI6o0ypvmHvSfsUrrKjw6eDX4zwAuz9sGui11H3+Z4+/Vnv01Wduh
qn66hz6KuqQYtOG4HEqG/pU/xum9JQ==
ヒント

結果コンストラクターは必要な数だけ追加できます。

参照:結果コンストラクター

SE::Googleと同様です。

設定可能な項目

パラメータ名デフォルト値説明
DeviceDesktop検索結果タイプの選択 (Desktop/Mobile)
Pages count10スクレイピングするページ数 (1〜50)
Search from countryAuto (Based on IP)検索を実行する国の選択
Interface languageEnglishインターフェース言語の選択
Restricted mode検索の「セーフモード」の有効/無効
Uploaded timeAll time投稿日による検索
Result typeVideo結果タイプの選択
DurationAll動画の長さの選択
FeaturesAll詳細な検索パラメータ設定
Sort byRelevancy結果の並べ替え
Advanced filters (param sp=)複雑なフィルタの組み合わせを指定できます。ブラウザのURLにあるパラメータ sp の値を取得してこのフィールドに入力します。この値はスクレイパー設定で指定されたフィルタよりも優先されます。