SE::Baidu - Baidu検索結果スクレイパー

スクレイパーの概要
Baidu検索結果のスクレイパーです。Baiduスクレイパーを使用することで、その後の利用に最適な膨大なリンクベースを取得できます。Bingの検索バーに入力するのと同様の形式で、検索演算子 (filetype, site, intitle) を含めたクエリを使用できます。
A-Parserの機能により、Baiduスクレイパーのスクレイピング設定を後で利用するために保存 (プリセット) したり、スクレイピングのスケジュールを設定したりすることが可能です。クエリの自動増殖、ファイルからのサブクエリの挿入、英数字の組み合わせやリストの総当たりを使用して、最大限の結果を取得できます。
Baiduスクレイパーでは、内蔵された強力なテンプレートエンジン Template Toolkit により、必要な形式と構造で結果を保存できます。これにより、結果に追加のロジックを適用したり、JSON, SQL, CSV を含む様々なフォーマットでデータを出力したりできます。
スクレイパーの使用例
🔗 Baiduの完全なリンクのスクレイピング
このリソースでは、完全なリンクをスクレイピングする方法を示します
🔗 Baiduサジェスト
Baiduサジェストのマルチレベルスクレイピング
🔗 JSスクレイパー JS::SE::Baidu::Suggest
JSスクレイパーの作成。Baiduサジェストの取得
収集されるデータ
- リンク
- スニペット
- アンカー
- 総結果数
- 関連キーワードリスト
- 検索結果のページ数

機能
- 1クエリにつき最大 5000 件の結果をスクレイピング
- すべての Baidu検索演算子 (filetype:, site:, intitle:) をサポート
- クエリに基づいた検索結果と 関連キーワード を収集
- 短縮リンクをフルリンクに変換 (オプション Get full links)
ユースケース
- A-Poster, XRumer, AllSubmitter 等のためのリンクベースの収集
- キーワードの競合調査
- サイトのインデックス状況の確認
- ページタイトルに指定したキーワードを含むページの収集
クエリ
クエリとして検索フレーズを指定する必要があります。例:
test
site:www.baidu.com
百度产品大全
intitle:スクレイパー
クエリの置換
クエリを増殖させるために 内蔵マクロ を使用できます。例えば、非常に大きなフォーラムのベースを取得したい場合、複数の言語で主要なクエリを指定します:
forum
フォーラム
foro
论坛
クエリ形式で a から zzzz までの文字の総当たりを指定します。この手法により、検索結果を最大限にローテーションさせ、多くの新しいユニークな結果を得ることができます:
$query {az:a:zzzz}
このマクロは、元の検索クエリごとに 475254 個の追加クエリを生成します。合計で 4 x 475254 = 1901016 個の検索クエリになりますが、これは A-Parser にとって全く問題ありません。分間 2000 クエリの速度であれば、このタスクは約 16 時間で完了します。
演算子の使用
クエリ形式で検索演算子を使用できます。これにより、リスト内の各クエリに自動的に演算子が追加されます:
site:$query
結果の出力例
A-Parserは内蔵のテンプレートエンジン Template Toolkit により柔軟な結果フォーマットをサポートしており、任意の形式や CSV、JSON などの構造化された形式で結果を出力できます。
リンク一覧のエクスポート
リンク + アンカー + スニペット(順位付き)
リンク、アンカー、スニペットを CSV テーブルに出力
関連キーワードの保存
キーワードの競合数
リンクのインデックス確認
SQL 形式での保存
JSON への結果ダンプ
結果の処理
A-Parserではスクレイピング中に直接結果を処理できます。このセクションでは、Baiduスクレイパーで最も一般的なケースを紹介します。
リンクの重複排除
ドメインごとのリンク重複排除
ドメインの抽出
アンカーとスニペットからのタグ削除
含有条件によるリンクのフィルタリング
設定可能な項目
| パラメータ名 | デフォルト値 | 説明 |
|---|---|---|
| Pages count | 5 | スクレイピングするページ数 (1 から 100) |
| Links per page | 50 | 各ページの検索結果リンク数 (10 / 20 / 50) |
| Get full links | ☐ | 短縮リンクをフルリンクに変換 (デフォルトはオフ) |