SE::Bing - Bing検索結果スクレイパー

スクレイパーの概要
Bing検索結果のスクレイパーです。SE::Bingスクレイパーを使用することで、さらなる活用が可能な膨大なリンクベースを取得できます。検索演算子(contains, intitle, language, siteなど)を含む、Bingの検索バーに入力するのと同様の形式でクエリを使用できます。詳細は公式ページのAdvanced search keywordsを確認してください。
A-Parserの機能により、Bingスクレイパーのスクレイピング設定を将来の使用のために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。自動クエリ増殖、ファイルからのサブクエリ置換、英数字の組み合わせやリストの総当たりを使用して、可能な限り多くの結果を取得できます。
内蔵された強力なテンプレートエンジンTemplate Toolkitにより、結果に独自のロジックを適用し、JSON, SQL, CSVを含む様々な形式でデータを保存・出力することが可能です。
スクレイパーのユースケース
🔗 Bing検索結果のスクレイピング
クエリの自動増殖によるBingのスクレイピング (Parse all results)
🔗 トップ10とタグ内容のスクレイピング
マルチレベルスクレイピング。トップ10を抽出し、それらのサイトのtitleおよびdescriptionタグの内容をスクレイピングします
🔗 Bingスクレイパーに基づいたJSスクレイパー
JSスクレイパーの作成。標準スクレイパーからの結果取得
🔗 Bingの全結果のスクレイピング
テンプレートエンジンTemplate Toolkitとtools.query.addを介した、インテリジェントなクエリ置換によるスクレイピング
🔗 Bingでの重複排除
キーワードによる一意のURLのスクレイピングとドメインによる重複排除。1ドメインあたりの最大URL数を指定可能
🔗 プリセット内の複数のスクレイパー
プリセットで複数のスクレイパーを使用する例を示します
収集データ
- クエリごとの結果数
- 検索結果のリンク、アンカー、スニペット
- 関連キーワードのリスト (Related keywords)
- 広告枠のリンク、表示リンク、アンカー、スニペット、広告掲載順位

機能
- すべてのBing検索演算子(site:, ip: など)をサポート。詳細は公式ページのAdvanced search keywordsを参照。
- Bingが提供する最大結果数(最大200ページ)までスクレイピング可能
- 1クエリあたり1000件以上の結果を自動的にスクレイピング可能 - 追加の文字を補完(Parse all resultsオプション)
- 関連キーワードによる深掘りスクレイピングが可能 (Parse related to level)
- 関連キーワードの検索機能
- キャッシュされたページへのリンクのスクレイピング機能
- モバイル検索結果のスクレイピング機能
- モバイルレイアウトでのスクロール時のデータ読み込みをサポート
Bingスクレイパーをベースに以下のスクレイパーが動作します:
SE::Bing::Position - クエリリストに基づいた検索結果内での任意サイトの順位計測
利用シーン
- A-Poster, XRumer, AllSubmitterなどのためのリンクベース収集
- キーワードの競合調査
- バックリンク(言及)の検索
- サイトのインデックス状況確認
- 脆弱性のあるサイトの検索
- 同一IPアドレス上のサイト検索
- その他、Bingのスクレイピングを伴うあらゆる用途
クエリ
クエリには、Bingの検索フォームに直接入力するのと同様の検索フレーズを指定してください。例:
test
窓 モスクワ
site:http://lenta.ru
ip:222.36.12.12
クエリの置換
クエリを増殖させるために内蔵マクロを使用できます。例えば、膨大なフォーラムのリストを取得したい場合、複数の言語で基本クエリを指定します:
forum
フォーラム
foro
论坛
クエリ形式でaからzzzzまでの文字の総当たりを指定すると、検索結果を最大限にローテーションさせ、多くの新しいユニークな結果を得ることができます:
$query {az:a:zzzz}
このマクロは各元の検索クエリに対して475254個の追加クエリを生成し、合計で4 x 475254 = 1901016個の検索クエリになります。これは膨大な数字ですが、A-Parserにとっては全く問題ありません。分間2000クエリの速度であれば、このタスクは約16時間で完了します。
演算子の使用
クエリ形式で検索演算子を使用できます。これにより、リスト内の各クエリに自動的に演算子が追加されます:
site:$query
結果の出力例
A-Parserは内蔵のテンプレートエンジンTemplate Toolkitにより柔軟な結果フォーマットをサポートしており、任意の形式やCSV、JSONなどの構造化データとして出力できます。
リンク一覧のエクスポート
リンク + アンカー + スニペット(順位付き)
リンク、アンカー、スニペットをCSVテーブルに出力
関連キーワードの保存
キーワードの競合数
リンクのインデックス確認
SQL形式での保存
結果をJSONにダンプ
結果の処理
A-Parserではスクレイピング中に直接結果を処理できます。このセクションでは、Bingスクレイパーで最も一般的なケースを紹介します。
リンクの重複排除
ドメインによるリンクの重複排除
ドメインの抽出
アンカーとスニペットからのタグ削除
含有条件によるリンクのフィルタリング
設定可能な項目
| パラメータ名 | デフォルト値 | 説明 |
|---|---|---|
| Pages count | 10 | スクレイピングするページ数 (1〜200) |
| Region | Based on IP | リージョンの選択。リージョン一覧。 |
| Interface language | Any | インターフェース言語の選択。言語一覧。 |
| Safe Search | Moderate | セーフサーチオプションの選択 (Strict / Moderate / Off) |
| Device | Desktop | 検索デバイスの選択 (Desktop / Mobile) |
| Show inaccessible results | ☐ | 非表示の結果を表示できるようにします |
| Stop pagination by results count | 0 | 指定した結果数に達したときにページネーションを停止します。Pages countと併用され、指定したページ数または結果数のいずれかに先に達した時点でスクレイピングが停止します。 |
| Handle captcha max pages | 10 | キャプチャを正常に通過するために必要なCookieを生成する、同時に開くページの最大数。キャプチャ回避段階での並列性を制限します。 |