SE::Yahoo - Yahoo検索結果スクレイパー

スクレイパーの概要
Yahoo検索結果のスクレイパーです。Yahooスクレイパーを使用することで、その後の利用に最適な大量のリンクベースを取得できます。検索演算子(site, ipなど)を含む、Yahooの検索バーに入力するのと同様の形式でクエリを使用できます。
A-Parserの機能により、Yahooスクレイパーのスクレイピング設定を将来の利用のために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。自動クエリ増殖、ファイルからのサブクエリの置換、英数字の組み合わせやリストの総当たりを使用して、可能な限り多くの結果を取得できます。
組み込みの強力なテンプレートエンジン Template Toolkit により、結果に必要なロジックを適用し、JSON, SQL, CSVを含む様々な形式でデータを出力するなど、必要な形式と構造で結果を保存できます。
収集データ
- 検索結果のリンク、アンカー、スニペット
- 関連キーワードのリスト (Related keywords)
- 広告枠の検索結果

機能
- すべてのYahoo検索演算子(site:, ip: など)をサポート
- Yahooが提供する最大結果数(検索結果50ページ、各100件)をスクレイピング
- クエリごとに1000件以上の結果を自動的にスクレイピング可能 - 追加の文字を補完(オプション Parse all results)
- 関連キーワードによる深掘りスクレイピングが可能 (Parse related to level)
- 関連キーワードの検索機能
- 検索期間の指定をサポート
ユースケース
- A-Poster, XRumer, AllSubmitterなどのためのリンクベースの収集
- キーワードの競合調査
- サイトのバックリンク(言及)の検索
- サイトのインデックス状況の確認
- 同一IPアドレス上のサイト検索
- 脆弱性のあるサイトの検索
- その他、Yahooのスクレイピングを伴うあらゆる用途
クエリ
クエリには、Yahooの検索フォームに直接入力する場合と同じように、検索フレーズを指定する必要があります。例:
test
窓 東京
site:http://lenta.ru
ip:222.36.12.12
クエリの置換
クエリを増殖させるために組み込みマクロを使用できます。例えば、非常に大規模なフォーラムのデータベースを取得したい場合、複数の言語でいくつかのメインクエリを指定します:
forum
フォーラム
foro
论坛
クエリ形式で a から zzzz までの文字の総当たりを指定します。この手法により、検索結果を最大限にローテーションさせ、多くの新しいユニークな結果を得ることができます:
$query {az:a:zzzz}
このマクロは、元の各検索クエリに対して 475254 個の追加クエリを生成し、合計で 4 x 475254 = 1901016 個の検索クエリになります。驚くべき数字ですが、A-Parserにとっては全く問題ありません。毎分 2000 クエリの速度であれば、このタスクは約 16 時間で完了します。
演算子の使用
クエリ形式で検索演算子を使用できます。これにより、リスト内の各クエリに自動的に演算子が追加されます:
site:$query
結果の出力例
A-Parserは、組み込みのテンプレートエンジン Template Toolkit により柔軟な結果のフォーマットをサポートしており、任意の形式や、CSV、JSONなどの構造化された形式で結果を出力できます。
リンク一覧のエクスポート
リンク + アンカー + スニペット(順位付き)
リンク、アンカー、スニペットをCSVテーブルに出力
関連キーワードの保存
キーワードの競合数
リンクのインデックス確認
SQL形式での保存
結果をJSONにダンプ
結果の処理
A-Parserではスクレイピング中に直接結果を処理できます。このセクションでは、Yahooスクレイパーで最も一般的なケースを紹介します。
リンクの重複排除
ドメインごとのリンク重複排除
ドメインの抽出
アンカーとスニペットからのタグ削除
含有によるリンクのフィルタリング
設定可能な項目
| パラメータ名 | デフォルト値 | 説明 |
|---|---|---|
| Pages count | 5 | スクレイピングするページ数 (1から50まで) |
| Serp time | All time | 検索期間 (時間指定検索、"tbs=" パラメータ: All time / Past 24 hours / Past week / Past month) |
| Safe Search | Moderate | セーフサーチオプションの選択 (Off / Moderate / Strict) |
| Yahoo domain | United States (English) | Yahooドメインの選択 |
| Yahoo language | Any | Yahooの言語選択、検索言語を選択できます |
| Yahoo country | Any | 国の選択、検索対象となる国を選択できます |
| Not found is error | ☐ | 結果がない場合にエラーと見なすかどうか |