SE::AOL - search.aol.com 検索結果スクレイパー

AOLスクレイパーの概要
AOLスクレイパーは、AOL検索結果のスクレイパーです。AOLスクレイパーを使用することで、その後の利用に最適な膨大なリンクベースを取得できます。AOLの検索バーに入力するのと同様の形式でクエリを使用でき、検索演算子(contains, intitle, language, siteなど)もサポートしています。詳細は公式ページのAOL Search FAQsをご確認ください。
A-Parserの機能により、AOLスクレイパーのスクレイピング設定を保存して再利用(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。自動クエリ増殖、ファイルからのサブクエリの挿入、英数字の組み合わせやリストの総当たりを使用して、最大限の検索結果を取得できます。
内蔵された強力なテンプレートエンジンTemplate Toolkitにより、結果に独自のロジックを適用し、JSON、SQL、CSVなどの様々な形式で、必要な構造のままデータを保存できます。
収集データ
- クエリごとの結果件数
- 検索結果のリンク、アンカーテキスト、スニペット

機能
AOL検索エンジン用スクレイパーは、以下の機能と設定を備えています:
- すべてのAOL検索演算子(site:, prefer:, url:, feed:など)をサポート。詳細は公式ページのAOL Search FAQsを参照。
- AOLが提供する最大結果数(100ページ、各ページ20項目)をスクレイピング可能。
- 検索期間の指定をサポート(Anytime, Day, Week, Month)。
ユースケース
- A-Poster、XRumer、AllSubmitterなどのためのリンクベースの収集
- キーワードの競合調査
- アメリカのGoogle検索結果のスクレイピング
- サイトのバックリンク(言及)の検索
- サイトのインデックス状況の確認
- 脆弱性のあるサイトの検索
- その他、AOLのスクレイピングを伴うあらゆる用途
クエリ
クエリには、AOLの検索フォームに直接入力する場合と同じ検索フレーズを指定してください。例:
テスト
buy house
site:www.realtor.com
feed:football
a-parser loc:ca
クエリの置換
クエリを増殖させるために内蔵マクロを使用できます。例えば、非常に大規模なフォーラムのデータベースを取得したい場合、複数の言語で主要なクエリを指定します:
forum
フォーラム
foro
论坛
クエリ形式でaからzzzzまでの文字の総当たりを指定すると、検索結果を最大限にローテーションさせ、多くの新しいユニークな結果を得ることができます:
$query {az:a:zzzz}
このマクロは、元の検索クエリ1つにつき475254個の追加クエリを生成します。合計で4 x 475254 = 1901016個の検索クエリになりますが、これはA-Parserにとって全く問題ありません。毎分2000クエリの速度であれば、このタスクは約16時間で完了します。
演算子の使用
クエリ形式に検索演算子を使用することで、リスト内の各クエリに自動的に演算子を付与できます:
site:$query
結果の出力例
A-Parserは、内蔵のテンプレートエンジンTemplate Toolkitにより、柔軟な結果フォーマットをサポートしています。これにより、任意の形式や、CSV、JSONなどの構造化された形式で結果を出力できます。
リンク一覧のエクスポート
リンク + アンカー + スニペット(順位付き)
リンク、アンカー、スニペットをCSVテーブルに出力
関連キーワードの保存
キーワードの競合数
リンクのインデックス確認
SQL形式での保存
結果をJSONにダンプ
結果の処理
A-Parserではスクレイピング中に直接結果を処理できます。このセクションでは、AOLスクレイパーで最も一般的なケースを紹介します。
リンクの重複排除
ドメインごとのリンク重複排除
ドメインの抽出
アンカーとスニペットからのタグ削除
含有条件によるリンクのフィルタリング
設定可能な項目
| パラメータ名 | デフォルト値 | 説明 |
|---|---|---|
| Pages count | 5 | スクレイピングするページ数 (1から100まで) |
| Period | Anytime | 検索期間 (Anytime, Day, Week, Month) |
| AOL domain | search.aol.com | 検索対象国の選択 (search.aol.com, search.aol.co.uk, recherche.aol.fr, suche.aol.de) |