メインコンテンツへスキップ

SE::Ask - Ask.com経由のGoogle米国検索結果スクレイパー

img

スクレイパーの概要

Ask検索結果のスクレイパーです。Askスクレイパーを使用することで、その後の利用に最適な大規模なリンクベースを取得できます。検索クエリは、検索演算子 (site, inurl など) を含め、Askの検索バーに入力するのと同様の形式で使用できます。

A-Parserの機能により、Askスクレイパーのスクレイピング設定を保存して再利用したり (プリセット)、スクレイピングのスケジュールを設定したりすることが可能です。自動クエリ増殖、ファイルからのサブクエリ置換、英数字の組み合わせやリストの総当たりなどを利用して、最大限の検索結果を取得できます。

内蔵された強力なテンプレートエンジン Template Toolkit により、結果に必要なロジックを適用し、JSON, SQL, CSV を含む様々な形式でデータを保存・出力できます。

収集データ

  • 検索結果のリンク、アンカー、スニペット
  • 関連キーワード
収集データ

機能

  • 最大提供結果数である 10ページ までスクレイピング可能
  • 米国の Ask.com 検索結果を最大 100件 まで取得
  • 関連キーワード の収集機能

ユースケース

  • A-Poster, XRumer, AllSubmitter などのためのリンクベース収集
  • キーワードの競合調査
  • サイトのバックリンク(言及)の検索
  • サイトのインデックス状況の確認
  • 脆弱性のあるサイトの検索
  • その他、Ask.comのスクレイピングを必要とするあらゆる用途

クエリ

クエリには、Ask.comの検索フォームに直接入力する場合と同じ検索フレーズを指定します。例:

test
窓 東京

クエリの置換

内蔵マクロを使用してクエリを増殖させることができます。例えば、大規模なフォーラムのリストを取得したい場合、複数の言語で主要なクエリを指定します:

forum
フォーラム
foro
论坛

クエリ形式で a から zzzz までの文字の総当たりを指定すると、検索結果を最大限にローテーションさせ、多くの新しいユニークな結果を得ることができます:

$query {az:a:zzzz}

このマクロは、元の検索クエリ1つにつき 475254 個の追加クエリを生成します。合計で 4 x 475254 = 1901016 個の検索クエリになりますが、これは A-Parser にとって全く問題ありません。毎分 2000 クエリの速度であれば、このタスクは約 16 時間で完了します。

演算子の使用

クエリ形式で検索演算子を使用できます。これにより、リスト内の各クエリに自動的に演算子が追加されます:

site:$query

結果の出力例

A-Parserは内蔵のテンプレートエンジン Template Toolkit により、柔軟な結果フォーマットをサポートしています。これにより、任意の形式や、CSV、JSONなどの構造化された形式で結果を出力できます。

リンクのみの出力

SE::Googleと同様です。

SE::Googleと同様です。

SE::Googleと同様です。

SE::Googleと同様です。

SQL形式での保存

SE::Googleと同様です。

JSONへの結果ダンプ

SE::Googleと同様です。

結果の処理

A-Parserではスクレイピング中に直接結果を処理できます。このセクションでは、Askスクレイパーで最も一般的なケースを紹介します。

SE::Googleと同様です。

SE::Googleと同様です。

ドメインの抽出

SE::Googleと同様です。

アンカーとスニペットからのタグ削除

SE::Googleと同様です。

SE::Googleと同様です。

設定

パラメータ名デフォルト値説明
Pages count5スクレイピングするページ数 (1から10まで)
Use http2http2を使用する