メインコンテンツへスキップ

SE::Dogpile - Dogpile検索結果スクレイパー

img

スクレイパーの概要

Dogpile検索結果のスクレイパーです。SE::Dogpileスクレイパーを使用することで、その後の利用に最適な大量のリンクベースを取得できます。Dogpileの検索バーに入力するのと同様の形式で、検索演算子(url, language, siteなど)を含むクエリを使用できます。

A-Parserの機能により、Dogpileスクレイパーのスクレイピング設定を将来の利用のために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。自動クエリ増殖、ファイルからのサブクエリ置換、英数字の組み合わせやリストの総当たりを使用して、可能な限り多くの結果を取得できます。

組み込みの強力なテンプレートエンジン Template Toolkit により、結果に必要なロジックを適用し、JSON, SQL, CSVを含む様々な形式でデータを出力するなど、必要に応じた形式と構造で結果を保存できます。

収集データ

  • 検索結果のリンク、アンカー、スニペット
  • 関連キーワードのリスト (Related keywords)
収集データ

機能

  • Dogpileが提供する最大の結果数(検索結果50ページ、各10項目)をスクレイピング
  • 総結果数 - 500
  • 関連キーワードの検索機能

ユースケース

  • A-Poster, XRumer, AllSubmitterなどのためのリンクベースの収集
  • キーワードの競合調査
  • サイトのバックリンク(言及)の検索
  • サイトのインデックス状況の確認
  • 脆弱性のあるサイトの検索
  • その他、Dogpileのスクレイピングを伴うあらゆる用途

クエリ

クエリには、Dogpileの検索フォームに直接入力する場合と同じように、検索フレーズを指定する必要があります。例:

test
parser language: ru
site: a-parser.com
site: slideshare.net Java Developer gmail.com resume -sample -samples -example -templates

クエリの置換

クエリを増殖させるために組み込みマクロを使用できます。例えば、非常に大きなフォーラムのベースを取得したい場合、複数の言語でいくつかのメインクエリを指定します:

forum
フォーラム
foro
论坛

クエリ形式でaからzzzzまでの文字の総当たりを指定します。このメソッドにより、検索結果を最大限にローテーションさせ、多くの新しいユニークな結果を得ることができます:

$query {az:a:zzzz}

このマクロは、元の各検索クエリに対して 475254 個の追加クエリを作成し、合計で 4 x 475254 = 1901016 個の検索クエリになります。驚異的な数字ですが、A-Parserにとっては全く問題ありません。毎分 2000 クエリの速度であれば、このタスクはわずか 16 時間で処理されます。

演算子の使用

クエリ形式で検索演算子を使用できます。これにより、リスト内の各クエリに自動的に追加されます:

site:$query

結果の出力例

A-Parserは、組み込みのテンプレートエンジン Template Toolkit により柔軟な結果フォーマットをサポートしており、任意の形式や、CSVやJSONなどの構造化された形式で結果を出力できます。

リンクリストのエクスポート

SE::Googleと同様です。

SE::Googleと同様です。

SE::Googleと同様です。

SE::Googleと同様です。

リンクのインデックス確認

SE::Googleと同様です。

SQL形式での保存

SE::Googleと同様です。

結果をJSONにダンプ

SE::Googleと同様です。

結果の処理

A-Parserではスクレイピング中に直接結果を処理できます。このセクションでは、Dogpileスクレイパーで最も一般的なケースを紹介します。

SE::Googleと同様です。

SE::Googleと同様です。

ドメインの抽出

SE::Googleと同様です。

アンカーとスニペットからのタグ削除

SE::Googleと同様です。

SE::Googleと同様です。

設定可能な項目

パラメータ名デフォルト値説明
Pages count10スクレイピングするページ数 (1から50)
Bypass CloudFlare with ChromeCloudFlareチェックの自動回避
Bypass CloudFlare with Chrome Max Pages10Chrome経由でCFを回避する際の最大ページ数
Bypass CloudFlare with Chrome Headlessこのオプションが有効な場合、Chrome経由でCFを回避する際にブラウザが表示されません