メインコンテンツへスキップ

SE::DuckDuckGo - DuckDuckGo検索結果スクレイパー

DuckDuckGo

DuckDuckGoスクレイパーの概要

DuckDuckGo検索結果のスクレイパーです。DuckDuckGoスクレイパーを使用することで、その後の利用に最適な大量のリンクベースを取得できます。検索クエリには、検索演算子(intitle, inurl, siteなど)を含む、DuckDuckGoの検索バーに入力するのと同様の形式を使用できます。詳細は公式ページのDuckDuckGo Search Syntaxをご確認ください。

A-Parserの機能により、DuckDuckGoスクレイパーのスクレイピング設定を保存して再利用(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。自動クエリ増殖、ファイルからのサブクエリ置換、英数字の組み合わせやリストの総当たりを使用して、最大限の検索結果を取得できます。

内蔵された強力なテンプレートエンジンTemplate Toolkitにより、結果に独自のロジックを適用し、JSON, SQL, CSVを含む様々な形式で、必要な構造のままデータを保存できます。

収集データ

  • 検索結果のリンク、アンカーテキスト、スニペット
収集データ

機能

  • すべてのDuckDuckGo検索演算子(intitle:, inurl:, site:など)をサポート。検索演算子の詳細は公式ページDuckDuckGo Search Syntaxを参照
  • DuckDuckGoが提供する最大結果数(検索結果10ページ分、各10件)をスクレイピング
  • 合計結果数 - 100
  • 選択した場所(Locationオプション)でのスクレイピング機能
  • 検索結果の言語選択機能(Languageオプション)

ユースケース

  • A-Poster, XRumer, AllSubmitterなどのためのリンクベース収集
  • サイトのインデックス状況の確認
  • サイトのバックリンク(言及)検索
  • その他、DuckDuckGoのスクレイピングを必要とするあらゆるケース

クエリ

クエリには検索フレーズを指定します。例:

Football  
テスト
site:a-parser.com
スクレイパー site:a-parser.com
test -site:tests.com
IoT filetype:pdf

クエリ置換

内蔵マクロを使用してクエリを増殖させることができます。例えば、非常に大規模なフォーラムのベースを取得したい場合、複数の言語で主要なクエリを指定します:

forum
フォーラム
foro
论坛

クエリ形式でaからzzzzまでの文字の総当たりを指定します。この手法により、検索結果を最大限にローテーションさせ、多くの新しいユニークな結果を得ることができます:

$query {az:a:zzzz}

このマクロは、元の検索クエリ1つにつき475254個の追加クエリを生成し、合計で4 x 475254 = 1901016個の検索クエリになります。膨大な数字ですが、A-Parserにとっては全く問題ありません。毎分2000クエリの速度であれば、このタスクは約16時間で完了します。

演算子の使用

クエリ形式で検索演算子を使用できます。これにより、リスト内の各クエリに自動的に演算子が追加されます:

site:$query

結果出力例

A-Parserは、内蔵のテンプレートエンジンTemplate Toolkitにより、柔軟な結果フォーマットをサポートしています。これにより、任意の形式や、CSV、JSONなどの構造化された形式で結果を出力できます。

リンク一覧のエクスポート

SE::Googleと同様です。

SE::Googleと同様です。

SE::Googleと同様です。

SE::Googleと同様です。

リンクのインデックス確認

SE::Googleと同様です。

SQL形式での保存

SE::Googleと同様です。

結果をJSONにダンプ

SE::Googleと同様です。

結果の処理

A-Parserではスクレイピング中に直接結果を処理できます。このセクションでは、DuckDuckGoスクレイパーで最も一般的なケースを紹介します。

SE::Googleと同様です。

SE::Googleと同様です。

ドメインの抽出

SE::Googleと同様です。

アンカーとスニペットからのタグ削除

SE::Googleと同様です。

SE::Googleと同様です。

設定可能な項目

パラメータ名デフォルト値説明
Pages count5スクレイピングするページ数 (1から10まで)
RegionUS (English)場所の選択
LanguageEnglish (United States)言語の選択
Safe searchModerate「Safe search」を有効にする機能
Serp timeAny time検索期間
Use HTTP/2HTTP/1.1の代わりにHTTP/2を使用するかどうかを指定します
User agentMozilla/5.0 (Windows NT 10.0; Win64; x64; rv:120.0) Gecko/20100101 Firefox/120.0ページリクエスト時のUser-Agentヘッダー