SE::DuckDuckGo - DuckDuckGo検索結果スクレイパー

DuckDuckGoスクレイパーの概要
DuckDuckGo検索結果のスクレイパーです。DuckDuckGoスクレイパーを使用することで、その後の利用に最適な大量のリンクベースを取得できます。検索クエリには、検索演算子(intitle, inurl, siteなど)を含む、DuckDuckGoの検索バーに入力するのと同様の形式を使用できます。詳細は公式ページのDuckDuckGo Search Syntaxをご確認ください。
A-Parserの機能により、DuckDuckGoスクレイパーのスクレイピング設定を保存して再利用(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。自動クエリ増殖、ファイルからのサブクエリ置換、英数字の組み合わせやリストの総当たりを使用して、最大限の検索結果を取得できます。
内蔵された強力なテンプレートエンジンTemplate Toolkitにより、結果に独自のロジックを適用し、JSON, SQL, CSVを含む様々な形式で、必要な構造のままデータを保存できます。
収集データ
- 検索結果のリンク、アンカーテキスト、スニペット

機能
- すべてのDuckDuckGo検索演算子(intitle:, inurl:, site:など)をサポート。検索演算子の詳細は公式ページDuckDuckGo Search Syntaxを参照
- DuckDuckGoが提供する最大結果数(検索結果10ページ分、各10件)をスクレイピング
- 合計結果数 - 100
- 選択した場所(Locationオプション)でのスクレイピング機能
- 検索結果の言語選択機能(Languageオプション)
ユースケース
- A-Poster, XRumer, AllSubmitterなどのためのリンクベース収集
- サイトのインデックス状況の確認
- サイトのバックリンク(言及)検索
- その他、DuckDuckGoのスクレイピングを必要とするあらゆるケース
クエリ
クエリには検索フレーズを指定します。例:
Football
テスト
site:a-parser.com
スクレイパー site:a-parser.com
test -site:tests.com
IoT filetype:pdf
クエリ置換
内蔵マクロを使用してクエリを増殖させることができます。例えば、非常に大規模なフォーラムのベースを取得したい場合、複数の言語で主要なクエリを指定します:
forum
フォーラム
foro
论坛
クエリ形式でaからzzzzまでの文字の総当たりを指定します。この手法により、検索結果を最大限にローテーションさせ、多くの新しいユニークな結果を得ることができます:
$query {az:a:zzzz}
このマクロは、元の検索クエリ1つにつき475254個の追加クエリを生成し、合計で4 x 475254 = 1901016個の検索クエリになります。膨大な数字ですが、A-Parserにとっては全く問題ありません。毎分2000クエリの速度であれば、このタスクは約16時間で完了します。
演算子の使用
クエリ形式で検索演算子を使用できます。これにより、リスト内の各クエリに自動的に演算子が追加されます:
site:$query
結果出力例
A-Parserは、内蔵のテンプレートエンジンTemplate Toolkitにより、柔軟な結果フォーマットをサポートしています。これにより、任意の形式や、CSV、JSONなどの構造化された形式で結果を出力できます。
リンク一覧のエクスポート
リンク + アンカー + スニペット(順位付き)
リンク、アンカー、スニペットをCSVテーブルに出力
関連キーワードの保存
リンクのインデックス確認
SQL形式での保存
結果をJSONにダンプ
結果の処理
A-Parserではスクレイピング中に直接結果を処理できます。このセクションでは、DuckDuckGoスクレイパーで最も一般的なケースを紹介します。
リンクの重複排除
ドメインごとのリンク重複排除
ドメインの抽出
アンカーとスニペットからのタグ削除
含有によるリンクのフィルタリング
設定可能な項目
| パラメータ名 | デフォルト値 | 説明 |
|---|---|---|
| Pages count | 5 | スクレイピングするページ数 (1から10まで) |
| Region | US (English) | 場所の選択 |
| Language | English (United States) | 言語の選択 |
| Safe search | Moderate | 「Safe search」を有効にする機能 |
| Serp time | Any time | 検索期間 |
| Use HTTP/2 | ☐ | HTTP/1.1の代わりにHTTP/2を使用するかどうかを指定します |
| User agent | Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:120.0) Gecko/20100101 Firefox/120.0 | ページリクエスト時のUser-Agentヘッダー |