メインコンテンツへスキップ

SE::Startpage - startpage.com検索結果スクレイパー

Startpage

スクレイパー概要

Startpage検索結果のスクレイパーです。Startpageスクレイパーを使用することで、その後の利用に最適な大規模なリンクベースを取得できます。Startpageの検索バーに入力するのと同様に、検索演算子(site, inurlなど)を含むクエリを使用できます。

A-Parserの機能により、Startpageスクレイパーのスクレイピング設定を後で利用するために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。自動クエリ増殖、ファイルからのサブクエリ置換、英数字の組み合わせやリストの総当たりを使用して、可能な限り多くの結果を取得できます。

内蔵された強力なテンプレートエンジン Template Toolkit により、結果に追加のロジックを適用し、JSON、SQL、CSVを含む様々な形式で、必要な構造で結果を保存できます。

収集データ

  • 検索結果のリンク、アンカー、スニペット
収集データ

機能

  • 国、検索言語、ページ言語の選択をサポート
  • アンカー、リンク、スニペットをまとめて、または個別に表示可能
  • 表示する結果の数を指定可能
  • 検索結果サイズ(10または20結果)の指定

ユースケース

  • リンク、アンカー、スニペットのベース収集
  • 検索エンジンで最も頻繁に言及されているサイトのリスト取得
  • 情報取得のためのその他のあらゆるユースケース

クエリ

クエリには、検索エンジンに入力するのと同様の形式で単語、フレーズ、語句を指定します。例:

テスト   
site:http://test.ru
赤いバラ

クエリ置換

クエリを増殖させるために内蔵マクロを使用できます。例えば、非常に大規模なフォーラムのベースを取得したい場合、いくつかの主要なクエリを異なる言語で指定します:

forum
フォーラム
foro
论坛

クエリ形式で a から zzzz までの文字の総当たりを指定します。このメソッドにより、検索結果を最大限にローテーションさせ、多くの新しいユニークな結果を得ることができます:

$query {az:a:zzzz}

このマクロは、元の検索クエリごとに 475254 個の追加クエリを作成し、合計で 4 x 475254 = 1901016 個の検索クエリになります。驚くべき数字ですが、A-Parserにとっては全く問題ありません。毎分 2000 クエリの速度であれば、このタスクは約 16 時間で処理されます。

演算子の使用

クエリ形式で検索演算子を使用できます。これにより、リスト内の各クエリに自動的に追加されます:

site:$query

結果の出力例

A-Parserは、内蔵のテンプレートエンジン Template Toolkit により柔軟な結果フォーマットをサポートしており、任意の形式やCSV、JSONなどの構造化された形式で結果を出力できます。

リンク一覧のエクスポート

SE::Googleと同様です。

SE::Googleと同様です。

SE::Googleと同様です。

SQL形式での保存

SE::Googleと同様です。

結果をJSONにダンプ

SE::Googleと同様です。

結果の処理

A-Parserではスクレイピング中に直接結果を処理できます。このセクションでは、Startpageスクレイパーで最も一般的なケースを紹介します。

SE::Googleと同様です。

SE::Googleと同様です。

ドメインの抽出

SE::Googleと同様です。

アンカーとスニペットからのタグ削除

SE::Googleと同様です。

SE::Googleと同様です。

設定可能な項目

パラメータ名デフォルト値説明
Pages count5スクレイピングするページ数 (1から50まで)
Family filterFilter depending on searchフィルタリングレベルの選択 (Filter all results / Filter depending on search / Do not filter my results)
PeriodAny time検索期間の選択 (Any time / Past 24 hours / Past week / Past month / Past year)
Links per page10検索結果サイズ (10 / 20)
Results languageEnglish結果の言語の選択
Page languageEnglishページの言語の選択
Search countryAll検索を実行する国の選択