メインコンテンツへスキップ

SE::Seznam - チェコの検索エンジン seznam.cz スクレイパー

Seznam

スクレイパーの概要

Seznam検索結果のスクレイパーです。Seznamスクレイパーを使用することで、その後の利用に最適な大量のリンクベースを取得できます。Dogpileの検索バーに入力するのと同様の形式でクエリを使用でき、検索演算子(site, inurlなど)もサポートしています。

A-Parserの機能により、Seznamスクレイパーのスクレイピング設定を後で利用するために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。自動クエリ増殖、ファイルからのサブクエリ置換、英数字の組み合わせやリストの総当たりなどを使用して、最大限の検索結果を取得できます。

内蔵された強力なテンプレートエンジン Template Toolkit により、結果に必要なロジックを適用し、JSON, SQL, CSVを含む様々なフォーマットでデータを構造化して保存できます。

収集データ

  • 検索結果のリンク、アンカー、スニペット
  • 関連キーワードのリスト (Related keywords)
収集データ

機能

  • Seznamが提供する最大結果数(20件×50ページ)をスクレイピング可能
  • 1クエリあたりの最大合計結果数 - 1000

ユースケース

  • A-Poster, XRumer, AllSubmitterなどのためのリンクベース収集
  • サイトのバックリンク(言及)調査
  • 脆弱性のあるサイトの検索
  • その他、Seznamのスクレイピングを必要とするあらゆる用途

クエリ

クエリには、Seznamの検索フォームに直接入力する場合と同じ検索フレーズを指定してください。例:

test query
窓 東京
site:a-parser.com
inurl:auto

クエリの置換

内蔵マクロを使用してクエリを増殖させることができます。例えば、非常に大規模なフォーラムのベースを取得したい場合、複数の言語で主要なクエリを指定します:

forum
フォーラム
foro
论坛

クエリ形式で a から zzzz までの文字の総当たりを指定すると、検索結果を最大限にローテーションさせ、多くの新しいユニークな結果を得ることができます:

$query {az:a:zzzz}

このマクロは各元の検索クエリに対して 475254 個の追加クエリを生成し、合計で 4 x 475254 = 1901016 個の検索クエリになります。膨大な数字ですが、A-Parserにとっては全く問題ありません。分間 2000 クエリの速度であれば、このタスクは約 16 時間で完了します。

演算子の使用

クエリ形式で検索演算子を使用できます。これにより、リスト内の各クエリに自動的に演算子が追加されます:

site:$query

結果の出力例

A-Parserは内蔵のテンプレートエンジン Template Toolkit により柔軟な結果フォーマットをサポートしており、任意の形式やCSV、JSONなどの構造化データとして出力できます。

リンク一覧のエクスポート

SE::Googleと同様です。

SE::Googleと同様です。

SE::Googleと同様です。

SQL形式での保存

SE::Googleと同様です。

結果をJSONにダンプ

SE::Googleと同様です。

結果の処理

A-Parserではスクレイピング中に結果を直接処理できます。このセクションでは、Seznamスクレイパーでよく使われるケースを紹介します。

SE::Googleと同様です。

SE::Googleと同様です。

ドメインの抽出

SE::Googleと同様です。

アンカーとスニペットからのタグ削除

SE::Googleと同様です。

SE::Googleと同様です。

設定可能な項目

パラメータ名デフォルト値説明
Pages count5スクレイピングするページ数 (1〜50)
Links per page101ページあたりのリンク数 (10 / 20)