SE::Seznam - チェコの検索エンジン seznam.cz スクレイパー

スクレイパーの概要
Seznam検索結果のスクレイパーです。Seznamスクレイパーを使用することで、その後の利用に最適な大量のリンクベースを取得できます。Dogpileの検索バーに入力するのと同様の形式でクエリを使用でき、検索演算子(site, inurlなど)もサポートしています。
A-Parserの機能により、Seznamスクレイパーのスクレイピング設定を後で利用するために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。自動クエリ増殖、ファイルからのサブクエリ置換、英数字の組み合わせやリストの総当たりなどを使用して、最大限の検索結果を取得できます。
内蔵された強力なテンプレートエンジン Template Toolkit により、結果に必要なロジックを適用し、JSON, SQL, CSVを含む様々なフォーマットでデータを構造化して保存できます。
収集データ
- 検索結果のリンク、アンカー、スニペット
- 関連キーワードのリスト (Related keywords)

機能
- Seznamが提供する最大結果数(20件×50ページ)をスクレイピング可能
- 1クエリあたりの最大合計結果数 - 1000
ユースケース
- A-Poster, XRumer, AllSubmitterなどのためのリンクベース収集
- サイトのバックリンク(言及)調査
- 脆弱性のあるサイトの検索
- その他、Seznamのスクレイピングを必要とするあらゆる用途
クエリ
クエリには、Seznamの検索フォームに直接入力する場合と同じ検索フレーズを指定してください。例:
test query
窓 東京
site:a-parser.com
inurl:auto
クエリの置換
内蔵マクロを使用してクエリを増殖させることができます。例えば、非常に大規模なフォーラムのベースを取得したい場合、複数の言語で主要なクエリを指定します:
forum
フォーラム
foro
论坛
クエリ形式で a から zzzz までの文字の総当たりを指定すると、検索結果を最大限にローテーションさせ、多くの新しいユニークな結果を得ることができます:
$query {az:a:zzzz}
このマクロは各元の検索クエリに対して 475254 個の追加クエリを生成し、合計で 4 x 475254 = 1901016 個の検索クエリになります。膨大な数字ですが、A-Parserにとっては全く問題ありません。分間 2000 クエリの速度であれば、このタスクは約 16 時間で完了します。
演算子の使用
クエリ形式で検索演算子を使用できます。これにより、リスト内の各クエリに自動的に演算子が追加されます:
site:$query
結果の出力例
A-Parserは内蔵のテンプレートエンジン Template Toolkit により柔軟な結果フォーマットをサポートしており、任意の形式やCSV、JSONなどの構造化データとして出力できます。
リンク一覧のエクスポート
リンク + アンカー + スニペット(順位付き)
リンク、アンカー、スニペットをCSVテーブルに出力
SQL形式での保存
結果をJSONにダンプ
結果の処理
A-Parserではスクレイピング中に結果を直接処理できます。このセクションでは、Seznamスクレイパーでよく使われるケースを紹介します。
リンクの重複排除
ドメインによるリンクの重複排除
ドメインの抽出
アンカーとスニペットからのタグ削除
含有条件によるリンクのフィルタリング
設定可能な項目
| パラメータ名 | デフォルト値 | 説明 |
|---|---|---|
| Pages count | 5 | スクレイピングするページ数 (1〜50) |
| Links per page | 10 | 1ページあたりのリンク数 (10 / 20) |