メインコンテンツへスキップ

SE::Yandex::SQI - Yandex サイト品質指数の確認

スクレイパーの概要

スクレイパーの概要SE::Yandex::SQISE::Yandex::SQI – Yandexにおけるサイト品質指数のチェック。毎分3000-7000クエリという驚異的な速度を誇るスクレイパーです。

クエリの自動増殖、ファイルからのサブクエリの置換、英数字の組み合わせやリストの総当たりを使用して、可能な限り多くの結果を取得できます。結果のフィルタリングを使用すると、マイナスワードを活用して不要なゴミを削除し、結果をすぐにクリーンアップできます。

A-Parserの機能により、SE::Yandex::SQIスクレイパーのスクレイピング設定を将来の使用のために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。

内蔵された強力なテンプレートエンジン Template Toolkit のおかげで、結果に必要な形式や構造で保存できます。これにより、結果に追加のロジックを適用したり、JSON、SQL、CSVを含む様々なフォーマットでデータを出力したりできます。

収集されるデータ

  • サイト品質指数(Yandex SQI / SQI)
  • サイトのバッジの有無に関するデータ(1 - バッジあり、0 - バッジなし):
    • ユーザーの選択
    • 人気サイト
    • 保護された接続
    • Turboページ
    • 公式サイトかどうか
  • 「ユーザーの選択」と「人気サイト」のバッジについては、バッジ取得までの準備状況を0から1の間の中間値(例:0.4)として取得できます。
  • レビュー数、評価、およびレーティング
  • 商品検索におけるショップのレーティングおよびYandex Marketでのショップのレーティング(対象サイトでこれらのデータが利用可能な場合)

ユースケース

  • Yandexの観点からのサイトの有用性の評価
  • タイトルの収集

クエリ

クエリとして、対象サイトのドメインを指定する必要があります。プロトコルの有無にかかわらず、以下のように指定できます:

yandex.ru 
google.com
vk.com
facebook.com
https://a-parser.com

結果の出力例

A-Parserは、内蔵のテンプレートエンジン Template Toolkit により柔軟な結果のフォーマットをサポートしており、任意の形式やCSV、JSONなどの構造化された形式で結果を出力できます。

デフォルト出力

結果フォーマット:

$query: $sqi\n

初期クエリとそのSQIが表示される結果の例:

facebook.com: 130000  
yandex.ru: -1
https://a-parser.com: 110
google.com: 120000
vk.com: 340000

ドメインのSQIが利用できない場合、結果は -1 になります。

CSVテーブルへの出力

結果フォーマット:

[% tools.CSVline(query, sqi, rating); %]

ファイル名:

$datefile.format().csv

初期テキスト:

ドメイン,レーティング,作成者,価格

ヒント

タスクエディタで「Prepend text」オプションを表示するには、「More options」を有効にする必要があります。 「Prepend text」にカンマ区切りで列名を記入し、2行目を空行にします。

SQL形式での保存

結果フォーマット:

[% "INSERT INTO sqi VALUES('" _ query _ "', '" _ sqi _ "', '" _ rating _ "')\n" %]

結果の例:

INSERT INTO sqi VALUES('google.com', '122000', '87')
INSERT INTO sqi VALUES('yandex.ru', 'none', '92')
INSERT INTO sqi VALUES('https://a-parser.com', '200', '')
INSERT INTO sqi VALUES('vk.com', '326000', '73')
INSERT INTO sqi VALUES('facebook.com', '117000', '66')

JSONへの結果ダンプ

共通結果形式:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.sqi = p1.sqi;
obj.rating = p1.rating;

obj.json %]

開始テキスト:

[

終了テキスト:

]

結果の例:

[{"query":"vk.com","rating":73,"sqi":326000},
{"query":"google.com","rating":87,"sqi":122000},
{"query":"https://a-parser.com","rating":"","sqi":200},
{"query":"yandex.ru","rating":92,"sqi":"none"},
{"query":"facebook.com","rating":66,"sqi":117000}]
ヒント

タスクエディタで「Prepend text」および「Append text」オプションを表示するには、「More options」を有効にする必要があります。

設定可能な項目

パラメータデフォルト値説明
AntiGate presetdefaultUtil::AntiGateUtil::AntiGate プリセットの選択。設定の詳細はこちら
AntiGate preset for old captchadefaultAntiGate preset と同様ですが、通常の(古い、単一の画像形式の)キャプチャにのみ使用されます。ここでプリセットが選択されていない場合は、AntiGate preset で選択されたプリセットがこれらのキャプチャに使用されます。
Experimental img captcha max count51回の試行あたりのキャプチャ画像の最大再試行回数
Preffered captcha typeClick優先するキャプチャタイプの選択: Click または Puzzle
Use sessions良好なセッションを保存することで、より高速にスクレイピングを行い、エラーを減らすことができます