SE::Yandex::SQI - Yandex サイト品質指数の確認
スクレイパーの概要

SE::Yandex::SQI – Yandexにおけるサイト品質指数のチェック。毎分3000-7000クエリという驚異的な速度を誇るスクレイパーです。クエリの自動増殖、ファイルからのサブクエリの置換、英数字の組み合わせやリストの総当たりを使用して、可能な限り多くの結果を取得できます。結果のフィルタリングを使用すると、マイナスワードを活用して不要なゴミを削除し、結果をすぐにクリーンアップできます。
A-Parserの機能により、SE::Yandex::SQIスクレイパーのスクレイピング設定を将来の使用のために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。
内蔵された強力なテンプレートエンジン Template Toolkit のおかげで、結果に必要な形式や構造で保存できます。これにより、結果に追加のロジックを適用したり、JSON、SQL、CSVを含む様々なフォーマットでデータを出力したりできます。
収集されるデータ
- サイト品質指数(Yandex SQI / SQI)
- サイトのバッジの有無に関するデータ(1 - バッジあり、0 - バッジなし):
- ユーザーの選択
- 人気サイト
- 保護された接続
- Turboページ
- 公式サイトかどうか
- 「ユーザーの選択」と「人気サイト」のバッジについては、バッジ取得までの準備状況を0から1の間の中間値(例:0.4)として取得できます。
- レビュー数、評価、およびレーティング
- 商品検索におけるショップのレーティングおよびYandex Marketでのショップのレーティング(対象サイトでこれらのデータが利用可能な場合)
ユースケース
- Yandexの観点からのサイトの有用性の評価
- タイトルの収集
クエリ
クエリとして、対象サイトのドメインを指定する必要があります。プロトコルの有無にかかわらず、以下のように指定できます:
yandex.ru
google.com
vk.com
facebook.com
https://a-parser.com
結果の出力例
A-Parserは、内蔵のテンプレートエンジン Template Toolkit により柔軟な結果のフォーマットをサポートしており、任意の形式やCSV、JSONなどの構造化された形式で結果を出力できます。
デフォルト出力
結果フォーマット:
$query: $sqi\n
初期クエリとそのSQIが表示される結果の例:
facebook.com: 130000
yandex.ru: -1
https://a-parser.com: 110
google.com: 120000
vk.com: 340000
ドメインのSQIが利用できない場合、結果は -1 になります。
CSVテーブルへの出力
結果フォーマット:
[% tools.CSVline(query, sqi, rating); %]
ファイル名:
$datefile.format().csv
初期テキスト:
ドメイン,レーティング,作成者,価格
タスクエディタで「Prepend text」オプションを表示するには、「More options」を有効にする必要があります。 「Prepend text」にカンマ区切りで列名を記入し、2行目を空行にします。
SQL形式での保存
結果フォーマット:
[% "INSERT INTO sqi VALUES('" _ query _ "', '" _ sqi _ "', '" _ rating _ "')\n" %]
結果の例:
INSERT INTO sqi VALUES('google.com', '122000', '87')
INSERT INTO sqi VALUES('yandex.ru', 'none', '92')
INSERT INTO sqi VALUES('https://a-parser.com', '200', '')
INSERT INTO sqi VALUES('vk.com', '326000', '73')
INSERT INTO sqi VALUES('facebook.com', '117000', '66')
JSONへの結果ダンプ
共通結果形式:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.sqi = p1.sqi;
obj.rating = p1.rating;
obj.json %]
開始テキスト:
[
終了テキスト:
]
結果の例:
[{"query":"vk.com","rating":73,"sqi":326000},
{"query":"google.com","rating":87,"sqi":122000},
{"query":"https://a-parser.com","rating":"","sqi":200},
{"query":"yandex.ru","rating":92,"sqi":"none"},
{"query":"facebook.com","rating":66,"sqi":117000}]
タスクエディタで「Prepend text」および「Append text」オプションを表示するには、「More options」を有効にする必要があります。
設定可能な項目
| パラメータ | デフォルト値 | 説明 |
|---|---|---|
| AntiGate preset | default | Util::AntiGate プリセットの選択。設定の詳細はこちら |
| AntiGate preset for old captcha | default | AntiGate preset と同様ですが、通常の(古い、単一の画像形式の)キャプチャにのみ使用されます。ここでプリセットが選択されていない場合は、AntiGate preset で選択されたプリセットがこれらのキャプチャに使用されます。 |
| Experimental img captcha max count | 5 | 1回の試行あたりのキャプチャ画像の最大再試行回数 |
| Preffered captcha type | Click | 優先するキャプチャタイプの選択: Click または Puzzle |
| Use sessions | ☑ | 良好なセッションを保存することで、より高速にスクレイピングを行い、エラーを減らすことができます |
