SE::Google::SafeBrowsing - Googleブラックリストのドメインチェック
スクレイパーの概要
Google Safe Browsing スクレイパーを使用すると、ドメインが Google のブラックリストに含まれているかどうかを確認できます。Google Safe Browsing スクレイパーを使用することで、独自のドメインデータベースを Google のブラックリストに対して照合できます。この警告の詳細については、Google 検索ヘルプを参照してください。
A-Parser の機能により、スクレイピング設定を将来の使用のために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。
A-Parser のマルチスレッド動作により、リクエスト処理速度は毎分 3800-4000 リクエストに達することがあります。

組み込みの強力なテンプレートエンジン Template Toolkit により、結果に追加のロジックを適用し、JSON、SQL、CSV を含む様々な形式でデータを出力するなど、必要な形式と構造で結果を保存できます。
収集データ
- 疑わしいサイトのリストへの掲載有無
ユースケース
- ドメインリストの Google ブラックリスト掲載確認
- 自社ドメインの Google ブラックリスト掲載モニタリング
クエリ
クエリとして、検索対象サイトの URL を指定する必要があります。例:
http://a-parser.com/
http://www.yandex.ru/
http://facebook.com/
http://youtube.com/
http://perfect-soft.net/
結果の出力例
A-Parser は、組み込みのテンプレートエンジン Template Toolkit により柔軟な結果フォーマットをサポートしており、任意の形式や CSV、JSON などの構造化された形式で結果を出力できます。
ブラックリスト確認リストのエクスポート
結果フォーマット:
$query: $exists\n
URL とそれが Google ブラックリストに含まれているかどうかが表示される結果の例:
http://youtube.com/: 0
http://www.yandex.ru/: 0
http://a-parser.com/: 0
http://perfect-soft.net: 1
http://facebook.com/: 0
CSV テーブルへの結果出力
組み込みユーティリティ $tools.CSVLine を使用すると、Excel や Google スプレッドシートへのインポートに適した正しいテーブルドキュメントを作成できます。
全般的な結果フォーマット:
[% tools.CSVline(query.orig,p1.exists) %]
ファイル名:
$datefile.format().csv
開始テキスト:
サイト,確認結果
結果の例:
サイト,確認結果
http://youtube.com/,0
http://www.yandex.ru/,0
http://a-parser.com/,0
http://perfect-soft.net,1
http://facebook.com/,0
全般的な結果フォーマットでは、クエリとブラックリスト確認結果を出力するために Template Toolkit テンプレートエンジンが適用されます。
結果のファイル名で、ファイルの拡張子を csv に変更するだけです。
タスクエディタで「Prepend text」オプションを利用するには、「More options」を有効にする必要があります。 「Prepend text」にカンマ区切りで列名を記入し、2行目を空行にします。
SQL 形式での保存
結果フォーマット:
[% "INSERT INTO volumes VALUES('" _ query.query _ "', '" _ exists _ "')\n" %]
結果の例:
INSERT INTO serp VALUES('http://www.yandex.ru/', '0')
INSERT INTO serp VALUES('http://a-parser.com/', '0')
INSERT INTO serp VALUES('http://perfect-soft.net', '1')
INSERT INTO serp VALUES('http://facebook.com/', '0')
INSERT INTO serp VALUES('http://youtube.com/', '0')
JSON への結果ダンプ
共通結果形式:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = p1.query.orig;
obj.exists = p1.exists;
obj.json %]
開始テキスト:
[
終了テキスト:
]
結果の例:
[{"query":"http://www.yandex.ru/","exists":"0"},
{"query":"http://youtube.com/","exists":"0"},
{"query":"http://facebook.com/","exists":"0"},
{"query":"http://a-parser.com/","exists":"0"},
{"query":"http://perfect-soft.net","exists":"1"}]
タスクエディタで「Prepend text」および「Append text」オプションを利用するには、「More options」を有効にする必要があります。
結果の処理
A-Parser ではスクレイピング中に直接結果を処理できます。このセクションでは、SE::Google::SafeBrowsing スクレイパーの最も一般的なケースを紹介します。
確認値が "1" のドメインのみ保存
フィルタを追加し、ドロップダウンリストから確認値の変数 $exists - Listed as suspicious を選択します。タイプとして String equal を選択します。次に、String (文字列)に必要な値 1 を入力します。このフィルタを使用することで、不要な値を持つすべての結果を除外できます。

例をダウンロード
eJx1VEuP2jAQ/ivI4tBKEMqhl9wAlaoVXbYLe2I5mGTCujger+3wUJT/3rETEth2
b57H983bJXPcHuyjAQvOsnhTMh3eLGarb3H8HXEvIY5XPIOpwZMVat8b9uZCgunB
medaAhswzY0F4/GbD2HklkLGC+nYoGTuooFi4BGMEannECnJySskBxKOXBbenmLO
hWJVh8iEdGDIhdL0XDGDs7CU+6AxrWs/eCu4vGEa0xu1E6hIsKAsq7bbK4udo8m5
J+vrcdR0oDWu+BHWWMeGTu2b8MBzT95PuQNvjbJA9Olz5M6egaep8DG5rCP4FnVR
n5V4C8kpJF96GgF2bjAnlYNA4JWXa3Yb1g8yI4oiYH/XGBZnXFoYMEupzjklkr63
CGoNd2iWoQekLxmqiZQLOILs3AL/tBAypXlOMgL9aID/d1n+w1G15d2GojmfDOXQ
sgRpuvzVoVJc4N7PfEd1S5ELR7KdYaH8YL6Q8gCg2549+J7laKAN0zA30WmnNSi/
VN3IJrpT3ZVxN5Z7ZYIqE/tls6hXz0Kt6XCWaob+BHxdqpCSxmLhqVuPiW3G4IUu
wffgWQjhS78eCHOI0v5c1alqI2j9vvoEc+rkbdSGMuFSPj8tbi2sWykSXp3T8WjE
h/WpRgnmoxfVaE+nU3ThKoVzZIpOnfEEdoiHe+cLFq7Ywb1Sg8kgcUOLmYtUOJ6E
TmKPtKzUsGrb/hHtV1N+/FPEZUX78Mc+1hDfPA8gHU3BhhMeV38BeN+pvw==
参照: 結果フィルタ
設定可能な項目
| パラメータ名 | デフォルト値 | 説明 |
|---|---|---|
| Check | Domain | 確認タイプの選択 (Domain / Full link) |