メインコンテンツへスキップ

SE::Google::SafeBrowsing - Googleブラックリストのドメインチェック

スクレイパーの概要

Google Safe Browsing スクレイパーを使用すると、ドメインが Google のブラックリストに含まれているかどうかを確認できます。Google Safe Browsing スクレイパーを使用することで、独自のドメインデータベースを Google のブラックリストに対して照合できます。この警告の詳細については、Google 検索ヘルプを参照してください。

A-Parser の機能により、スクレイピング設定を将来の使用のために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。

A-Parser のマルチスレッド動作により、リクエスト処理速度は毎分 3800-4000 リクエストに達することがあります。

スクレイパーの概要:動作速度

組み込みの強力なテンプレートエンジン Template Toolkit により、結果に追加のロジックを適用し、JSON、SQL、CSV を含む様々な形式でデータを出力するなど、必要な形式と構造で結果を保存できます。

収集データ

  • 疑わしいサイトのリストへの掲載有無

SE::Google::SafeBrowsing スクレイパーが収集するデータ

ユースケース

  • ドメインリストの Google ブラックリスト掲載確認
  • 自社ドメインの Google ブラックリスト掲載モニタリング

クエリ

クエリとして、検索対象サイトの URL を指定する必要があります。例:

http://a-parser.com/
http://www.yandex.ru/
http://facebook.com/
http://youtube.com/
http://perfect-soft.net/

結果の出力例

A-Parser は、組み込みのテンプレートエンジン Template Toolkit により柔軟な結果フォーマットをサポートしており、任意の形式や CSV、JSON などの構造化された形式で結果を出力できます。

ブラックリスト確認リストのエクスポート

結果フォーマット:

$query: $exists\n

URL とそれが Google ブラックリストに含まれているかどうかが表示される結果の例:

http://youtube.com/: 0
http://www.yandex.ru/: 0
http://a-parser.com/: 0
http://perfect-soft.net: 1
http://facebook.com/: 0

CSV テーブルへの結果出力

組み込みユーティリティ $tools.CSVLine を使用すると、Excel や Google スプレッドシートへのインポートに適した正しいテーブルドキュメントを作成できます。

全般的な結果フォーマット:

[% tools.CSVline(query.orig,p1.exists) %]

ファイル名:

$datefile.format().csv

開始テキスト:

サイト,確認結果

結果の例:

サイト,確認結果
http://youtube.com/,0
http://www.yandex.ru/,0
http://a-parser.com/,0
http://perfect-soft.net,1
http://facebook.com/,0
ヒント

全般的な結果フォーマットでは、クエリとブラックリスト確認結果を出力するために Template Toolkit テンプレートエンジンが適用されます。

結果のファイル名で、ファイルの拡張子を csv に変更するだけです。

タスクエディタで「Prepend text」オプションを利用するには、「More options」を有効にする必要があります。 「Prepend text」にカンマ区切りで列名を記入し、2行目を空行にします。

SQL 形式での保存

結果フォーマット:

[% "INSERT INTO volumes VALUES('" _ query.query _ "', '" _ exists _ "')\n" %]

結果の例:

INSERT INTO serp VALUES('http://www.yandex.ru/', '0')
INSERT INTO serp VALUES('http://a-parser.com/', '0')
INSERT INTO serp VALUES('http://perfect-soft.net', '1')
INSERT INTO serp VALUES('http://facebook.com/', '0')
INSERT INTO serp VALUES('http://youtube.com/', '0')

JSON への結果ダンプ

共通結果形式:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = p1.query.orig;
obj.exists = p1.exists;

obj.json %]

開始テキスト:

[

終了テキスト:

]

結果の例:

[{"query":"http://www.yandex.ru/","exists":"0"},
{"query":"http://youtube.com/","exists":"0"},
{"query":"http://facebook.com/","exists":"0"},
{"query":"http://a-parser.com/","exists":"0"},
{"query":"http://perfect-soft.net","exists":"1"}]
ヒント

タスクエディタで「Prepend text」および「Append text」オプションを利用するには、「More options」を有効にする必要があります。

結果の処理

A-Parser ではスクレイピング中に直接結果を処理できます。このセクションでは、SE::Google::SafeBrowsing スクレイパーの最も一般的なケースを紹介します。

確認値が "1" のドメインのみ保存

フィルタを追加し、ドロップダウンリストから確認値の変数 $exists - Listed as suspicious を選択します。タイプとして String equal を選択します。次に、String (文字列)に必要な値 1 を入力します。このフィルタを使用することで、不要な値を持つすべての結果を除外できます。

フィルタリングの例
例をダウンロード

A-Parser への例のインポート方法

eJx1VEuP2jAQ/ivI4tBKEMqhl9wAlaoVXbYLe2I5mGTCujger+3wUJT/3rETEth2
b57H983bJXPcHuyjAQvOsnhTMh3eLGarb3H8HXEvIY5XPIOpwZMVat8b9uZCgunB
medaAhswzY0F4/GbD2HklkLGC+nYoGTuooFi4BGMEannECnJySskBxKOXBbenmLO
hWJVh8iEdGDIhdL0XDGDs7CU+6AxrWs/eCu4vGEa0xu1E6hIsKAsq7bbK4udo8m5
J+vrcdR0oDWu+BHWWMeGTu2b8MBzT95PuQNvjbJA9Olz5M6egaep8DG5rCP4FnVR
n5V4C8kpJF96GgF2bjAnlYNA4JWXa3Yb1g8yI4oiYH/XGBZnXFoYMEupzjklkr63
CGoNd2iWoQekLxmqiZQLOILs3AL/tBAypXlOMgL9aID/d1n+w1G15d2GojmfDOXQ
sgRpuvzVoVJc4N7PfEd1S5ELR7KdYaH8YL6Q8gCg2549+J7laKAN0zA30WmnNSi/
VN3IJrpT3ZVxN5Z7ZYIqE/tls6hXz0Kt6XCWaob+BHxdqpCSxmLhqVuPiW3G4IUu
wffgWQjhS78eCHOI0v5c1alqI2j9vvoEc+rkbdSGMuFSPj8tbi2sWykSXp3T8WjE
h/WpRgnmoxfVaE+nU3ThKoVzZIpOnfEEdoiHe+cLFq7Ywb1Sg8kgcUOLmYtUOJ6E
TmKPtKzUsGrb/hHtV1N+/FPEZUX78Mc+1hDfPA8gHU3BhhMeV38BeN+pvw==
ヒント

設定可能な項目

パラメータ名デフォルト値説明
CheckDomain確認タイプの選択 (Domain / Full link)