SE::Google::Compromised - Googleでの「このサイトはハッキングされている可能性があります」表示の確認
スクレイパーの概要
Google Compromised スクレイパーを使用すると、Google の検索結果に This site may be hacked という表示があるかどうかを確認できます。Google Compromised スクレイパーを使用することで、独自のドメインリストにこの表示があるかどうかをチェックできます。この表示の詳細については、Google 検索ヘルプで確認できます。
A-Parser の機能により、スクレイピング設定を将来の使用のために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。
結果の保存は、内蔵された強力なテンプレートエンジン Template Toolkit により、必要な形式と構造で保存できます。これにより、結果に追加のロジックを適用したり、JSON, SQL, CSV を含む様々なフォーマットでデータを出力したりできます。
収集データ
- Google における This site may be hacked という表示の有無の確認

機能
- スクレイパー
SE::Google のすべての機能をサポートしています。
ユースケース
- Google での This site may be hacked 表示の有無に関するドメインリストのチェック
- 自社ドメインのモニタリング
クエリ
クエリとして、検索対象のサイトの URL を指定する必要があります。例:
http://a-parser.com/
http://www.yandex.ru/
http://google.com/
http://russbehnke.com/
http://www.bmlaroca.cat/
http://vk.com/
http://facebook.com/
http://youtube.com/
クエリの置換
内蔵マクロを使用して、ファイルからサブクエリを自動的に挿入できます。例えば、キーワードリストに基づいてサイトをチェックしたい場合、いくつかのメインクエリを指定します:
ria.ru
lenta.ru
rbc.ru
yandex.ru
クエリ形式に、ファイル Keywords.txt から追加の単語を挿入するマクロを指定します。この方法により、キーワードリストに基づいてサイトリストをチェックし、結果としてポジションを取得できます:
$query {subs:Keywords}
このマクロは、元の各検索クエリに対してファイル内にある数と同じだけの追加クエリを作成します。その結果、マクロの動作により、合計で [元のクエリ数(ドメイン)] x [Keywords ファイル内のクエリ数] = [総クエリ数] となります。
また、クエリ形式にプロトコルを指定することで、ドメインのみをクエリとして使用することも可能です:
http://$query
この形式は、各クエリの前に http:// を付加します。
結果の出力例
A-Parser は、内蔵のテンプレートエンジン Template Toolkit により柔軟な結果のフォーマットをサポートしており、任意の形式や CSV、JSON などの構造化された形式で結果を出力できます。
表示確認リストのエクスポート
結果のフォーマット:
$query: $compromised\n
URL と Google での This site may be hacked 表示の有無が表示される結果の例:
http://a-parser.com/: 0
http://www.bmlaroca.cat/: 1
http://russbehnke.com/: 0
http://www.yandex.ru/: 0
http://google.com/: 0
リンク + アンカー + スニペットと順位の出力
CSV テーブルへのリンク、アンカー、スニペットの出力
関連キーワードの保存
キーワードの競合
リンクのインデックス登録確認
SQL 形式での保存
JSON への結果のダンプ
結果の処理
A-Parser ではスクレイピング中に直接結果を処理できます。このセクションでは、SE::Google::Compromised スクレイパーの最も一般的なケースを紹介します。
確認値が "1" のドメインの保存
フィルタを追加し、ドロップダウンリストから確認値の変数 $compromised - Is site compromised を選択します。タイプとして String equal を選択します。次に、String (文字列) に必要な値 1 を入力します。このフィルタを使用することで、不要な値を持つすべての結果を除外できます。

例をダウンロード
eJx1VE1z2jAQ/SseTQ7tDDFw6MU3woROOzSkITkBB2GtiYosCUnmYzz8965kYxta
btZ+vH37dtclcdRu7asBC86SZFESHb5JQubPSfJdqY2AJBmrXBuVcwsseowmXDgw
ERxprgWQHtHUWDA+f3EvDaMYZLQQjvRK4k4asITagzGceQjO8J0pk1OHBEIY2VNR
+LCHXQHmlEQPaYu3XEpyvo+EYceTAWc42A7ScDAYdNOy0AkG1DUTkl5RrvzvVTDs
Ciq6YPittONK4sOCtOS8Wl2g7CT04tnrYVyL2jjndA/vqiIArRmFhReah54ZdeC9
cSXKl6+xO3oEyhj3NamoKnjV26ofku8COakw1uuGAkywITQ5CABBzAu7RS0uQYgi
5P6uckiSUWGhRyxSnVAkwm49HKWhTplZ0ADtJVFyJMQU9iDasID/VHDBcEVGGSb9
qBP/HzL7B+PctNcthRM/GOTQoITX0+xXm8XUVG2wc7bGvgXPucO3HatC+sEM0LgF
0I1mL16zXBloytTIdXU8Ew3Sr1c7spFuTVdtXI3l2pgqmfHNrF7ZS2Qh3/EWZ9If
jQDflyyEwLFYeGvXY2TrMfhHS/A2eRxK+NYvR0ecUsL+nFdUteG4ft88wRyV7Fat
IVMqxMfbtOsh7Urh49M5nfT79LG6/hgvpx9FS1nbD4dDfKKSwTE2RdexCT+H23BT
WLuGT7mtPFcw61xQo1Iap9T1iafmYKNwaVG486r5/TR/sfLuTygpz7gWf+xrleE1
9PFow2HYcMnD81/p/MfQ
参照:結果のフィルタ
リンクの重複排除
ドメインによるリンクの重複排除
ドメインの抽出
アンカーとスニペットからのタグ削除
含有によるリンクのフィルタリング
設定可能な項目
スクレイパー
SE::Google のすべての設定に加えて、以下の追加機能をサポートしています:
| パラメータ名 | デフォルト値 | 説明 |
|---|---|---|
| Pages count | 1 | 検索結果のスクレイピングページ数 (1から10まで) |