Passer au contenu principal

SE::Google::SafeBrowsing - Vérification de domaine dans la liste noire de Google

Présentation du scraper

Le scraper Google Safe Browsing permet de vérifier un domaine dans la liste noire de Google. Avec le scraper Google Safe Browsing, vous pouvez vérifier vos propres bases de données de domaines pour détecter leur présence dans la liste noire de Google. Vous pouvez en savoir plus sur cet avertissement dans l' Aide Google Search.

La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte de données pour une utilisation ultérieure (présélections), de définir un calendrier de collecte et bien plus encore.

Grâce au traitement multithread d'A-Parser, la vitesse de traitement des requêtes peut atteindre 3800-4000 requêtes par minute.

Présentation du scraper : vitesse de fonctionnement

La conservation des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarit intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'exporter les données dans divers formats, y compris JSON, SQL et CSV.

Données collectées

  • Présence dans la liste des sites suspects

quelles données collecte le scraper SE::Google::SafeBrowsing

Cas d'utilisation

  • Vérification d'une liste de domaines pour l'inscription en liste noire Google
  • Surveillance de ses propres domaines pour l'inscription en liste noire Google

Requêtes

Comme requêtes, il est nécessaire d'indiquer l'URL du site recherché, par exemple :

http://a-parser.com/
http://www.yandex.ru/
http://facebook.com/
http://youtube.com/
http://perfect-soft.net/

Exemples de formats de sortie

A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarit intégré Template Toolkit, ce qui lui permet de sortir les résultats sous n'importe quelle forme, ainsi que de manière structurée, par exemple CSV ou JSON

Exportation de la liste de vérification en liste noire

Format du résultat :

$query: $exists\n

Exemple de résultat affichant l'URL et si elle se trouve dans la liste noire de Google :

http://youtube.com/: 0
http://www.yandex.ru/: 0
http://a-parser.com/: 0
http://perfect-soft.net: 1
http://facebook.com/: 0

Sortie des résultats dans un tableau CSV

L'utilitaire intégré $tools.CSVLine permet de créer des documents tabulaires corrects, prêts pour l'importation dans Excel ou Google Sheets.

Format général du résultat :

[% tools.CSVline(query.orig,p1.exists) %]

Nom du fichier :

$datefile.format().csv

Texte initial :

Site,Résultat de la vérification

Exemple de résultat :

Site,Résultat de la vérification
http://youtube.com/,0
http://www.yandex.ru/,0
http://a-parser.com/,0
http://perfect-soft.net,1
http://facebook.com/,0
astuce

Dans le Format général des résultats, le gabarit Template Toolkit est utilisé pour afficher la requête et la vérification dans la liste noire.

Dans le nom du fichier de résultats, il suffit de changer l'extension du fichier en csv.

Pour que l'option "Texte initial" soit disponible dans l' Éditeur de tâches, il faut activer "Plus d'options". Dans "Texte initial", nous inscrivons les noms des colonnes séparés par une virgule et nous laissons la deuxième ligne vide.

Sauvegarde au format SQL

Format du résultat :

[% "INSERT INTO volumes VALUES('" _ query.query _ "', '" _ exists _ "')\n" %]

Exemple de résultat :

INSERT INTO serp VALUES('http://www.yandex.ru/', '0')
INSERT INTO serp VALUES('http://a-parser.com/', '0')
INSERT INTO serp VALUES('http://perfect-soft.net', '1')
INSERT INTO serp VALUES('http://facebook.com/', '0')
INSERT INTO serp VALUES('http://youtube.com/', '0')

Dump des résultats en JSON

Format de sortie general:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = p1.query.orig;
obj.exists = p1.exists;

obj.json %]

Texte initial:

[

Texte final:

]

Exemple de résultat :

[{"query":"http://www.yandex.ru/","exists":"0"},
{"query":"http://youtube.com/","exists":"0"},
{"query":"http://facebook.com/","exists":"0"},
{"query":"http://a-parser.com/","exists":"0"},
{"query":"http://perfect-soft.net","exists":"1"}]
astuce

Pour que les options "Texte initial" et "Texte final" soient disponibles dans l' Éditeur de tâches, il faut activer "Plus d'options".

Traitement des résultats

A-Parser permet de traiter les résultats directement pendant la collecte de données, dans cette section nous avons listé les cas les plus populaires pour le scraper SE::Google::SafeBrowsing

Sauvegarde des domaines avec une valeur de vérification "1"

Ajouter un filtre et dans la liste déroulante choisir la variable de la valeur de vérification $exists - Listed as suspicious. Choisir le type : String equals. Ensuite, dans String (Chaîne), il faut inscrire la valeur dont nous avons besoin 1. Avec ce filtre, vous pourrez supprimer tous les résultats ayant une valeur non souhaitée.

Exemple de filtrage
Télécharger l'exemple

Comment importer l'exemple dans A-Parser

eJx1VEuP2jAQ/ivI4tBKEMqhl9wAlaoVXbYLe2I5mGTCujger+3wUJT/3rETEth2
b57H983bJXPcHuyjAQvOsnhTMh3eLGarb3H8HXEvIY5XPIOpwZMVat8b9uZCgunB
medaAhswzY0F4/GbD2HklkLGC+nYoGTuooFi4BGMEannECnJySskBxKOXBbenmLO
hWJVh8iEdGDIhdL0XDGDs7CU+6AxrWs/eCu4vGEa0xu1E6hIsKAsq7bbK4udo8m5
J+vrcdR0oDWu+BHWWMeGTu2b8MBzT95PuQNvjbJA9Olz5M6egaep8DG5rCP4FnVR
n5V4C8kpJF96GgF2bjAnlYNA4JWXa3Yb1g8yI4oiYH/XGBZnXFoYMEupzjklkr63
CGoNd2iWoQekLxmqiZQLOILs3AL/tBAypXlOMgL9aID/d1n+w1G15d2GojmfDOXQ
sgRpuvzVoVJc4N7PfEd1S5ELR7KdYaH8YL6Q8gCg2549+J7laKAN0zA30WmnNSi/
VN3IJrpT3ZVxN5Z7ZYIqE/tls6hXz0Kt6XCWaob+BHxdqpCSxmLhqVuPiW3G4IUu
wffgWQjhS78eCHOI0v5c1alqI2j9vvoEc+rkbdSGMuFSPj8tbi2sWykSXp3T8WjE
h/WpRgnmoxfVaE+nU3ThKoVzZIpOnfEEdoiHe+cLFq7Ywb1Sg8kgcUOLmYtUOJ6E
TmKPtKzUsGrb/hHtV1N+/FPEZUX78Mc+1hDfPA8gHU3BhhMeV38BeN+pvw==
astuce

Voir aussi : Filtres de résultats

Paramètres possibles

Nom du paramètreValeur par défautDescription
CheckDomainChoix du type de vérification (Domain / Full link)