Vai al contenuto principale

SE::Google::SafeBrowsing - Controllo del dominio nella blacklist di Google

Panoramica dello scraper

Lo scraper Google Safe Browsing consente di verificare un dominio nella blacklist di Google. Con l'aiuto dello scraper Google Safe Browsing, puoi controllare i tuoi database di domini per la presenza nella blacklist di Google. Maggiori dettagli su questa segnalazione sono disponibili nella Guida di Ricerca Google.

Le funzionalità di A-Parser consentono di salvare le impostazioni di scraping per un uso futuro (preset), impostare pianificazioni di scraping e molto altro.

Grazie al multithreading di A-Parser, la velocità di elaborazione delle query può raggiungere 3800-4000 richieste al minuto.

Panoramica dello scraper: velocità operativa

Il salvataggio dei risultati è possibile nel formato e nella struttura necessari, grazie al potente motore di modelli integrato Template Toolkit che consente di applicare logica aggiuntiva ai risultati e di esportare i dati in vari formati, tra cui JSON, SQL e CSV.

Dati raccolti

  • Presenza nell'elenco dei siti sospetti

quali dati raccoglie lo scraper SE::Google::SafeBrowsing

Casi d'uso

  • Verifica di un elenco di domini per l'inserimento nella blacklist di Google
  • Monitoraggio dei propri domini per l'inserimento nella blacklist di Google

Query

Come query è necessario indicare l'URL del sito cercato, ad esempio:

http://a-parser.com/
http://www.yandex.ru/
http://facebook.com/
http://youtube.com/
http://perfect-soft.net/

Esempi di output dei risultati

A-Parser supporta la formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma libera o strutturata, come CSV o JSON

Esportazione dell'elenco di verifica nella blacklist

Formato del risultato:

$query: $exists\n

Esempio di risultato, in cui viene visualizzato l'URL e se si trova nella blacklist di Google:

http://youtube.com/: 0
http://www.yandex.ru/: 0
http://a-parser.com/: 0
http://perfect-soft.net: 1
http://facebook.com/: 0

Output dei risultati in una tabella CSV

L'utility integrata $tools.CSVLine consente di creare documenti tabulari corretti, pronti per l'importazione in Excel o Google Fogli.

Formato generale del risultato:

[% tools.CSVline(query.orig,p1.exists) %]

Nome del file:

$datefile.format().csv

Testo iniziale:

Sito,Risultato della verifica

Esempio di risultato:

Sito,Risultato della verifica
http://youtube.com/,0
http://www.yandex.ru/,0
http://a-parser.com/,0
http://perfect-soft.net,1
http://facebook.com/,0
suggerimento

Nel Formato generale dei risultati viene applicato il motore di modelli Template Toolkit per l'output della query e della verifica nella blacklist.

Nel nome del file dei risultati è sufficiente cambiare l'estensione del file in csv.

Affinché l'opzione "Prepend text" sia disponibile nell'Editor delle attività, è necessario attivare "More options". In "Prepend text" scriviamo i nomi delle colonne separati da virgola e rendiamo vuota la seconda riga.

Salvataggio in formato SQL

Formato del risultato:

[% "INSERT INTO volumes VALUES('" _ query.query _ "', '" _ exists _ "')\n" %]

Esempio di risultato:

INSERT INTO serp VALUES('http://www.yandex.ru/', '0')
INSERT INTO serp VALUES('http://a-parser.com/', '0')
INSERT INTO serp VALUES('http://perfect-soft.net', '1')
INSERT INTO serp VALUES('http://facebook.com/', '0')
INSERT INTO serp VALUES('http://youtube.com/', '0')

Dump dei risultati in JSON

Formato comune del risultato:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = p1.query.orig;
obj.exists = p1.exists;

obj.json %]

Testo iniziale:

[

Testo finale:

]

Esempio di risultato:

[{"query":"http://www.yandex.ru/","exists":"0"},
{"query":"http://youtube.com/","exists":"0"},
{"query":"http://facebook.com/","exists":"0"},
{"query":"http://a-parser.com/","exists":"0"},
{"query":"http://perfect-soft.net","exists":"1"}]
suggerimento

Affinché le opzioni "Prepend text" e "Append text" siano disponibili nell'Editor delle attività, è necessario attivare "More options".

Elaborazione dei risultati

A-Parser consente di elaborare i risultati direttamente durante lo scraping; in questa sezione abbiamo riportato i casi più popolari per lo scraper SE::Google::SafeBrowsing

Salvataggio dei domini con valore di verifica "1"

Aggiungere un filtro e nel menu a discesa selezionare la variabile del valore di verifica $exists - Listed as suspicious. Selezionare il tipo: String equal. Successivamente, in String (Stringa), inserire il valore necessario 1. Con questo filtro potrai rimuovere tutti i risultati con un valore non desiderato.

Esempio di filtraggio
Scarica esempio

Come importare l'esempio in A-Parser

eJx1VEuP2jAQ/ivI4tBKEMqhl9wAlaoVXbYLe2I5mGTCujger+3wUJT/3rETEth2
b57H983bJXPcHuyjAQvOsnhTMh3eLGarb3H8HXEvIY5XPIOpwZMVat8b9uZCgunB
medaAhswzY0F4/GbD2HklkLGC+nYoGTuooFi4BGMEannECnJySskBxKOXBbenmLO
hWJVh8iEdGDIhdL0XDGDs7CU+6AxrWs/eCu4vGEa0xu1E6hIsKAsq7bbK4udo8m5
J+vrcdR0oDWu+BHWWMeGTu2b8MBzT95PuQNvjbJA9Olz5M6egaep8DG5rCP4FnVR
n5V4C8kpJF96GgF2bjAnlYNA4JWXa3Yb1g8yI4oiYH/XGBZnXFoYMEupzjklkr63
CGoNd2iWoQekLxmqiZQLOILs3AL/tBAypXlOMgL9aID/d1n+w1G15d2GojmfDOXQ
sgRpuvzVoVJc4N7PfEd1S5ELR7KdYaH8YL6Q8gCg2549+J7laKAN0zA30WmnNSi/
VN3IJrpT3ZVxN5Z7ZYIqE/tls6hXz0Kt6XCWaob+BHxdqpCSxmLhqVuPiW3G4IUu
wffgWQjhS78eCHOI0v5c1alqI2j9vvoEc+rkbdSGMuFSPj8tbi2sWykSXp3T8WjE
h/WpRgnmoxfVaE+nU3ThKoVzZIpOnfEEdoiHe+cLFq7Ywb1Sg8kgcUOLmYtUOJ6E
TmKPtKzUsGrb/hHtV1N+/FPEZUX78Mc+1hDfPA8gHU3BhhMeV38BeN+pvw==
suggerimento

Impostazioni possibili

Nome parametroValore predefinitoDescrizione
CheckDomainScelta del tipo di verifica (Domain / Full link)