Hoppa till huvudinnehåll

SE::Google::SafeBrowsing - Kontrollera domän i Googles svartlista

Översikt av scrapern

Google Safe Browsing scraper gör det möjligt att kontrollera en domän i Googles blacklist. Med hjälp av Google Safe Browsing scraper kan du kontrollera dina egna domändatabaser för förekomst i Googles blacklist. Mer detaljerad information om denna märkning finns i Google Sök-hjälpen.

Funktionaliteten i A-Parser gör det möjligt att spara inställningar för dataskrapning för framtida bruk (förinställningar), schemalägga dataskrapning och mycket mer.

Tack vare flertrådning i A-Parser kan hastigheten för bearbetning av förfrågningar nå 3800-4000 anrop per minut.

Översikt av scrapern: arbetshastighet

Resultaten kan sparas i det format och den struktur du behöver, tack vare den inbyggda kraftfulla mallmotorn Template Toolkit som gör det möjligt att tillämpa extra logik på resultaten och exportera data i olika format, inklusive JSON, SQL och CSV.

Insamlade data

  • Förekomst i listan över misstänkta webbplatser

vilka data samlar scrapern SE::Google::SafeBrowsing in

Användningsfall

  • Kontrollera en lista med domäner för listning i Googles blacklist
  • Övervaka egna domäner för listning i Googles blacklist

Förfrågningar

Som förfrågningar måste URL:en för den sökta webbplatsen anges, till exempel:

http://a-parser.com/
http://www.yandex.ru/
http://facebook.com/
http://youtube.com/
http://perfect-soft.net/

Exempel på resultatutdata

A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör det möjligt att mata ut resultat i valfri form, samt i strukturerad form som CSV eller JSON

Export av kontrollista för blacklist

Resultatformat:

$query: $exists\n

Exempel på resultat som visar URL och om den finns i Googles blacklist:

http://youtube.com/: 0
http://www.yandex.ru/: 0
http://a-parser.com/: 0
http://perfect-soft.net: 1
http://facebook.com/: 0

Utmatning av resultat i en CSV-tabell

Det inbyggda verktyget $tools.CSVLine gör det möjligt att skapa korrekta tabelldokument, redo för import till Excel eller Google Kalkylark.

Allmänt resultatformat:

[% tools.CSVline(query.orig,p1.exists) %]

Filnamn:

$datefile.format().csv

Initial text:

Webbplats,Kontrollresultat

Exempel på resultat:

Webbplats,Kontrollresultat
http://youtube.com/,0
http://www.yandex.ru/,0
http://a-parser.com/,0
http://perfect-soft.net,1
http://facebook.com/,0
tips

I Allmänt resultatformat används mallmotorn Template Toolkit för att mata ut förfrågan och blacklist-kontrollen.

I filnamnet för resultaten behöver du bara ändra filändelsen till csv.

För att alternativet "Prepend text" ska vara tillgängligt i Task Editor, måste du aktivera "More options". I "Prepend text" skriver vi kolumnnamnen separerade med kommatecken och gör den andra raden tom.

Spara i SQL-format

Resultatformat:

[% "INSERT INTO volumes VALUES('" _ query.query _ "', '" _ exists _ "')\n" %]

Exempel på resultat:

INSERT INTO serp VALUES('http://www.yandex.ru/', '0')
INSERT INTO serp VALUES('http://a-parser.com/', '0')
INSERT INTO serp VALUES('http://perfect-soft.net', '1')
INSERT INTO serp VALUES('http://facebook.com/', '0')
INSERT INTO serp VALUES('http://youtube.com/', '0')

Dumpa resultat till JSON

Allmänt resultatformat:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = p1.query.orig;
obj.exists = p1.exists;

obj.json %]

Starttext:

[

Sluttext:

]

Exempel på resultat:

[{"query":"http://www.yandex.ru/","exists":"0"},
{"query":"http://youtube.com/","exists":"0"},
{"query":"http://facebook.com/","exists":"0"},
{"query":"http://a-parser.com/","exists":"0"},
{"query":"http://perfect-soft.net","exists":"1"}]
tips

För att alternativen "Prepend text" och "Append text" ska vara tillgängliga i Task Editor, måste du aktivera "More options".

Bearbetning av resultat

A-Parser gör det möjligt att bearbeta resultat direkt under dataskrapningen. I det här avsnittet har vi listat de mest populära fallen för scrapern SE::Google::SafeBrowsing

Spara domäner med kontrollvärdet "1"

Lägg till ett filter och välj variabeln för kontrollvärdet $exists - Listed as suspicious i rullgardinslistan. Välj typ: String equal. Därefter skriver du in det värde vi behöver, 1, i fältet String (Sträng). Med ett sådant filter kan du ta bort alla resultat med oönskade värden.

Exempel på filtrering
Ladda ner exempel

Hur man importerar ett exempel till A-Parser

eJx1VEuP2jAQ/ivI4tBKEMqhl9wAlaoVXbYLe2I5mGTCujger+3wUJT/3rETEth2
b57H983bJXPcHuyjAQvOsnhTMh3eLGarb3H8HXEvIY5XPIOpwZMVat8b9uZCgunB
medaAhswzY0F4/GbD2HklkLGC+nYoGTuooFi4BGMEannECnJySskBxKOXBbenmLO
hWJVh8iEdGDIhdL0XDGDs7CU+6AxrWs/eCu4vGEa0xu1E6hIsKAsq7bbK4udo8m5
J+vrcdR0oDWu+BHWWMeGTu2b8MBzT95PuQNvjbJA9Olz5M6egaep8DG5rCP4FnVR
n5V4C8kpJF96GgF2bjAnlYNA4JWXa3Yb1g8yI4oiYH/XGBZnXFoYMEupzjklkr63
CGoNd2iWoQekLxmqiZQLOILs3AL/tBAypXlOMgL9aID/d1n+w1G15d2GojmfDOXQ
sgRpuvzVoVJc4N7PfEd1S5ELR7KdYaH8YL6Q8gCg2549+J7laKAN0zA30WmnNSi/
VN3IJrpT3ZVxN5Z7ZYIqE/tls6hXz0Kt6XCWaob+BHxdqpCSxmLhqVuPiW3G4IUu
wffgWQjhS78eCHOI0v5c1alqI2j9vvoEc+rkbdSGMuFSPj8tbi2sWykSXp3T8WjE
h/WpRgnmoxfVaE+nU3ThKoVzZIpOnfEEdoiHe+cLFq7Ywb1Sg8kgcUOLmYtUOJ6E
TmKPtKzUsGrb/hHtV1N+/FPEZUX78Mc+1hDfPA8gHU3BhhMeV38BeN+pvw==
tips

Se även: Resultatfilter

Möjliga inställningar

ParameternamnStandardvärdeBeskrivning
CheckDomainVal av kontrolltyp (Domain / Full link)