Hoppa till huvudinnehåll

SE::Yandex::SQI - Kontrollera webbplatsens kvalitetsindex (SQI) i Yandex

Översikt av scraper

Översikt av scraperSE::Yandex::SQISE::Yandex::SQI – kontroll av webbplatsens kvalitetsindex i Yandex. Otroligt snabb scraper, arbetshastighet 3000-7000 förfrågningar per minut.

Du kan använda automatisk multiplikation av frågor, infogning av underfrågor från filer, generering av alfanumeriska kombinationer och listor för att få största möjliga mängd resultat. Genom att använda resultatfiltrering kan du omedelbart rensa resultatet och ta bort allt onödigt skräp (genom att använda minusord).

Funktionaliteten i A-Parser gör det möjligt att spara inställningar för scrapingen i scrapern SE::Yandex::SQI för framtida bruk (förinställningar), schemalägga dataskrapning och mycket mer.

Spara resultat är möjligt i den form och struktur som du behöver, tack vare den inbyggda kraftfulla mallmotorn Template Toolkit som gör det möjligt att tillämpa ytterligare logik på resultaten och exportera data i olika format, inklusive JSON, SQL och CSV.

Data som samlas in

  • Webbplatsens kvalitetsindex (Yandex SQI)
  • Data om förekomst av märken på webbplatsen (1 - märke erhållet, 0 - inget märke):
    • Användarnas val
    • Populär webbplats
    • Säker anslutning
    • Turbo-sidor
    • Om webbplatsen är officiell
  • För märkena "Användarnas val" och "Populär webbplats" kan man få graden av beredskap för att erhålla märket som ett mellanvärde från 0 till 1, till exempel 0.4.
  • Antal recensioner, betyg och rating
  • Butikens betyg i produktsök och butikens betyg på Yandex Market (om dessa data är tillgängliga för den sökta webbplatsen)

Användningsfall

  • Bedömning av en webbplats användbarhet ur Yandex perspektiv
  • Insamling av titlar

Frågor

Som frågor måste domänen för den sökta webbplatsen anges. Det går att ange både med och utan protokoll, till exempel:

yandex.ru 
google.com
vk.com
facebook.com
https://a-parser.com

Alternativ för resultatvisning

A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör att den kan visa resultat i valfri form, såväl som i strukturerad form, till exempel CSV eller JSON

Standardutdata

Resultatformat:

$query: $sqi\n

Exempel på resultat där den ursprungliga frågan och dess SQI visas:

facebook.com: 130000  
yandex.ru: -1
https://a-parser.com: 110
google.com: 120000
vk.com: 340000

Om SQI för domänen inte är tillgänglig blir resultatet -1.

Utdata till CSV-tabell

Resultatformat:

[% tools.CSVline(query, sqi, rating); %]

Filnamn:

$datefile.format().csv

Inledande text:

Domän,Betyg,Författare,Pris

tips

För att alternativet "Prepend text" ska vara tillgängligt i Task Editor måste du aktivera "More options". I "Prepend text" skriver vi kolumnnamnen separerade med kommatecken och gör den andra raden tom.

Spara i SQL-format

Resultatformat:

[% "INSERT INTO sqi VALUES('" _ query _ "', '" _ sqi _ "', '" _ rating _ "')\n" %]

Exempel på resultat:

INSERT INTO sqi VALUES('google.com', '122000', '87')
INSERT INTO sqi VALUES('yandex.ru', 'none', '92')
INSERT INTO sqi VALUES('https://a-parser.com', '200', '')
INSERT INTO sqi VALUES('vk.com', '326000', '73')
INSERT INTO sqi VALUES('facebook.com', '117000', '66')

Dumpa resultat till JSON

Allmänt resultatformat:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.sqi = p1.sqi;
obj.rating = p1.rating;

obj.json %]

Starttext:

[

Sluttext:

]

Exempel på resultat:

[{"query":"vk.com","rating":73,"sqi":326000},
{"query":"google.com","rating":87,"sqi":122000},
{"query":"https://a-parser.com","rating":"","sqi":200},
{"query":"yandex.ru","rating":92,"sqi":"none"},
{"query":"facebook.com","rating":66,"sqi":117000}]
tips

För att alternativen "Prepend text" och "Append text" ska vara tillgängliga i Task Editor måste du aktivera "More options".

Möjliga inställningar

ParameterStandardvärdeBeskrivning
AntiGate presetdefaultVal av förinställning Util::AntiGateUtil::AntiGate, mer detaljer om inställningen här
AntiGate preset for old captchadefaultLiknar AntiGate preset, men används endast för vanliga (gamla, i form av en bild) captchas. Om ingen förinställning väljs här, kommer förinställningen vald i AntiGate preset att användas för dessa captchas.
Experimental img captcha max count5Maximalt antal upprepade captcha-bilder per försök
Preffered captcha typeClickVal av föredragen captcha-typ: Click eller Puzzle
Use sessionsSparar bra sessioner vilket gör det möjligt att skrapa ännu snabbare med färre fel