Hoppa till huvudinnehåll

SE::Yandex::Direct - scraper för annonser från Yandex Direct direct.yandex.ru

Översikt av scrapern

SE::Yandex::Direct

SE::Yandex::DirectSE::Yandex::Direct – scraper för Yandex Direct-annonser. Automatiserad insamling av all data: antal annonser för en specifik sökfråga, title, text, domän, ytterligare länkar och deras ankare, taggar.

Du kan använda automatisk frågemultiplikation, substitution av underfrågor från filer, iteration av alfanumeriska kombinationer och listor för att få största möjliga mängd resultat. Genom att använda resultatfiltrering kan du omedelbart rensa resultatet genom att ta bort allt onödigt skräp (med hjälp av negativord).

Funktionaliteten i A-Parser gör det möjligt att spara inställningar för scrapern SE::Yandex::Direct för framtida bruk (förinställningar), ställa in schemalagd dataskrapning och mycket mer.

Spara resultat är möjligt i den form och struktur du behöver, tack vare den inbyggda kraftfulla mallmotorn Template Toolkit som gör det möjligt att tillämpa ytterligare logik på resultaten och exportera data i olika format, inklusive JSON, SQL och CSV.

Data som samlas in

  • Antal annonser för en specifik fråga
  • Titel, text och domän
  • Ytterligare länkar och deras ankare
  • Taggar
  • Om resultatet är en annons

Funktioner

  • Skrapar det maximala antalet resultat som Yandex Direct tillhandahåller – 10 sidor
  • Stöder val av sökregion
  • Möjlighet att kringgå captcha med tjänsten AntiCaptcha eller någon annan som stöder deras API (det rekommenderas att aktivera parametern is_russian i AntiGate-inställningarna)

Användningsfall

  • Insamling av konkurrenter som annonserar på givna frågor

Frågor

Som frågor måste du ange sökfraser, till exempel:

Köp kite   
Photoshop
Fönster i Stockholm
Lägenhetsrenovering

Frågesubstitutioner

Du kan använda inbyggda makron för automatisk substitution av underfrågor från filer, till exempel om vi vill lägga till en lista med andra ord till varje fråga, ange några huvudfrågor:

fantasy
tower defense
rpg

I frågeformatet anger vi ett makro för substitution av ytterligare ord från filen keywords.txt, denna metod gör det möjligt att öka variationen av frågor mångfaldigt:

{subs:keywords} $query 

Detta makro kommer att skapa lika många ytterligare frågor som det finns i filen för varje ursprunglig sökfråga, vilket totalt ger [antal ursprungliga frågor] x [antal frågor i filen Keywords] = [totalt antal frågor] som ett resultat av makrot.

Till exempel, om filen keywords.txt innehåller:

free
online

Slutligen kommer substitutionsmakrot att förvandla 3 huvudfrågor till 6:

free fantasy
online fantasy
free tower defense
online tower defense
free rpg
online rpg

Exempel på resultatutdata

A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör att den kan mata ut resultat i valfri form, såväl som i strukturerad form, till exempel CSV eller JSON

Standardutdata

Resultatformat:

$query - $totalcount\n$ads.format('$domain: $title - $text\n')

Exempel på resultat:

Photoshop - 5  
www.syssoft.ru: Adobe Photoshop CS5 - Rabatter - Photoshop CS5 med rabatt från auktoriserad partner. Beställ nu!
www.disted.ru: Lär dig fotografera! - Distansutbildning på ryska vid New York Institute of Photography.
www.softkey.ru: Licensierad Adobe Photoshop CS! - Bästa nya funktionerna för bildbehandling från Adobe Photoshop.
www.softprof-it.ru: Licensierad Photoshop från 23000 rubel - Lågt pris på Photoshop - från 23000 rubel. Ring. Kontrollera köpvillkoren.
photoshop.pro1904.ru: Virtuost arbete i Photoshop! - Unik kurs "Photoshop från noll". Bli en Photoshop-mästare.
Köp kite - 0
Fönster i Stockholm - 33
www.imperia51.com: Fönster i Murmansk! Låga priser! - Mycket låga priser! Garanti! Kvalitativ montering! Allt detta är «Imperia Okon»!
mirperegorodok-kms.ru: Företaget «Mir Peregorodok» - Aluminiumsystem: kontorsväggar, entrépartier, dörrar...
inkar-avto.ru: Moskva-Piter-Moskva med buss - Mån,tis,ons,tors - 1000 rub, fre,lör,sön - 1300.

Utdata till CSV-tabell

Allmänt resultatformat:

[% FOREACH i IN p1.ads;
tools.CSVline(i.domain, i.title, i.text);
END %]

Filnamn:

$datefile.format().csv

Starttext:

Domän,Rubrik,Text

tips

I Allmänt resultatformat används mallmotorn Template Toolkit för att mata ut elementen i arrayen $ads i en FOREACH-loop.

I filnamnet för resultaten behöver du bara ändra filändelsen till csv.

För att alternativet "Prepend text" ska vara tillgängligt i Task Editor, måste du aktivera "More options". I "Prepend text" skriver vi kolumnnamnen separerade med kommatecken och gör den andra raden tom.

Spara i SQL-format

Resultatformat:

[% FOREACH ads;
"INSERT INTO ads VALUES('" _ domain _ "', '" _ title _ "', '" _ text _ "')\n";
END %]

Exempel på resultat:

INSERT INTO ads VALUES('oknamr.ru', 'Plast<b>fönster</b> billigt <b>i</b> <b>Moskva</b>: köp till låga...', 'Företaget «<b>FÖNSTER</b> <b>MOSKVA</b>» utför installation av plast<b>fönster</b>, dörrar och väggar, samt inglasning av balkonger <b>i</b> <b>Moskva</b> och förorter.')
INSERT INTO ads VALUES('gor-okna.ru', 'Köp <b>fönster</b> PVC billigt | <b>Fönster</b> PVC <b>i</b> <b>Moskva</b> till priser...', 'Beställ kvalitativa <b>fönster</b> PVC <b>i</b> <b>Moskva</b> med leverans och installation. ... <b>Moskva</b>. från 9:00 till 21:00 dagligen.')
INSERT INTO ads VALUES('balcon-msk.ru', 'Inglasning av balkonger och loggior <b>i</b> <b>Moskva</b>.', 'Företaget «Balkonger <b>Moskva</b>» utför professionell inglasning av balkonger och loggior ... I priset ingår: <b>Fönster</b> aluminium 3,2x0,7m h-1,5m, vattenavledning, montering...')
INSERT INTO ads VALUES('fönsterмаркет33.рф', 'Vår! Dags att köpa nya <b>fönster</b> PVC! Present – Myggnät…', '<b>Fönster</b> 1.3x1.4 för 9900 nyckelfärdigt i panelhus! <b>Fönster</b> 2.0x1.4 för 13500 nyckelfärdigt!')
INSERT INTO ads VALUES('topokno72.ru', 'Plast<b>fönster</b>. Dörrar, balkonger', 'Plast<b>fönster</b> och alla konstruktioner i PVC WinTech, Exprof, Proplex, Rehau, KBE')
INSERT INTO ads VALUES('okna-moskvy1.ru', '<b>Fönster</b> <b>Moskva</b>. Officiell webbplats', 'Endast till slutet av månaden. <b>Fönster</b> REHAU med rabatt upp till 60%. Multiglas på köpet. Klicka!')
INSERT INTO ads VALUES('russia.superjob.ru', 'Plast- och aluminium<b>fönster</b>', 'Nya kollegor väntar redan på dig! Smidig sökning, gratis rekommendationer, snabb import.&nbsp;&middot; 20 år på marknaden. Rekommendationer. Smidig sökning. Online-support')
INSERT INTO ads VALUES('gorokna-11.ru', 'Plast<b>fönster</b> <b>i</b> Vorkuta. <b>Fönster</b>, loggior, balkonger', '<b>Fönster</b> PVC med rabatt i Vorkuta')
INSERT INTO ads VALUES('shop.oknagorizont.ru', 'Webbutik <b>fönster</b>, billiga plast<b>fönster</b>...', 'Webbutik <b>fönster</b> utan montering, billiga plast<b>fönster</b> redan idag, låga priser på <b>fönster</b>. Många i lager och på beställning, snabb tillverkning...')
INSERT INTO ads VALUES('msk-oknaidveri.ru', 'Plast<b>fönster</b> PVC och ingångsdörrar i metall...', 'Klassiska PVC-<b>fönster</b> - det är <b>fönster</b>, tillverkade av plast, certifierade av ryska byggministeriet och uppfyller SNiP och andra...')
INSERT INTO ads VALUES('oknamag.pro', 'Plast<b>fönster</b> för sommarstugan köp hos Oknamag Pro', 'Mått på plast<b>fönster</b>: 600 höjd, 600 bredd. Tillgängliga alternativ tillv.. Snabbvisning. Produktkod: opd0606.')
INSERT INTO ads VALUES('фурнитура-fönster.рф', 'Beslag för plast<b>fönster</b> - Reservdelar...', 'Beslag för <b>fönster</b> <b>i</b> detaljhandel och grossist. Vi hjälper dig att göra rätt val av tillbehör och reservdelar för dina plast<b>fönster</b>.')
INSERT INTO ads VALUES('OknaGarant.ru', 'Färdiga plast<b>fönster</b> <b>i</b> <b>Moskva</b>, köp nya...', '<b>Fönster</b> väntar redan på dig i vårt lager! Lagret ligger <b>i</b> <b>Moskva</b> inom MKAD. Besparing, kostnaden är betydligt lägre (jämfört med <b>fönster</b> på beställning).')
INSERT INTO ads VALUES('domaster.ru', 'Fönstertillbehör och beslag köp <b>i</b> <b>Moskva</b>...', 'För <b>fönster</b> och dörrar. Webbutiken Brass — platsen där du köper tillbehör för skötsel av <b>fönster</b> och beslag från olika företag med leverans i Ryssland.')
INSERT INTO ads VALUES('sms-m.ru', 'Plast<b>fönster</b> tillverkning <b>i</b> <b>Moskva</b>', 'När frågan om att minimera kostnader vid tillverkning av modulbyggnader uppstod, fattade företaget StroyMontazhServis-M beslutet att starta egen...')
INSERT INTO ads VALUES('rosband.ru', 'Köp plast<b>fönster</b> <b>i</b> <b>Moskva</b>', 'Plast<b>fönster</b> har utmärkta värmeisoleringsegenskaper och det finns ingen anledning att spendera mer ... g. <b>Moskva</b>, 1-y Dobryninskiy pereulok, 19 str. 6.')
INSERT INTO ads VALUES('moskva.miltor.ru', 'Köp plast<b>fönster</b> <b>i</b> <b>Moskva</b>: 185 erbjudanden', 'Köp plast<b>fönster</b> <b>i</b> <b>Moskva</b> kan du göra genom att använda annonserna på vår webbplats. Här får du veta kostnaden för plast<b>fönster</b>, beställningsvillkor och adress...')
INSERT INTO ads VALUES('city-jaluzi.ru', 'Persienner för <b>fönster</b> köp billigt <b>i</b> <b>Moskva</b> - recensioner, foto...', 'Vi tillverkar persienner för <b>fönster</b>, syr gardiner, monterar gardinstänger och rulljalusier på beställning sedan 2006 Priser från 495 till 5 900 ₽ per 1 kv.m, Vi mäter gratis och...')

Dumpa resultat i JSON

Allmänt resultatformat:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.ads = [];

FOREACH item IN p1.ads;
obj.ads.push({
domain = item.domain
title = item.title
text = item.text
});
END;

obj.json %]

Starttext:

[

Sluttext:

]

Exempel på resultat:

[{"ads": [{"domain":"oknamr.ru","text":"Företaget «<b>FÖNSTER</b> <b>MOSKVA</b>» utför installation av plast<b>fönster</b>, dörrar och väggar, samt inglasning av balkonger <b>i</b> <b>Moskva</b> och förorter.","title":"Plast<b>fönster</b> billigt <b>i</b> <b>Moskva</b>: köp till låga..."},{"domain":"gor-okna.ru","text":"Beställ kvalitativa <b>fönster</b> PVC <b>i</b> <b>Moskva</b> med leverans och installation. ... <b>Moskva</b>. från 9:00 till 21:00 dagligen.","title":"Köp <b>fönster</b> PVC billigt | <b>Fönster</b> PVC <b>i</b> <b>Moskva</b> till priser..."},{"domain":"balcon-msk.ru","text":"Företaget «Balkonger <b>Moskva</b>» utför professionell inglasning av balkonger och loggior ... I priset ingår: <b>Fönster</b> aluminium 3,2x0,7m h-1,5m, vattenavledning, montering...","title":"Inglasning av balkonger och loggior <b>i</b> <b>Moskva</b>."},{"domain":"окнамаркет33.рф","text":"<b>Fönster</b> 1.3x1.4 för 9900 nyckelfärdigt i panelhus! <b>Fönster</b> 2.0x1.4 för 13500 nyckelfärdigt!","title":"Vår! Tid att köpa nya <b>fönster</b> PVC! Present – Myggnät…"},{"domain":"okna-moskvy1.ru","text":"Endast till slutet av månaden. <b>Fönster</b> REHAU med rabatt upp till 60%. Multiglas på köpet. Klicka!","title":"<b>Fönster</b> <b>Moskva</b>. Officiell webbplats"},{"domain":"окно61.рф","text":"Plast<b>fönster</b> till låga priser! Kvalitativ montering. Snabb leverans. Garanti.","title":"<b>Fönster</b> <b>i</b> Bataysk! Säsongsrabatter"},{"domain":"gorokna-11.ru","text":"<b>Fönster</b> PVC med rabatt i Vorkuta","title":"Plast<b>fönster</b> <b>i</b> Vorkuta. <b>Fönster</b>,loggior,balkonger"}]}]
tips

För att alternativen "Prepend text" och "Append text" ska vara tillgängliga i Task Editor, måste du aktivera "More options".

Möjliga inställningar

ParameterStandardvärdeBeskrivning
Pages count10Antal sidor att skrapa
Region of serp (lr=)MoskvaVal av sökregion (parametern lr=)
AntiGate presetdefaultAnvändning av tjänst för att lösa captcha. Du måste först konfigurera scrapern Util::AntiGateUtil::AntiGate - ange din åtkomstnyckel och andra parametrar, och sedan välja den skapade förinställningen här