SE::Yandex::WordStat - WordStat Scraper. Verzamelen van trefwoorden en vertoningsstatistieken

Overzicht van de scraper
Wordstat is een dienst van Yandex die is ontworpen om de interesse van gebruikers voor verschillende onderwerpen te beoordelen en zoekwoorden te selecteren voor SEO-optimalisatie en contextuele advertenties. Bovendien kunt u met Wordstat Yandex de seizoensgebondenheid en geografische afhankelijkheid van zoekopdrachten evalueren.
De Yandex WordStat zoekwoord-scraper ondersteunt automatische vermenigvuldiging van zoekopdrachten, zodat u er zeker van kunt zijn dat u het maximale aantal resultaten uit de zoekresultaten haalt. Ook kan A-Parser automatisch gerelateerde zoekopdrachten volgen tot een opgegeven diepte.
De functionaliteit van A-Parser stelt u in staat om instellingen voor gegevensextractie op te slaan voor toekomstig gebruik (presets), schema's voor gegevensextractie in te stellen en nog veel meer. U kunt automatische vermenigvuldiging van zoekopdrachten, substitutie van subquery's uit bestanden, het doorlopen van alfanumerieke combinaties en lijsten gebruiken om het maximaal mogelijke aantal resultaten te verkrijgen bij de gegevensextractie van Yandex Wordstat.
Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV.
Toepassingen van de scraper
🔗 Wordstat-gegevensextractie in de diepte
Gebruik van de Yandex WordStat scraper voor gegevensextractie in de diepte.
🔗 Schatting van zoekfrequentie via WordStat
Schatting van zoekfrequentie via WordStat
Accounts
Voor de werking van de scraper
SE::Yandex::WordStat zijn Yandex-accounts vereist. Accounts kunnen worden geregistreerd met de scraper
SE::Yandex::Register of voeg simpelweg bestaande accounts toe aan het bestand files/SE-Yandex/accounts.txt in het ondersteunde formaat.
U kunt ook accountregistratie "on-the-fly" inschakelen.
Om te werken met autorisatie via sessie, moet de gegevensregel in dit formaat zijn:
[email protected];MAQT78Z31Rinx4H;{"answer":"qmfhsxdcrk","proxy":"185.104.120.45:3128","session_id":"3:1748440908.5.0.1748440867459:ZXBxpg:47e4.1.2:1|2191075974.41.2.2:41.3:1748440908|3:10308131.797655.5pfkoRZWgLJGntKTlcUhYdysNfk"}
Verzamelde gegevens
- Aantal vertoningen voor de opgegeven zoekopdracht
- Datum van update van de statistieken
- Lijst van alle zoekwoorden gerelateerd aan de opgegeven zoekopdracht en hun aantal vertoningen per maand
- Lijst van alle aanvullende zoekwoorden waarnaar gebruikers hebben gezocht en hun aantal vertoningen per maand

Mogelijkheden
- Scrapt het maximale aantal resultaten dat Wordstat biedt - 40 pagina's van 50 items
- Ondersteunt selectie van de zoekregio (met subgroepen)
- Kan gevonden zoekwoorden automatisch opnieuw als zoekopdracht invoeren (optie Parse to level)
- Mogelijkheid om meerdere regio's tegelijk te selecteren voor evaluatie
- Ondersteuning voor het automatisch omzeilen van Smart captcha en de mogelijkheid om grafische captcha's te omzeilen met de AntiCaptcha-service of een andere service die hun API ondersteunt
- Keuze van apparaattype
- Mogelijkheid om de autorisatiemethode te kiezen
- Mogelijkheid om accounts "on-the-fly" te registreren
- Ondersteunt het werken met uitgebreide accountformaat en kan de geheime vraag beantwoorden (als het antwoord in
info). Gebruikt ook de opgeslagen proxy voor autorisatie (als deze ininfo).
Gebruiksscenario's
- Schatting van de hoeveelheid verkeer per zoekwoord (frequentie)
- Zoeken naar nieuwe zoekwoorden in een vergelijkbaar thema
- Verzamelen van grote databases met zoekwoorden van verschillende thema's
- Alle andere varianten waarbij Yandex.Wordstat op de een of andere manier wordt gescraped
Zoekopdrachten
Als zoekopdrachten moeten zoekwoorden worden opgegeven, net alsof u ze rechtstreeks in het zoekformulier van Wordstat zou invoeren, bijvoorbeeld:
ramen moskou
"ramen moskou"
!ramen !moskou
Voorbeelden van resultaatweergave
A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in elke gewenste vorm kunnen worden weergegeven, evenals in gestructureerde formaten zoals CSV of JSON
Standaard uitvoer
Resultaatformaat:
$query - $totalcount, updated: $updatedate\nkeywords:\n$keys.format('$key: $count\n')\nadditional keywords:\n$search.format('$key: $count\n')
Het resultaat toont de oorspronkelijke zoekopdracht, het aantal vertoningen, de datum van de statistiek-update, een lijst met gerelateerde zoekwoorden en hun maandelijkse vertoningen, en een lijst met aanvullende zoekwoorden en hun maandelijkse vertoningen:
!ramen !moskou - 10368, updated: 16/05/2013
keywords:
ramen moskou: 32367
kunststof ramen moskou: 8994
pvc ramen moskou: 4813
ramen kopen moskou: 2561
ramen prijzen moskou: 1706
moskou werk ramen: 1547
vacatures ramen moskou: 1187
houten ramen moskou: 1087
loket +één raam moskou: 1021
...
additional keywords:
productie pvc ramen: 8512
ramen rehau: 15686
ramen salamander: 1576
ramen kbe: 3798
ramen kbe: 6089
ramen kbe: 3227
balkonbeglazing: 83216
prieeltjes: 471213
loggiabeglazing: 26366
kantoorwanden: 18740
montage van ramen: 26223
Uitvoer naar CSV-tabel
Resultaatformaat:
[% FOREACH i IN keys;
tools.CSVline(query, i. key, i.count);
END %]
Voorbeeld van resultaat:
scraper websites, scraper websites, 8055
scraper websites, gratis scraper websites, 1122
scraper websites, scraper officiële website, 666
scraper websites, websites cloud scraper, 507
scraper websites, scraper email +van website, 477
scraper websites, scraper website downloaden, 434
scraper websites, scraper adressen websites, 390
scraper websites, scraper websites online, 366
scraper websites, turbo scraper websites, 342
scraper websites, turbo scraper officiële website, 309
website scraper, cloud scraper officiële website, 308
scraper websites, scraper websites excel, 276
scraper websites, sliza scraper website, 259
Opslaan in SQL-formaat
Resultaatformaat:
[% FOREACH i IN keys;
"INSERT INTO keys VALUES('" _ query _ "', '"; i.key _ "', '"; i.count _ "')\n";
END %]
Voorbeeld van resultaat:
INSERT INTO serp VALUES('test', 'test', '10837937')
INSERT INTO serp VALUES('test', 'testrit', '1164338')
INSERT INTO serp VALUES('test', 'deeg +voor deeg', '879980')
INSERT INTO serp VALUES('test', 'tests online', '792560')
INSERT INTO serp VALUES('test', 'testrit video', '550164')
INSERT INTO serp VALUES('test', 'recept voor deeg', '484489')
INSERT INTO serp VALUES('test', 'tests +met antwoorden', '449401')
INSERT INTO serp VALUES('test', 'test 2014', '427602')
INSERT INTO serp VALUES('test', 'tests gratis', '315144')
INSERT INTO serp VALUES('test', 'gratis tests', '315096')
INSERT INTO serp VALUES('test', 'tests +voor meisjes', '309355')
INSERT INTO serp VALUES('test', 'tests +per thema', '293917')
INSERT INTO serp VALUES('test', 'spellen tests', '288989')
Resultaatdump in JSON
Algemeen resultaatformaat:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.updatedate = p1.updatedate;
obj.totalcount = p1.totalcount;
obj.keys = [];
FOREACH item IN p1.keys;
obj.keys.push({
key = item.key
count = item.count
});
END;
obj.json %]
Begintekst:
[
Eindtekst:
]
Voorbeeld van resultaat:
[{
"updatedate": "12.03.2014",
"totalcount": "10837937",
"keys": [
{
"count": "10837937",
"key": "test"
},
{
"count": "1164338",
"key": "testrit"
},
{
"count": "879980",
"key": "deeg +voor deeg"
},
{
"count": "792560",
"key": "tests online"
},
]
}]
Zie ook: Resultaatfilters
Mogelijke instellingen
| Parameter | Standaardwaarde | Beschrijving |
|---|---|---|
| Pages count | 10 | Aantal pagina's om te scrapen |
| Region | All | Zoekregio |
| Remove + from keywords | ☐ | Plusteken (+) verwijderen uit gevonden zoekopdrachten |
| AntiGate preset | default | De scraper Util::AntiGate moet vooraf worden geconfigureerd - geef uw toegangssleutel en andere parameters op, en selecteer vervolgens de gemaakte preset hier |
| AntiGate preset for Login | default | AntiGate preset voor login. De scraper Util::AntiGate moet vooraf worden geconfigureerd met parameters, en selecteer vervolgens de gemaakte preset hier |
| Type | All | Keuze van apparaattype |
| Accounts | Only from "accounts.txt" | Keuze van methode voor het werken met accounts: Always auto register - altijd automatisch accounts "on-the-fly" registreren, hiervoor moet een geconfigureerde preset worden geselecteerd in de parameter SE::Yandex::Register preset. Auto register if no more in "accounts.txt" - eerst worden bestaande accounts uit accounts.txt gebruikt, en als deze opraken wordt automatische registratie "on-the-fly" gebruikt, waarvoor een geconfigureerde preset moet worden geselecteerd in de parameter SE::Yandex::Register preset. Only from "accounts.txt" - alleen bestaande accounts uit accounts.txt gebruiken, en als deze opraken - de opgegeven tijd wachten (parameter Wait new accounts in "accounts.txt") op nieuwe accounts. Only by session_id from "accounts.txt" - autorisatie via cookies. |
| Wait new accounts in "accounts.txt" | 0 | Wachttijd voor nieuwe accounts in accounts.txt |
| Remove bad accounts | Always, except wrong login/password | Automatische verwijdering van "slechte" accounts: Always - altijd verwijderen. Always, except wrong login/password - altijd verwijderen, behalve wanneer Yandex meldt dat een onjuist login/wachtwoord is opgegeven. Het feit is dat Yandex zo'n melding kan geven bij een IP-ban voor een volledig werkend account, daarom kunnen dergelijke accounts optioneel worden behouden voor hergebruik. Never - nooit verwijderen. Ongeacht de gekozen optie worden accounts niet verwijderd bij proxy-/browserfouten |
| SE::Yandex::Register preset | default | Keuze van instellingenpreset voor SE::Yandex::Register |
| Authorization method | HTTP | Autorisatiemethode: HTTP - snel, niet veeleisend voor resources. Chrome - langzaam, veeleisend voor resources, kan theoretisch de levensduur van accounts verlengen |
| Chrome headless | ☑ | Als deze optie is ingeschakeld, wordt de browser niet weergegeven |
| Use sessions | ☑ | Gebruik van sessies |
| Do not reset session if authorization passed | ☑ | Sessie niet resetten bij fouten als de scraper al is geautoriseerd |
| Use Wordstat 2 | ☐ | Gebruik van Wordstat 2 |
| Wordstat 2 parse all table data | ☑ | Maakt het mogelijk om direct alle 2000 resultaten per zoekopdracht te downloaden zonder door de paginering te gaan |

