Passer au contenu principal

SE::Yandex::WordStat - Scraper WordStat. Collecte de mots-clés et statistiques d'impressions

img

Présentation du scraper

Wordstat est un service de Yandex conçu pour évaluer l'intérêt des utilisateurs pour diverses thématiques et pour la sélection de mots-clés pour l'optimisation SEO et la publicité contextuelle. De plus, avec Wordstat Yandex, vous pouvez évaluer la saisonnalité et la dépendance géographique des requêtes de recherche.

Le scraper de mots-clés Yandex WordStat prend en charge la multiplication automatique des requêtes, vous assurant d'obtenir le nombre maximal de résultats de la recherche. De plus, A-Parser peut passer automatiquement par les requêtes associées jusqu'à la profondeur spécifiée.

La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte de données pour une utilisation ultérieure (présélections), de définir un calendrier de collecte et bien plus encore. Vous pouvez utiliser la multiplication automatique des requêtes, la substitution de sous-requêtes à partir de fichiers, la génération de combinaisons alphanumériques et de listes pour obtenir le plus grand nombre possible de résultats lors de la collecte de données sur Yandex Wordstat.

La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarit intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'exporter les données dans divers formats, y compris JSON, SQL et CSV.

Cas d'utilisation du scraper

Comptes

Pour le fonctionnement du scraper SE::Yandex::WordStatSE::Yandex::WordStat, des comptes Yandex sont nécessaires. Les comptes peuvent être enregistrés à l'aide du scraper SE::Yandex::RegisterSE::Yandex::Register ou simplement en ajoutant des comptes existants dans le fichier files/SE-Yandex/accounts.txt au format pris en charge.

Il est également possible d'activer l'enregistrement des comptes "à la volée".

Pour utiliser l'autorisation par session, la ligne de données doit être au format suivant : [email protected];MAQT78Z31Rinx4H;{"answer":"qmfhsxdcrk","proxy":"185.104.120.45:3128","session_id":"3:1748440908.5.0.1748440867459:ZXBxpg:47e4.1.2:1|2191075974.41.2.2:41.3:1748440908|3:10308131.797655.5pfkoRZWgLJGntKTlcUhYdysNfk"}

Données collectées

  • Nombre d'impressions pour la requête spécifiée
  • Date de mise à jour des statistiques
  • Liste de tous les mots-clés associés à celui spécifié et leur nombre d'impressions par mois
  • Liste de tous les mots-clés supplémentaires recherchés par les utilisateurs et leur nombre d'impressions par mois

quelles données sont collectées par le scraper SE::Yandex::WordStat

Possibilités

  • Scrape le nombre maximal de résultats fournis par Wordstat - 40 pages de 50 éléments
  • Prend en charge le choix de la région de recherche (avec sous-groupes)
  • Peut insérer automatiquement les mots-clés trouvés comme nouvelles requêtes (option Parse to level)
  • Possibilité de choisir plusieurs régions à la fois pour l'évaluation
  • Prise en charge du contournement automatique de Smart captcha et possibilité de contourner le captcha graphique via le service AntiCaptcha ou tout autre service supportant leur API
  • Choix du type d'appareil
  • Possibilité de choisir la méthode d'autorisation
  • Possibilité d'enregistrer des comptes "à la volée"
  • Prend en charge le travail avec le format étendu de comptes et sait répondre à la question secrète (si la réponse est dans info). Utilise également le proxy sauvegardé pour l'autorisation (s'il est présent dans info).

Cas d'utilisation

  • Évaluation du volume de trafic par mot-clé (fréquence)
  • Recherche de nouveaux mots-clés de thématiques similaires
  • Collecte de grandes bases de mots-clés de différentes thématiques
  • Toute autre variante impliquant la collecte de données Yandex.WordStat sous une forme ou une autre

Requêtes

Les requêtes doivent être indiquées sous forme de mots-clés, exactement comme si vous les saisissiez directement dans le formulaire de recherche Wordstat, par exemple :

fenêtres moscou    
"fenêtres moscou"
!fenêtres !moscou

Variantes d'affichage des résultats

A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarit intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous n'importe quelle forme, y compris structurée comme CSV ou JSON

Affichage par défaut

Format du résultat :

$query - $totalcount, updated: $updatedate\nkeywords:\n$keys.format('$key: $count\n')\nadditional keywords:\n$search.format('$key: $count\n')

Le résultat affiche la requête initiale, son nombre d'impressions, la date de mise à jour des statistiques, la liste des mots-clés associés et leurs impressions mensuelles, ainsi que la liste des mots-clés supplémentaires et leurs impressions mensuelles :

!fenêtres !moscou - 10368, mis à jour: 16/05/2013    
keywords:
fenêtres moscou: 32367
fenêtres plastique moscou: 8994
fenêtres pvc moscou: 4813
acheter fenêtres moscou: 2561
fenêtres prix moscou: 1706
moscou travail fenêtres: 1547
vacances fenêtres moscou: 1187
fenêtres en bois moscou: 1087
service +guichet unique moscou: 1021
...
additional keywords:
production fenêtres pvc: 8512
fenêtres rehau: 15686
fenêtres salamander: 1576
fenêtres kbe: 3798
fenêtres kbe: 6089
fenêtres kve: 3227
vitrage balcons: 83216
tonnelles: 471213
vitrage loggias: 26366
cloisons de bureau: 18740
montage fenêtres: 26223

Affichage en tableau CSV

Format du résultat :

[% FOREACH i IN keys;
tools.CSVline(query, i. key, i.count);
END %]

Exemple de résultat :

scraper de sites,   scraper de sites, 8055
scraper de sites, scraper de sites gratuit, 1122
scraper de sites, scraper site officiel, 666
scraper de sites, sites scraper cloud, 507
scraper de sites, scraper email +du site, 477
scraper de sites, télécharger scraper de site, 434
scraper de sites, scraper adresses sites, 390
scraper de sites, scraper de sites en ligne, 366
scraper de sites, turbo scraper de sites, 342
scraper de sites, turbo scraper site officiel, 309
scraper de sites, scraper cloud site officiel, 308
scraper de sites, scraper de sites excel, 276
scraper de sites, sliza scraper site, 259

Sauvegarde au format SQL

Format du résultat :

[% FOREACH i IN keys;
"INSERT INTO keys VALUES('" _ query _ "', '"; i.key _ "', '"; i.count _ "')\n";
END %]

Exemple de résultat :

INSERT INTO serp VALUES('test', 'test', '10837937')
INSERT INTO serp VALUES('test', 'test drive', '1164338')
INSERT INTO serp VALUES('test', 'pâte +pour test', '879980')
INSERT INTO serp VALUES('test', 'tests en ligne', '792560')
INSERT INTO serp VALUES('test', 'test drive video', '550164')
INSERT INTO serp VALUES('test', 'recette pâte', '484489')
INSERT INTO serp VALUES('test', 'tests +avec réponses', '449401')
INSERT INTO serp VALUES('test', 'test 2014', '427602')
INSERT INTO serp VALUES('test', 'tests gratuits', '315144')
INSERT INTO serp VALUES('test', 'tests gratuits', '315096')
INSERT INTO serp VALUES('test', 'tests +pour filles', '309355')
INSERT INTO serp VALUES('test', 'tests +par thèmes', '293917')
INSERT INTO serp VALUES('test', 'jeux tests', '288989')

Dump des résultats en JSON

Format de sortie general:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.updatedate = p1.updatedate;
obj.totalcount = p1.totalcount;
obj.keys = [];

FOREACH item IN p1.keys;
obj.keys.push({
key = item.key
count = item.count
});
END;

obj.json %]

Texte initial:

[

Texte final:

]

Exemple de résultat :

[{
"updatedate": "12.03.2014",
"totalcount": "10837937",
"keys": [
{
"count": "10837937",
"key": "test"
},
{
"count": "1164338",
"key": "test drive"
},
{
"count": "879980",
"key": "pâte +pour test"
},
{
"count": "792560",
"key": "tests en ligne"
},
]
}]
astuce

Voir aussi : Filtres de résultats

Paramètres possibles

ParamètreValeur par défautDescription
Pages count10Nombre de pages à scraper
RegionAllRégion de recherche
Remove + from keywordsSupprimer le symbole plus (+) des requêtes trouvées
AntiGate presetdefaultIl est nécessaire de configurer préalablement le scraper Util::AntiGateUtil::AntiGate - indiquer votre clé d'accès et d'autres paramètres, puis choisir la présélection créée ici
AntiGate preset for LogindefaultPreset AntiGate pour la connexion. Il est nécessaire de configurer préalablement le scraper Util::AntiGateUtil::AntiGate avec les paramètres, puis choisir la présélection créée ici
TypeAllChoix du type d'appareil
AccountsOnly from "accounts.txt"Choix de la méthode de travail avec les comptes : Always auto register - toujours enregistrer automatiquement les comptes "à la volée", nécessite de choisir une présélection configurée dans le paramètre SE::Yandex::Register preset. Auto register if no more in "accounts.txt" - utilise d'abord les comptes existants de accounts.txt, et s'ils s'épuisent - utilise l'enregistrement automatique "à la volée", pour lequel il faut choisir une présélection configurée dans le paramètre SE::Yandex::Register preset. Only from "accounts.txt" - utiliser uniquement les comptes existants de accounts.txt, et s'ils s'épuisent - attendre le temps défini (paramètre Wait new accounts in "accounts.txt") l'apparition de nouveaux. Only by session_id from "accounts.txt" - autorisation par cookies.
Wait new accounts in "accounts.txt"0Temps d'attente pour l'apparition de nouveaux comptes dans accounts.txt
Remove bad accountsAlways, except wrong login/passwordSuppression automatique des "mauvais" comptes : Always - toujours supprimer. Always, except wrong login/password - supprimer toujours, sauf quand Yandex signale un identifiant/mot de passe incorrect. En effet, Yandex peut envoyer ce message lors d'un bannissement d'IP pour un compte tout à fait fonctionnel, donc on peut optionnellement garder ces comptes pour une réutilisation. Never - ne jamais supprimer. Indépendamment de l'option choisie, les comptes ne sont pas supprimés en cas d'erreurs de proxy/navigateur
SE::Yandex::Register presetdefaultChoix de la présélection de paramètres pour SE::Yandex::RegisterSE::Yandex::Register
Authorization methodHTTPMéthode d'autorisation : HTTP - rapide, peu gourmand en ressources. Chrome - lent, gourmand en ressources, peut théoriquement prolonger la vie des comptes
Chrome headlessSi l'option est activée, le navigateur ne sera pas affiché
Use sessionsUtilisation des sessions
Do not reset session if authorization passedNe pas réinitialiser la session en cas d'erreurs si le scraper est déjà autorisé
Use Wordstat 2Utilisation de Wordstat 2
Wordstat 2 parse all table dataPermet de décharger immédiatement les 2000 résultats par requête sans passer par la pagination