SE::Yandex::WordStat - Scraper WordStat. Collecte de mots-clés et statistiques d'impressions

Présentation du scraper
Wordstat est un service de Yandex conçu pour évaluer l'intérêt des utilisateurs pour diverses thématiques et pour la sélection de mots-clés pour l'optimisation SEO et la publicité contextuelle. De plus, avec Wordstat Yandex, vous pouvez évaluer la saisonnalité et la dépendance géographique des requêtes de recherche.
Le scraper de mots-clés Yandex WordStat prend en charge la multiplication automatique des requêtes, vous assurant d'obtenir le nombre maximal de résultats de la recherche. De plus, A-Parser peut passer automatiquement par les requêtes associées jusqu'à la profondeur spécifiée.
La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte de données pour une utilisation ultérieure (présélections), de définir un calendrier de collecte et bien plus encore. Vous pouvez utiliser la multiplication automatique des requêtes, la substitution de sous-requêtes à partir de fichiers, la génération de combinaisons alphanumériques et de listes pour obtenir le plus grand nombre possible de résultats lors de la collecte de données sur Yandex Wordstat.
La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarit intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'exporter les données dans divers formats, y compris JSON, SQL et CSV.
Cas d'utilisation du scraper
🔗 Collecte de données Wordstat en profondeur
Utilisation du scraper Yandex WordStat pour la collecte de données en profondeur.
🔗 Évaluation de la fréquence via WordStat
Évaluation de la fréquence via WordStat
Comptes
Pour le fonctionnement du scraper
SE::Yandex::WordStat, des comptes Yandex sont nécessaires. Les comptes peuvent être enregistrés à l'aide du scraper
SE::Yandex::Register ou simplement en ajoutant des comptes existants dans le fichier files/SE-Yandex/accounts.txt au format pris en charge.
Il est également possible d'activer l'enregistrement des comptes "à la volée".
Pour utiliser l'autorisation par session, la ligne de données doit être au format suivant :
[email protected];MAQT78Z31Rinx4H;{"answer":"qmfhsxdcrk","proxy":"185.104.120.45:3128","session_id":"3:1748440908.5.0.1748440867459:ZXBxpg:47e4.1.2:1|2191075974.41.2.2:41.3:1748440908|3:10308131.797655.5pfkoRZWgLJGntKTlcUhYdysNfk"}
Données collectées
- Nombre d'impressions pour la requête spécifiée
- Date de mise à jour des statistiques
- Liste de tous les mots-clés associés à celui spécifié et leur nombre d'impressions par mois
- Liste de tous les mots-clés supplémentaires recherchés par les utilisateurs et leur nombre d'impressions par mois

Possibilités
- Scrape le nombre maximal de résultats fournis par Wordstat - 40 pages de 50 éléments
- Prend en charge le choix de la région de recherche (avec sous-groupes)
- Peut insérer automatiquement les mots-clés trouvés comme nouvelles requêtes (option Parse to level)
- Possibilité de choisir plusieurs régions à la fois pour l'évaluation
- Prise en charge du contournement automatique de Smart captcha et possibilité de contourner le captcha graphique via le service AntiCaptcha ou tout autre service supportant leur API
- Choix du type d'appareil
- Possibilité de choisir la méthode d'autorisation
- Possibilité d'enregistrer des comptes "à la volée"
- Prend en charge le travail avec le format étendu de comptes et sait répondre à la question secrète (si la réponse est dans
info). Utilise également le proxy sauvegardé pour l'autorisation (s'il est présent dansinfo).
Cas d'utilisation
- Évaluation du volume de trafic par mot-clé (fréquence)
- Recherche de nouveaux mots-clés de thématiques similaires
- Collecte de grandes bases de mots-clés de différentes thématiques
- Toute autre variante impliquant la collecte de données Yandex.WordStat sous une forme ou une autre
Requêtes
Les requêtes doivent être indiquées sous forme de mots-clés, exactement comme si vous les saisissiez directement dans le formulaire de recherche Wordstat, par exemple :
fenêtres moscou
"fenêtres moscou"
!fenêtres !moscou
Variantes d'affichage des résultats
A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarit intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous n'importe quelle forme, y compris structurée comme CSV ou JSON
Affichage par défaut
Format du résultat :
$query - $totalcount, updated: $updatedate\nkeywords:\n$keys.format('$key: $count\n')\nadditional keywords:\n$search.format('$key: $count\n')
Le résultat affiche la requête initiale, son nombre d'impressions, la date de mise à jour des statistiques, la liste des mots-clés associés et leurs impressions mensuelles, ainsi que la liste des mots-clés supplémentaires et leurs impressions mensuelles :
!fenêtres !moscou - 10368, mis à jour: 16/05/2013
keywords:
fenêtres moscou: 32367
fenêtres plastique moscou: 8994
fenêtres pvc moscou: 4813
acheter fenêtres moscou: 2561
fenêtres prix moscou: 1706
moscou travail fenêtres: 1547
vacances fenêtres moscou: 1187
fenêtres en bois moscou: 1087
service +guichet unique moscou: 1021
...
additional keywords:
production fenêtres pvc: 8512
fenêtres rehau: 15686
fenêtres salamander: 1576
fenêtres kbe: 3798
fenêtres kbe: 6089
fenêtres kve: 3227
vitrage balcons: 83216
tonnelles: 471213
vitrage loggias: 26366
cloisons de bureau: 18740
montage fenêtres: 26223
Affichage en tableau CSV
Format du résultat :
[% FOREACH i IN keys;
tools.CSVline(query, i. key, i.count);
END %]
Exemple de résultat :
scraper de sites, scraper de sites, 8055
scraper de sites, scraper de sites gratuit, 1122
scraper de sites, scraper site officiel, 666
scraper de sites, sites scraper cloud, 507
scraper de sites, scraper email +du site, 477
scraper de sites, télécharger scraper de site, 434
scraper de sites, scraper adresses sites, 390
scraper de sites, scraper de sites en ligne, 366
scraper de sites, turbo scraper de sites, 342
scraper de sites, turbo scraper site officiel, 309
scraper de sites, scraper cloud site officiel, 308
scraper de sites, scraper de sites excel, 276
scraper de sites, sliza scraper site, 259
Sauvegarde au format SQL
Format du résultat :
[% FOREACH i IN keys;
"INSERT INTO keys VALUES('" _ query _ "', '"; i.key _ "', '"; i.count _ "')\n";
END %]
Exemple de résultat :
INSERT INTO serp VALUES('test', 'test', '10837937')
INSERT INTO serp VALUES('test', 'test drive', '1164338')
INSERT INTO serp VALUES('test', 'pâte +pour test', '879980')
INSERT INTO serp VALUES('test', 'tests en ligne', '792560')
INSERT INTO serp VALUES('test', 'test drive video', '550164')
INSERT INTO serp VALUES('test', 'recette pâte', '484489')
INSERT INTO serp VALUES('test', 'tests +avec réponses', '449401')
INSERT INTO serp VALUES('test', 'test 2014', '427602')
INSERT INTO serp VALUES('test', 'tests gratuits', '315144')
INSERT INTO serp VALUES('test', 'tests gratuits', '315096')
INSERT INTO serp VALUES('test', 'tests +pour filles', '309355')
INSERT INTO serp VALUES('test', 'tests +par thèmes', '293917')
INSERT INTO serp VALUES('test', 'jeux tests', '288989')
Dump des résultats en JSON
Format de sortie general:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.updatedate = p1.updatedate;
obj.totalcount = p1.totalcount;
obj.keys = [];
FOREACH item IN p1.keys;
obj.keys.push({
key = item.key
count = item.count
});
END;
obj.json %]
Texte initial:
[
Texte final:
]
Exemple de résultat :
[{
"updatedate": "12.03.2014",
"totalcount": "10837937",
"keys": [
{
"count": "10837937",
"key": "test"
},
{
"count": "1164338",
"key": "test drive"
},
{
"count": "879980",
"key": "pâte +pour test"
},
{
"count": "792560",
"key": "tests en ligne"
},
]
}]
Voir aussi : Filtres de résultats
Paramètres possibles
| Paramètre | Valeur par défaut | Description |
|---|---|---|
| Pages count | 10 | Nombre de pages à scraper |
| Region | All | Région de recherche |
| Remove + from keywords | ☐ | Supprimer le symbole plus (+) des requêtes trouvées |
| AntiGate preset | default | Il est nécessaire de configurer préalablement le scraper Util::AntiGate - indiquer votre clé d'accès et d'autres paramètres, puis choisir la présélection créée ici |
| AntiGate preset for Login | default | Preset AntiGate pour la connexion. Il est nécessaire de configurer préalablement le scraper Util::AntiGate avec les paramètres, puis choisir la présélection créée ici |
| Type | All | Choix du type d'appareil |
| Accounts | Only from "accounts.txt" | Choix de la méthode de travail avec les comptes : Always auto register - toujours enregistrer automatiquement les comptes "à la volée", nécessite de choisir une présélection configurée dans le paramètre SE::Yandex::Register preset. Auto register if no more in "accounts.txt" - utilise d'abord les comptes existants de accounts.txt, et s'ils s'épuisent - utilise l'enregistrement automatique "à la volée", pour lequel il faut choisir une présélection configurée dans le paramètre SE::Yandex::Register preset. Only from "accounts.txt" - utiliser uniquement les comptes existants de accounts.txt, et s'ils s'épuisent - attendre le temps défini (paramètre Wait new accounts in "accounts.txt") l'apparition de nouveaux. Only by session_id from "accounts.txt" - autorisation par cookies. |
| Wait new accounts in "accounts.txt" | 0 | Temps d'attente pour l'apparition de nouveaux comptes dans accounts.txt |
| Remove bad accounts | Always, except wrong login/password | Suppression automatique des "mauvais" comptes : Always - toujours supprimer. Always, except wrong login/password - supprimer toujours, sauf quand Yandex signale un identifiant/mot de passe incorrect. En effet, Yandex peut envoyer ce message lors d'un bannissement d'IP pour un compte tout à fait fonctionnel, donc on peut optionnellement garder ces comptes pour une réutilisation. Never - ne jamais supprimer. Indépendamment de l'option choisie, les comptes ne sont pas supprimés en cas d'erreurs de proxy/navigateur |
| SE::Yandex::Register preset | default | Choix de la présélection de paramètres pour SE::Yandex::Register |
| Authorization method | HTTP | Méthode d'autorisation : HTTP - rapide, peu gourmand en ressources. Chrome - lent, gourmand en ressources, peut théoriquement prolonger la vie des comptes |
| Chrome headless | ☑ | Si l'option est activée, le navigateur ne sera pas affiché |
| Use sessions | ☑ | Utilisation des sessions |
| Do not reset session if authorization passed | ☑ | Ne pas réinitialiser la session en cas d'erreurs si le scraper est déjà autorisé |
| Use Wordstat 2 | ☐ | Utilisation de Wordstat 2 |
| Wordstat 2 parse all table data | ☑ | Permet de décharger immédiatement les 2000 résultats par requête sans passer par la pagination |

