SE::Yandex::SQI - Vérification de l'Indice de Qualité du Site (SQI) sur Yandex
Présentation du scraper

SE::Yandex::SQI – vérification de l'indice de qualité du site (SQI) dans Yandex. Scraper incroyablement rapide, vitesse de fonctionnement de 3000-7000 requêtes par minute.Vous pouvez utiliser la multiplication automatique des requêtes, la substitution de sous-requêtes à partir de fichiers, l'itération de combinaisons alphanumériques et de listes pour obtenir le maximum de résultats possible. En utilisant le filtrage des résultats, vous pouvez immédiatement nettoyer le résultat en supprimant tous les éléments inutiles (en utilisant des mots-clés négatifs).
La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte de données du scraper SE::Yandex::SQI pour une utilisation ultérieure (présélections), de définir un calendrier de collecte de données et bien plus encore.
La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'exporter les données dans divers formats, y compris JSON, SQL et CSV.
Données collectées
- Indice de qualité du site (Yandex SQI)
- Données sur la présence de badges pour le site (1 - badge obtenu, 0 - pas de badge) :
- Choix des utilisateurs
- Site populaire
- Connexion sécurisée
- Pages Turbo
- Si le site est officiel
- Pour les badges "Choix des utilisateurs" et "Site populaire", il est possible d'obtenir le degré de préparation pour l'obtention du badge sous forme d'une valeur intermédiaire de 0 à 1, par exemple 0.4.
- Nombre d'avis, note et classement
- Classement de la boutique dans la recherche de produits et classement de la boutique sur Yandex Market (si ces données sont disponibles pour le site recherché)
Variantes d'utilisation
- Évaluation de l'utilité d'un site du point de vue de Yandex
- Collecte de titres
Requêtes
Comme requêtes, il est nécessaire d'indiquer le domaine du site recherché. Vous pouvez les indiquer avec ou sans protocole, par exemple :
yandex.ru
google.com
vk.com
facebook.com
https://a-parser.com
Options de sortie des résultats
A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme arbitraire, ainsi que structurée, par exemple CSV ou JSON
Sortie par défaut
Format du résultat :
$query: $sqi\n
Exemple de résultat affichant la requête initiale et son SQI :
facebook.com: 130000
yandex.ru: -1
https://a-parser.com: 110
google.com: 120000
vk.com: 340000
Si le SQI pour le domaine n'est pas disponible, le résultat sera -1.
Sortie dans un tableau CSV
Format du résultat :
[% tools.CSVline(query, sqi, rating); %]
Nom du fichier :
$datefile.format().csv
Texte initial :
Domaine,Classement,Auteur,Prix
Pour que l'option "Texte initial" soit disponible dans l'Éditeur de tâches, vous devez activer "Plus d'options". Dans "Texte initial", nous inscrivons les noms des colonnes séparés par des virgules et la deuxième ligne doit être vide.
Sauvegarde au format SQL
Format du résultat :
[% "INSERT INTO sqi VALUES('" _ query _ "', '" _ sqi _ "', '" _ rating _ "')\n" %]
Exemple de résultat :
INSERT INTO sqi VALUES('google.com', '122000', '87')
INSERT INTO sqi VALUES('yandex.ru', 'none', '92')
INSERT INTO sqi VALUES('https://a-parser.com', '200', '')
INSERT INTO sqi VALUES('vk.com', '326000', '73')
INSERT INTO sqi VALUES('facebook.com', '117000', '66')
Dump des résultats en JSON
Format de sortie general:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.sqi = p1.sqi;
obj.rating = p1.rating;
obj.json %]
Texte initial:
[
Texte final:
]
Exemple de résultat :
[{"query":"vk.com","rating":73,"sqi":326000},
{"query":"google.com","rating":87,"sqi":122000},
{"query":"https://a-parser.com","rating":"","sqi":200},
{"query":"yandex.ru","rating":92,"sqi":"none"},
{"query":"facebook.com","rating":66,"sqi":117000}]
Pour que les options "Texte initial" et "Texte final" soient disponibles dans l'Éditeur de tâches, vous devez activer "Plus d'options".
Paramètres possibles
| Paramètre | Valeur par défaut | Description |
|---|---|---|
| AntiGate preset | default | Choix de la présélection Util::AntiGate, plus de détails sur le paramétrage ici |
| AntiGate preset for old captcha | default | Analogue à AntiGate preset, mais utilisé uniquement pour les captchas ordinaires (anciens, sous forme d'une seule image). Si aucune présélection n'est choisie ici, la présélection choisie dans AntiGate preset sera utilisée pour ces captchas. |
| Experimental img captcha max count | 5 | Nombre maximum de répétitions d'images captcha par tentative |
| Preffered captcha type | Click | Choix du type de captcha préféré : Click ou Puzzle |
| Use sessions | ☑ | Sauvegarde les bonnes sessions, ce qui permet de collecter les données encore plus rapidement en obtenant moins d'erreurs |
