Passer au contenu principal

SE::Yandex::SQI - Vérification de l'Indice de Qualité du Site (SQI) sur Yandex

Présentation du scraper

Présentation du scraperSE::Yandex::SQISE::Yandex::SQI – vérification de l'indice de qualité du site (SQI) dans Yandex. Scraper incroyablement rapide, vitesse de fonctionnement de 3000-7000 requêtes par minute.

Vous pouvez utiliser la multiplication automatique des requêtes, la substitution de sous-requêtes à partir de fichiers, l'itération de combinaisons alphanumériques et de listes pour obtenir le maximum de résultats possible. En utilisant le filtrage des résultats, vous pouvez immédiatement nettoyer le résultat en supprimant tous les éléments inutiles (en utilisant des mots-clés négatifs).

La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte de données du scraper SE::Yandex::SQI pour une utilisation ultérieure (présélections), de définir un calendrier de collecte de données et bien plus encore.

La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'exporter les données dans divers formats, y compris JSON, SQL et CSV.

Données collectées

  • Indice de qualité du site (Yandex SQI)
  • Données sur la présence de badges pour le site (1 - badge obtenu, 0 - pas de badge) :
    • Choix des utilisateurs
    • Site populaire
    • Connexion sécurisée
    • Pages Turbo
    • Si le site est officiel
  • Pour les badges "Choix des utilisateurs" et "Site populaire", il est possible d'obtenir le degré de préparation pour l'obtention du badge sous forme d'une valeur intermédiaire de 0 à 1, par exemple 0.4.
  • Nombre d'avis, note et classement
  • Classement de la boutique dans la recherche de produits et classement de la boutique sur Yandex Market (si ces données sont disponibles pour le site recherché)

Variantes d'utilisation

  • Évaluation de l'utilité d'un site du point de vue de Yandex
  • Collecte de titres

Requêtes

Comme requêtes, il est nécessaire d'indiquer le domaine du site recherché. Vous pouvez les indiquer avec ou sans protocole, par exemple :

yandex.ru 
google.com
vk.com
facebook.com
https://a-parser.com

Options de sortie des résultats

A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme arbitraire, ainsi que structurée, par exemple CSV ou JSON

Sortie par défaut

Format du résultat :

$query: $sqi\n

Exemple de résultat affichant la requête initiale et son SQI :

facebook.com: 130000  
yandex.ru: -1
https://a-parser.com: 110
google.com: 120000
vk.com: 340000

Si le SQI pour le domaine n'est pas disponible, le résultat sera -1.

Sortie dans un tableau CSV

Format du résultat :

[% tools.CSVline(query, sqi, rating); %]

Nom du fichier :

$datefile.format().csv

Texte initial :

Domaine,Classement,Auteur,Prix

astuce

Pour que l'option "Texte initial" soit disponible dans l'Éditeur de tâches, vous devez activer "Plus d'options". Dans "Texte initial", nous inscrivons les noms des colonnes séparés par des virgules et la deuxième ligne doit être vide.

Sauvegarde au format SQL

Format du résultat :

[% "INSERT INTO sqi VALUES('" _ query _ "', '" _ sqi _ "', '" _ rating _ "')\n" %]

Exemple de résultat :

INSERT INTO sqi VALUES('google.com', '122000', '87')
INSERT INTO sqi VALUES('yandex.ru', 'none', '92')
INSERT INTO sqi VALUES('https://a-parser.com', '200', '')
INSERT INTO sqi VALUES('vk.com', '326000', '73')
INSERT INTO sqi VALUES('facebook.com', '117000', '66')

Dump des résultats en JSON

Format de sortie general:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.sqi = p1.sqi;
obj.rating = p1.rating;

obj.json %]

Texte initial:

[

Texte final:

]

Exemple de résultat :

[{"query":"vk.com","rating":73,"sqi":326000},
{"query":"google.com","rating":87,"sqi":122000},
{"query":"https://a-parser.com","rating":"","sqi":200},
{"query":"yandex.ru","rating":92,"sqi":"none"},
{"query":"facebook.com","rating":66,"sqi":117000}]
astuce

Pour que les options "Texte initial" et "Texte final" soient disponibles dans l'Éditeur de tâches, vous devez activer "Plus d'options".

Paramètres possibles

ParamètreValeur par défautDescription
AntiGate presetdefaultChoix de la présélection Util::AntiGateUtil::AntiGate, plus de détails sur le paramétrage ici
AntiGate preset for old captchadefaultAnalogue à AntiGate preset, mais utilisé uniquement pour les captchas ordinaires (anciens, sous forme d'une seule image). Si aucune présélection n'est choisie ici, la présélection choisie dans AntiGate preset sera utilisée pour ces captchas.
Experimental img captcha max count5Nombre maximum de répétitions d'images captcha par tentative
Preffered captcha typeClickChoix du type de captcha préféré : Click ou Puzzle
Use sessionsSauvegarde les bonnes sessions, ce qui permet de collecter les données encore plus rapidement en obtenant moins d'erreurs