Passer au contenu principal

SE::Yandex::Speller - Vérification des erreurs de texte via Yandex Speller

Présentation du scraper

SE::Yandex::Speller

SE::Yandex::SpellerSE::Yandex::Speller – trouve les fautes d'orthographe dans les textes en russe, ukrainien ou anglais sur la page spécifiée via le service Yandex.Speller. Les modèles linguistiques incluent des centaines de millions de mots et de locutions.

La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte de données du scraper SE::Yandex::Speller pour une utilisation ultérieure (présélections), de définir un calendrier de collecte et bien plus encore.

La sauvegarde des résultats est possible dans le format et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'afficher les données dans divers formats, y compris JSON, SQL et CSV.

Données collectées

  • Blocs de texte dans lesquels des erreurs ont été trouvées

Fonctionnalités

  • Détermination du nombre de blocs contenant des erreurs
  • Affichage des causes possibles des erreurs dans le texte

Cas d'utilisation

  • Recherche du nombre de blocs de texte contenant des erreurs
  • Vérification des pages d'un site pour détecter les erreurs d'orthographe dans le texte
  • Vérification de l'orthographe sur les pages d'un site

Requêtes

Le scraper peut accepter en entrée aussi bien des mots-clés (chaînes de texte) que des liens vers des pages. Le type de requête est déterminé automatiquement.

  • Exemple de requêtes sous forme de chaînes de texte :
Texte pour vérification par le scraper Yandex Speller
Requête avec une erruer
  • Exemple de requêtes sous forme d'adresse de page de site à vérifier :
https://a-parser.com/
https://en.wikipedia.org/wiki/Parsing

Variantes d'affichage des résultats

A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme libre, ainsi que structurée, par exemple CSV ou JSON

Affichage par défaut

Format du résultat :

$query: $total\n$errors.format('$word ($suggest) - $type\n')

Exemple de résultat :

Requête avec une erruer: 1
erruer (erreur) - Le mot n'est pas dans le dictionnaire.
Texte pour vérification par le scraper Yandex Speller: 0
https://a-parser.com/: 10
podskazkazok (podskazok) - Le mot n'est pas dans le dictionnaire.
danykh (dannykh,danykh) - Le mot n'est pas dans le dictionnaire.
MOZ (DMOZ) - Le mot n'est pas dans le dictionnaire.
NodeJS (Node JS) - Le mot n'est pas dans le dictionnaire.
Razrabatyvaj (Razrabatyvaju) - Le mot n'est pas dans le dictionnaire.
...
https://en.wikipedia.org/wiki/Parsing: 183
• العربية (• العربية) - Le texte contient trop d'erreurs.
• বাংলা (• বাংলা) - Le texte contient trop d'erreurs.
...
material (material) - Le mot n'est pas dans le dictionnaire.
parsed (passed) - Le mot n'est pas dans le dictionnaire.
they (that) - Le mot n'est pas dans le dictionnaire.
...

Sauvegarde au format SQL

Format du résultat :

[% FOREACH errors;
"INSERT INTO errors VALUES('" _ word _ "', '" _ suggest _ "', '" _ type _ "')\n";
END %]

Exemple de résultat :

INSERT INTO errors VALUES('SaaS', 'Seas', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('freelances', '', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('Marketeurs d'affiliation', 'Marketeurs d affiliation', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('Youtube', 'YouTube', 'Utilisation incorrecte des majuscules et minuscules.')
INSERT INTO errors VALUES('emails', 'mails', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('WordStat', '', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('Linkbuilding', '', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('outreach', '', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('Alexa', '', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('SEMRush', '', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('Ahrefs', 'Href', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('MajesticSEO', '', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('SerpStat', '', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('freelances', '', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('SaaS', 'Saab,Seas,SAS', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('SaaS', 'Seas,SAS', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('async', 'sync', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('génération de leads', 'génération de leads', 'Le mot n'est pas dans le dictionnaire.')

Dump des résultats en JSON

Format général du résultat :

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.errors = p1.errors;

obj.json %]

Texte initial :

[

Texte final :

]

Exemple de résultat :

[{"errors": [{"word":"SaaS","suggest":"Seas","type":"Le mot n'est pas dans le dictionnaire."},{"word":"freelances","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Marketeurs d'affiliation","suggest":"Marketeurs d affiliation","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Youtube","suggest":"YouTube","type":"Utilisation incorrecte des majuscules et minuscules."},{"word":"emails","suggest":"mails","type":"Le mot n'est pas dans le dictionnaire."},{"word":"WordStat","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Linkbuilding","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"outreach","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Alexa","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"SEMRush","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Ahrefs","suggest":"Href","type":"Le mot n'est pas dans le dictionnaire."},{"word":"MajesticSEO","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"SerpStat","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"freelances","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"SaaS","suggest":"Saab,Seas,SAS","type":"Le mot n'est pas dans le dictionnaire."},{"word":"SaaS","suggest":"Seas,SAS","type":"Le mot n'est pas dans le dictionnaire."},{"word":"NodeJS","suggest":"Nodes","type":"Le mot n'est pas dans le dictionnaire."},{"word":"A-Parser","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"NodeJS","suggest":"Nodes","type":"Le mot n'est pas dans le dictionnaire."},{"word":"async","suggest":"sync","type":"Le mot n'est pas dans le dictionnaire."},{"word":"génération de leads","suggest":"génération de leads","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Parsez","suggest":"Pariez","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Instagram","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"marketplaces","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"marketplaces","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"marketplace","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Instagram","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Bing","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"sites de news","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Redis","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"parser","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"captchas","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"XEvil","suggest":"Evil,Devil","type":"Le mot n'est pas dans le dictionnaire."},{"word":"CapMonster","suggest":"Cap Monster","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Captcha","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"RuCaptcha","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"parser","suggest":"parier","type":"Le mot n'est pas dans le dictionnaire."},{"word":"parser","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"parser","suggest":"demander","type":"Le mot n'est pas dans le dictionnaire."},{"word":"brief","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"tickets","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"A-Parser","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"A-Parser","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"outils","suggest":"nœuds,as,outils","type":"Le mot n'est pas dans le dictionnaire."}]}]

Paramètres possibles

ParamètreValeur par défautDescription
LanguagesAnglais, Russe, UkrainienLangues de vérification
OptionsIgnorer les mots écrits en majuscules, par exemple, "VPC"., Ignorer les mots contenant des chiffres, par exemple, "avp17kh4534"., Ignorer les adresses Internet, les adresses e-mail et les noms de fichiers., Ignorer les chiffres romains ("I, II, III, ...").Options de vérification
HTML::TextExtractor presetdefaultPrésélection pour HTML::TextExtractorHTML::TextExtractor. Permet de spécifier les paramètres de collecte du texte