SE::Yandex::Speller - Vérification des erreurs de texte via Yandex Speller
Présentation du scraper

SE::Yandex::Speller – trouve les fautes d'orthographe dans les textes en russe, ukrainien ou anglais sur la page spécifiée via le service Yandex.Speller. Les modèles linguistiques incluent des centaines de millions de mots et de locutions.La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte de données du scraper SE::Yandex::Speller pour une utilisation ultérieure (présélections), de définir un calendrier de collecte et bien plus encore.
La sauvegarde des résultats est possible dans le format et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'afficher les données dans divers formats, y compris JSON, SQL et CSV.
Données collectées
- Blocs de texte dans lesquels des erreurs ont été trouvées
Fonctionnalités
- Détermination du nombre de blocs contenant des erreurs
- Affichage des causes possibles des erreurs dans le texte
Cas d'utilisation
- Recherche du nombre de blocs de texte contenant des erreurs
- Vérification des pages d'un site pour détecter les erreurs d'orthographe dans le texte
- Vérification de l'orthographe sur les pages d'un site
Requêtes
Le scraper peut accepter en entrée aussi bien des mots-clés (chaînes de texte) que des liens vers des pages. Le type de requête est déterminé automatiquement.
- Exemple de requêtes sous forme de chaînes de texte :
Texte pour vérification par le scraper Yandex Speller
Requête avec une erruer
- Exemple de requêtes sous forme d'adresse de page de site à vérifier :
https://a-parser.com/
https://en.wikipedia.org/wiki/Parsing
Variantes d'affichage des résultats
A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme libre, ainsi que structurée, par exemple CSV ou JSON
Affichage par défaut
Format du résultat :
$query: $total\n$errors.format('$word ($suggest) - $type\n')
Exemple de résultat :
Requête avec une erruer: 1
erruer (erreur) - Le mot n'est pas dans le dictionnaire.
Texte pour vérification par le scraper Yandex Speller: 0
https://a-parser.com/: 10
podskazkazok (podskazok) - Le mot n'est pas dans le dictionnaire.
danykh (dannykh,danykh) - Le mot n'est pas dans le dictionnaire.
MOZ (DMOZ) - Le mot n'est pas dans le dictionnaire.
NodeJS (Node JS) - Le mot n'est pas dans le dictionnaire.
Razrabatyvaj (Razrabatyvaju) - Le mot n'est pas dans le dictionnaire.
...
https://en.wikipedia.org/wiki/Parsing: 183
• العربية (• العربية) - Le texte contient trop d'erreurs.
• বাংলা (• বাংলা) - Le texte contient trop d'erreurs.
...
material (material) - Le mot n'est pas dans le dictionnaire.
parsed (passed) - Le mot n'est pas dans le dictionnaire.
they (that) - Le mot n'est pas dans le dictionnaire.
...
Sauvegarde au format SQL
Format du résultat :
[% FOREACH errors;
"INSERT INTO errors VALUES('" _ word _ "', '" _ suggest _ "', '" _ type _ "')\n";
END %]
Exemple de résultat :
INSERT INTO errors VALUES('SaaS', 'Seas', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('freelances', '', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('Marketeurs d'affiliation', 'Marketeurs d affiliation', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('Youtube', 'YouTube', 'Utilisation incorrecte des majuscules et minuscules.')
INSERT INTO errors VALUES('emails', 'mails', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('WordStat', '', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('Linkbuilding', '', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('outreach', '', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('Alexa', '', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('SEMRush', '', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('Ahrefs', 'Href', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('MajesticSEO', '', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('SerpStat', '', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('freelances', '', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('SaaS', 'Saab,Seas,SAS', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('SaaS', 'Seas,SAS', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('async', 'sync', 'Le mot n'est pas dans le dictionnaire.')
INSERT INTO errors VALUES('génération de leads', 'génération de leads', 'Le mot n'est pas dans le dictionnaire.')
Dump des résultats en JSON
Format général du résultat :
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.errors = p1.errors;
obj.json %]
Texte initial :
[
Texte final :
]
Exemple de résultat :
[{"errors": [{"word":"SaaS","suggest":"Seas","type":"Le mot n'est pas dans le dictionnaire."},{"word":"freelances","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Marketeurs d'affiliation","suggest":"Marketeurs d affiliation","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Youtube","suggest":"YouTube","type":"Utilisation incorrecte des majuscules et minuscules."},{"word":"emails","suggest":"mails","type":"Le mot n'est pas dans le dictionnaire."},{"word":"WordStat","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Linkbuilding","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"outreach","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Alexa","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"SEMRush","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Ahrefs","suggest":"Href","type":"Le mot n'est pas dans le dictionnaire."},{"word":"MajesticSEO","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"SerpStat","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"freelances","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"SaaS","suggest":"Saab,Seas,SAS","type":"Le mot n'est pas dans le dictionnaire."},{"word":"SaaS","suggest":"Seas,SAS","type":"Le mot n'est pas dans le dictionnaire."},{"word":"NodeJS","suggest":"Nodes","type":"Le mot n'est pas dans le dictionnaire."},{"word":"A-Parser","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"NodeJS","suggest":"Nodes","type":"Le mot n'est pas dans le dictionnaire."},{"word":"async","suggest":"sync","type":"Le mot n'est pas dans le dictionnaire."},{"word":"génération de leads","suggest":"génération de leads","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Parsez","suggest":"Pariez","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Instagram","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"marketplaces","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"marketplaces","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"marketplace","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Instagram","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Bing","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"sites de news","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Redis","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"parser","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"captchas","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"XEvil","suggest":"Evil,Devil","type":"Le mot n'est pas dans le dictionnaire."},{"word":"CapMonster","suggest":"Cap Monster","type":"Le mot n'est pas dans le dictionnaire."},{"word":"Captcha","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"RuCaptcha","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"parser","suggest":"parier","type":"Le mot n'est pas dans le dictionnaire."},{"word":"parser","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"parser","suggest":"demander","type":"Le mot n'est pas dans le dictionnaire."},{"word":"brief","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"tickets","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"A-Parser","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"A-Parser","suggest":"","type":"Le mot n'est pas dans le dictionnaire."},{"word":"outils","suggest":"nœuds,as,outils","type":"Le mot n'est pas dans le dictionnaire."}]}]
Paramètres possibles
| Paramètre | Valeur par défaut | Description |
|---|---|---|
| Languages | Anglais, Russe, Ukrainien | Langues de vérification |
| Options | Ignorer les mots écrits en majuscules, par exemple, "VPC"., Ignorer les mots contenant des chiffres, par exemple, "avp17kh4534"., Ignorer les adresses Internet, les adresses e-mail et les noms de fichiers., Ignorer les chiffres romains ("I, II, III, ..."). | Options de vérification |
| HTML::TextExtractor preset | default | Présélection pour HTML::TextExtractor. Permet de spécifier les paramètres de collecte du texte |
