Zum Hauptinhalt springen

SE::Yandex::Speller - Überprüfung von Seiten auf Textfehler via Yandex.Speller

Übersicht des Parsers

SE::Yandex::Speller

SE::Yandex::SpellerSE::Yandex::Speller – findet Rechtschreibfehler in russischen, ukrainischen oder englischen Texten auf der angegebenen Seite über den Dienst Yandex.Speller. Die Sprachmodelle umfassen Hunderte Millionen Wörter und Wortverbindungen.

Die Funktionalität von A-Parser ermöglicht es, die Datenerfassung-Einstellungen des Parsers SE::Yandex::Speller für die weitere Verwendung zu speichern (Presets), Zeitpläne für die Datenerfassung festzulegen und vieles mehr.

Das Speichern der Ergebnisse ist in der von Ihnen benötigten Form und Struktur möglich, dank der integrierten leistungsstarken Template-Engine Template Toolkit, die es erlaubt, zusätzliche Logik auf die Ergebnisse anzuwenden und Daten in verschiedenen Formaten auszugeben, einschließlich JSON, SQL und CSV.

Gesammelte Daten

  • Textblöcke, in denen Fehler gefunden wurden

Funktionen

  • Bestimmung der Anzahl der Blöcke, die Fehler enthalten
  • Ausgabe möglicher Ursachen für Fehler im Text

Anwendungsfälle

  • Suche nach der Anzahl der Textblöcke, die Fehler enthalten
  • Überprüfung von Webseiten auf Rechtschreibfehler im Text
  • Überprüfung der Rechtschreibung auf Webseiten

Abfragen

Der Parser kann sowohl Schlüsselwörter (Textzeilen) als auch Links zu Seiten als Eingabe akzeptieren. Der Abfragetyp wird automatisch bestimmt.

  • Beispiel für Abfragen in Form von Textzeilen:
Text zur Überprüfung durch den Yandex Speller Parser
Anfrage mit Fehller
  • Beispiel für Abfragen in Form einer Webseitenadresse, die überprüft werden soll:
https://a-parser.com/
https://en.wikipedia.org/wiki/Parsing

Beispiele für die Ergebnisausgabe

A-Parser unterstützt eine flexible Formatierung der Ergebnisse dank der integrierten Template-Engine Template Toolkit, was es ermöglicht, Ergebnisse in beliebiger Form sowie strukturiert, zum Beispiel als CSV oder JSON, auszugeben.

Standardausgabe

Ergebnisformat:

$query: $total\n$errors.format('$word ($suggest) - $type\n')

Beispielergebnis:

Anfrage mit Fehller: 1
Fehller (Fehler, Fehler) - Wort nicht im Wörterbuch gefunden.
Text zur Überprüfung durch den Yandex Speller Parser: 0
https://a-parser.com/: 10
Hinnweise (Hinweise) - Wort nicht im Wörterbuch gefunden.
Datten (Daten, Daten) - Wort nicht im Wörterbuch gefunden.
MOZ (DMOZ) - Wort nicht im Wörterbuch gefunden.
NodeJS (Node JS) - Wort nicht im Wörterbuch gefunden.
Entwickle (Entwickle) - Wort nicht im Wörterbuch gefunden.
...
https://en.wikipedia.org/wiki/Parsing: 183
• العربية (• العربية) - Der Text enthält zu viele Fehler.
• বাংলা (• বাংলা) - Der Text enthält zu viele Fehler.
...
material (Material) - Wort nicht im Wörterbuch gefunden.
parsed (passed) - Wort nicht im Wörterbuch gefunden.
they (that) - Wort nicht im Wörterbuch gefunden.
...

Speichern im SQL-Format

Ergebnisformat:

[% FOREACH errors;
"INSERT INTO errors VALUES('" _ word _ "', '" _ suggest _ "', '" _ type _ "')\n";
END %]

Beispielergebnis:

INSERT INTO errors VALUES('SaaS', 'Seas', 'Wort nicht im Wörterbuch gefunden.')
INSERT INTO errors VALUES('Freiberufler', '', 'Wort nicht im Wörterbuch enthalten.')
INSERT INTO errors VALUES('Affiliate-Vermarkter', 'Affiliate Vermarkter', 'Wort nicht im Wörterbuch enthalten.')
INSERT INTO errors VALUES('Youtube', 'YouTube', 'Falsche Verwendung von Groß- und Kleinschreibung.')
INSERT INTO errors VALUES('E-Mails', 'Mails', 'Wort nicht im Wörterbuch enthalten.')
INSERT INTO errors VALUES('WordStat', '', 'Wort nicht im Wörterbuch gefunden.')
INSERT INTO errors VALUES('Linkbuilding', '', 'Wort nicht im Wörterbuch enthalten.')
INSERT INTO errors VALUES('Outreach', '', 'Wort nicht im Wörterbuch enthalten.')
INSERT INTO errors VALUES('Alexa', '', 'Wort nicht im Wörterbuch gefunden.')
INSERT INTO errors VALUES('SEMRush', '', 'Wort nicht im Wörterbuch gefunden.')
INSERT INTO errors VALUES('Ahrefs', 'Href', 'Wort nicht im Wörterbuch gefunden.')
INSERT INTO errors VALUES('MajesticSEO', '', 'Wort nicht im Wörterbuch gefunden.')
INSERT INTO errors VALUES('SerpStat', '', 'Wort nicht im Wörterbuch gefunden.')
INSERT INTO errors VALUES('Freiberufler', '', 'Wort nicht im Wörterbuch enthalten.')
INSERT INTO errors VALUES('SaaS', 'Saab,Seas,SAS', 'Wort nicht im Wörterbuch gefunden.')
INSERT INTO errors VALUES('SaaS', 'Seas,SAS', 'Wort nicht im Wörterbuch gefunden.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Wort nicht im Wörterbuch gefunden.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Wort nicht im Wörterbuch gefunden.')
INSERT INTO errors VALUES('async', 'sync', 'Wort nicht im Wörterbuch gefunden.')
INSERT INTO errors VALUES('Lead-Generierung', 'Lead Generierung', 'Wort nicht im Wörterbuch enthalten.')

Ergebnisausgabe in JSON

Allgemeines Ergebnisformat:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.errors = p1.errors;

obj.json %]

Anfangstext:

[

Endtext:

]

Beispielergebnis:

[{"errors": [{"word":"SaaS","suggest":"Seas","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Freiberufler","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Affiliate-Vermarkter","suggest":"Affiliate Vermarkter","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Youtube","suggest":"YouTube","type":"Falsche Verwendung von Groß- und Kleinschreibung."},{"word":"E-Mails","suggest":"Emails","type":"Wort nicht im Wörterbuch gefunden."},{"word":"WordStat","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Linkbuilding","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Outreach","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Alexa","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"SEMRush","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Ahrefs","suggest":"Href","type":"Wort nicht im Wörterbuch gefunden."},{"word":"MajesticSEO","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"SerpStat","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Freiberufler","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"SaaS","suggest":"Saab,Seas,SAS","type":"Wort nicht im Wörterbuch gefunden."},{"word":"SaaS","suggest":"Seas,SAS","type":"Wort nicht im Wörterbuch gefunden."},{"word":"NodeJS","suggest":"Nodes","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Parser'a","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"NodeJS","suggest":"Nodes","type":"Wort nicht im Wörterbuch gefunden."},{"word":"async","suggest":"sync","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Leadgenerierung","suggest":"Lead Generierung","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Extrahiere","suggest":"Extrahiere","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Instagram","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Marktplätze","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Marktplätze","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Marktplatz","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Instagram","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Bing","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Nachrichtenseiten","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Redis","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"extrahieren","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Captchas","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"XEvil","suggest":"Evil,Devil","type":"Wort nicht im Wörterbuch gefunden."},{"word":"CapMonster","suggest":"Cap Monster","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Captcha","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"RuCaptcha","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"extrahieren","suggest":"streiten","type":"Wort nicht im Wörterbuch gefunden."},{"word":"extrahieren","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"extrahieren","suggest":"anfordern","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Brief","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Tickets","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Parser’om","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Parser'om","suggest":"","type":"Wort nicht im Wörterbuch gefunden."},{"word":"Tools","suggest":"Knoten,Asse,Tools","type":"Wort nicht im Wörterbuch gefunden."}]}]

Mögliche Einstellungen

ParameterStandardwertBeschreibung
LanguagesEnglisch, Russisch, UkrainischPrüfsprachen
OptionsWörter in Großbuchstaben überspringen (z.B. "VPC")., Wörter mit Zahlen überspringen (z.B. "avp17x4534")., Internetadressen, E-Mail-Adressen und Dateinamen überspringen., Römische Zahlen ignorieren ("I, II, III, ...").Prüfoptionen
HTML::TextExtractor presetdefaultPreset für HTML::TextExtractorHTML::TextExtractor. Ermöglicht die Angabe von Text-Parsing-Einstellungen