Ir al contenido principal

SE::Yandex::Speller - Comprobación de errores de texto en páginas a través de Yandex Speller

Información general del extractor

SE::Yandex::Speller

SE::Yandex::SpellerSE::Yandex::Speller – encuentra errores ortográficos en textos en ruso, ucraniano o inglés en la página especificada a través del servicio Yandex.Speller. Los modelos de lenguaje incluyen cientos de millones de palabras y frases.

La funcionalidad de A-Parser permite guardar la configuración de extracción del extractor SE::Yandex::Speller para su uso posterior (ajustes preestablecidos), programar tareas de extracción y mucho más.

Es posible guardar los resultados en el formato y la estructura que necesite, gracias al potente motor de plantillas integrado Template Toolkit, que permite aplicar lógica adicional a los resultados y exportar datos en varios formatos, incluyendo JSON, SQL y CSV.

Datos recopilados

  • Bloques de texto en los que se han encontrado errores

Características

  • Determinación del número de bloques que contienen errores
  • Visualización de las posibles causas de los errores en el texto

Casos de uso

  • Búsqueda del número de bloques de texto que contienen errores
  • Comprobación de páginas de sitios web en busca de errores ortográficos en el texto
  • Verificación de la ortografía en las páginas de un sitio web

Consultas

El extractor puede aceptar como entrada tanto palabras clave (cadenas de texto) como enlaces a páginas. El tipo de consulta se determina automáticamente.

  • Ejemplo de consultas en forma de cadenas de texto:
Texto para comprobación por el extractor Yandex Speller
Consulta con herror
  • Ejemplo de consultas en forma de dirección de la página del sitio que se desea comprobar:
https://a-parser.com/
https://en.wikipedia.org/wiki/Parsing

Ejemplos de salida de resultados

A-Parser admite un formato flexible de resultados gracias al motor de plantillas integrado Template Toolkit, lo que le permite mostrar los resultados en forma libre, así como estructurada, por ejemplo, CSV o JSON.

Salida por defecto

Formato del resultado:

$query: $total\n$errors.format('$word ($suggest) - $type\n')

Ejemplo de resultado:

Consulta con herror: 1
herror (error, hierro) - La palabra no está en el diccionario.
Texto para comprobación por el extractor Yandex Speller: 0
https://a-parser.com/: 10
sugerenciasas (sugerencias) - La palabra no está en el diccionario.
datos (datos, dantos) - La palabra no está en el diccionario.
MOZ (DMOZ) - La palabra no está en el diccionario.
NodeJS (Node JS) - La palabra no está en el diccionario.
Desarrolla (Desarrollo) - La palabra no está en el diccionario.
...
https://en.wikipedia.org/wiki/Parsing: 183
• العربية (• العربية) - El texto contiene demasiados errores.
• বাংলা (• বাংলা) - El texto contiene demasiados errores.
...
material (material) - La palabra no está en el diccionario.
parsed (passed) - La palabra no está en el diccionario.
they (that) - La palabra no está en el diccionario.
...

Guardar en formato SQL

Formato del resultado:

[% FOREACH errors;
"INSERT INTO errors VALUES('" _ word _ "', '" _ suggest _ "', '" _ type _ "')\n";
END %]

Ejemplo de resultado:

INSERT INTO errors VALUES('SaaS', 'Seas', 'La palabra no está en el diccionario.')
INSERT INTO errors VALUES('autónomos', '', 'La palabra no está en el diccionario.')
INSERT INTO errors VALUES('Afiliados', 'Afiliados', 'La palabra no está en el diccionario.')
INSERT INTO errors VALUES('Youtube', 'YouTube', 'Uso incorrecto de mayúsculas y minúsculas.')
INSERT INTO errors VALUES('emails', 'mails', 'La palabra no está en el diccionario.')
INSERT INTO errors VALUES('WordStat', '', 'La palabra no está en el diccionario.')
INSERT INTO errors VALUES('Linkbuilding', '', 'La palabra no está en el diccionario.')
INSERT INTO errors VALUES('outreach', '', 'La palabra no está en el diccionario.')
INSERT INTO errors VALUES('Alexa', '', 'La palabra no está en el diccionario.')
INSERT INTO errors VALUES('SEMRush', '', 'La palabra no está en el diccionario.')
INSERT INTO errors VALUES('Ahrefs', 'Href', 'La palabra no está en el diccionario.')
INSERT INTO errors VALUES('MajesticSEO', '', 'La palabra no está en el diccionario.')
INSERT INTO errors VALUES('SerpStat', '', 'La palabra no está en el diccionario.')
INSERT INTO errors VALUES('autónomos', '', 'La palabra no está en el diccionario.')
INSERT INTO errors VALUES('SaaS', 'Saab,Seas,SAS', 'La palabra no está en el diccionario.')
INSERT INTO errors VALUES('SaaS', 'Seas,SAS', 'La palabra no está en el diccionario.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'La palabra no está en el diccionario.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'La palabra no está en el diccionario.')
INSERT INTO errors VALUES('async', 'sync', 'La palabra no está en el diccionario.')
INSERT INTO errors VALUES('generación de leads', 'generación de leads', 'La palabra no está en el diccionario.')

Volcado de resultados en JSON

Formato general del resultado:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.errors = p1.errors;

obj.json %]

Texto inicial:

[

Texto final:

]

Ejemplo de resultado:

[{"errors": [{"word":"SaaS","suggest":"Seas","type":"La palabra no está en el diccionario."},{"word":"autónomos","suggest":"","type":"La palabra no está en el diccionario."},{"word":"Afiliados","suggest":"Afiliados niki","type":"La palabra no está en el diccionario."},{"word":"Youtube","suggest":"YouTube","type":"Uso incorrecto de mayúsculas y minúsculas."},{"word":"emails","suggest":"mails","type":"La palabra no está en el diccionario."},{"word":"WordStat","suggest":"","type":"La palabra no está en el diccionario."},{"word":"Linkbuilding","suggest":"","type":"La palabra no está en el diccionario."},{"word":"outreach","suggest":"","type":"La palabra no está en el diccionario."},{"word":"Alexa","suggest":"","type":"La palabra no está en el diccionario."},{"word":"SEMRush","suggest":"","type":"La palabra no está en el diccionario."},{"word":"Ahrefs","suggest":"Href","type":"La palabra no está en el diccionario."},{"word":"MajesticSEO","suggest":"","type":"La palabra no está en el diccionario."},{"word":"SerpStat","suggest":"","type":"La palabra no está en el diccionario."},{"word":"autónomos","suggest":"","type":"La palabra no está en el diccionario."},{"word":"SaaS","suggest":"Saab,Seas,SAS","type":"La palabra no está en el diccionario."},{"word":"SaaS","suggest":"Seas,SAS","type":"La palabra no está en el diccionario."},{"word":"NodeJS","suggest":"Nodes","type":"La palabra no está en el diccionario."},{"word":"Parser'a","suggest":"","type":"La palabra no está en el diccionario."},{"word":"NodeJS","suggest":"Nodes","type":"La palabra no está en el diccionario."},{"word":"async","suggest":"sync","type":"La palabra no está en el diccionario."},{"word":"generación de leads","suggest":"generación leads","type":"La palabra no está en el diccionario."},{"word":"Extraiga","suggest":"Ex traiga","type":"La palabra no está en el diccionario."},{"word":"Instagram","suggest":"","type":"La palabra no está en el diccionario."},{"word":"comercio electrónico","suggest":"","type":"La palabra no está en el diccionario."},{"word":"comercios electrónicos","suggest":"","type":"La palabra no está en el diccionario."},{"word":"comercio electrónico","suggest":"","type":"La palabra no está en el diccionario."},{"word":"Instagram","suggest":"","type":"La palabra no está en el diccionario."},{"word":"Bing","suggest":"","type":"La palabra no está en el diccionario."},{"word":"noticieros","suggest":"","type":"La palabra no está en el diccionario."},{"word":"Redis","suggest":"","type":"La palabra no está en el diccionario."},{"word":"extraer","suggest":"","type":"La palabra no está en el diccionario."},{"word":"captchas","suggest":"","type":"La palabra no está en el diccionario."},{"word":"XEvil","suggest":"Evil,Devil","type":"La palabra no está en el diccionario."},{"word":"CapMonster","suggest":"Cap Monster","type":"La palabra no está en el diccionario."},{"word":"Captcha","suggest":"","type":"La palabra no está en el diccionario."},{"word":"RuCaptcha","suggest":"","type":"La palabra no está en el diccionario."},{"word":"extraer","suggest":"estrenar","type":"La palabra no está en el diccionario."},{"word":"extraer","suggest":"","type":"La palabra no está en el diccionario."},{"word":"extraer","suggest":"solicitar","type":"La palabra no está en el diccionario."},{"word":"brief","suggest":"","type":"La palabra no está en el diccionario."},{"word":"tickets","suggest":"","type":"La palabra no está en el diccionario."},{"word":"Parser’om","suggest":"","type":"La palabra no está en el diccionario."},{"word":"Parser'om","suggest":"","type":"La palabra no está en el diccionario."},{"word":"herramientas","suggest":"herramientas,útiles","type":"La palabra no está en el diccionario."}]}]

Ajustes posibles

ParámetroValor por defectoDescripción
LanguagesInglés, Ruso, UcranianoIdiomas de comprobación
OptionsOmitir palabras escritas en mayúsculas, por ejemplo, "VPC"., Omitir palabras con números, por ejemplo, "avp17x4534"., Omitir direcciones de internet, direcciones de correo y nombres de archivos., Ignorar números romanos ("I, II, III, ...").Opciones de comprobación
HTML::TextExtractor presetdefaultAjuste preestablecido para HTML::TextExtractorHTML::TextExtractor. Permite especificar la configuración de extracción de texto