Pular para o conteúdo principal

SE::Yandex::Speller - Verificação de erros de texto em páginas via Yandex Speller

Visão geral do Scraper

SE::Yandex::Speller

SE::Yandex::SpellerSE::Yandex::Speller – encontra erros ortográficos em textos em russo, ucraniano ou inglês na página especificada através do serviço Yandex.Speller. Os modelos de linguagem incluem centenas de milhões de palavras e frases.

A funcionalidade do A-Parser permite salvar as configurações de extração de dados do scraper SE::Yandex::Speller para uso posterior (presetes), definir cronogramas de extração de dados e muito mais.

A preservação dos resultados é possível na forma e estrutura que você necessita, graças ao poderoso motor de modelos integrado Template Toolkit que permite aplicar lógica adicional aos resultados e exibir dados em vários formatos, incluindo JSON, SQL e CSV.

Dados coletados

  • Blocos de texto nos quais foram encontrados erros

Recursos

  • Determinação do número de blocos que contêm erros
  • Exibição de possíveis causas de erros no texto

Opções de uso

  • Pesquisa da quantidade de blocos de texto que contêm erros
  • Verificação de páginas de sites para detecção de erros ortográficos no texto
  • Verificação de ortografia em páginas de sites

Consultas

O scraper pode aceitar como entrada tanto palavras-chave (strings de texto) quanto links para páginas. O tipo de consulta é determinado automaticamente.

  • Exemplo de consultas em forma de strings de texto:
Texto para verificação pelo scraper Yandex Speller
Consulta com erro
  • Exemplo de consultas em forma de endereço de página de site que precisa ser verificada:
https://a-parser.com/
https://en.wikipedia.org/wiki/Parsing

Opções de exibição de resultados

O A-Parser suporta formatação flexível de resultados graças ao motor de modelos integrado Template Toolkit, o que permite exibir resultados de forma arbitrária, bem como estruturada, por exemplo, CSV ou JSON

Exibição padrão

Formato do resultado:

$query: $total\n$errors.format('$word ($suggest) - $type\n')

Exemplo de resultado:

Consulta com erro: 1
erro (erro,erros) - A palavra não está no dicionário.
Texto para verificação pelo scraper Yandex Speller: 0
https://a-parser.com/: 10
sugestõess (sugestões) - A palavra não está no dicionário.
dadoss (dados,dadoss) - A palavra não está no dicionário.
MOZ (DMOZ) - A palavra não está no dicionário.
NodeJS (Node JS) - A palavra não está no dicionário.
Desenvolva (Desenvolvendo) - A palavra não está no dicionário.
...
https://en.wikipedia.org/wiki/Parsing: 183
• العربية (• العربية) - O texto contém erros demais.
• বাংলা (• বাংলা) - O texto contém erros demais.
...
material (material) - A palavra não está no dicionário.
parsed (passed) - A palavra não está no dicionário.
they (that) - A palavra não está no dicionário.
...

Salvamento em formato SQL

Formato do resultado:

[% FOREACH errors;
"INSERT INTO errors VALUES('" _ word _ "', '" _ suggest _ "', '" _ type _ "')\n";
END %]

Exemplo de resultado:

INSERT INTO errors VALUES('SaaS', 'Seas', 'A palavra não está no dicionário.')
INSERT INTO errors VALUES('freelancers', '', 'A palavra não está no dicionário.')
INSERT INTO errors VALUES('Afiliados', 'Afiliados', 'A palavra não está no dicionário.')
INSERT INTO errors VALUES('Youtube', 'YouTube', 'Uso incorreto de maiúsculas e minúsculas.')
INSERT INTO errors VALUES('emails', 'mails', 'A palavra não está no dicionário.')
INSERT INTO errors VALUES('WordStat', '', 'A palavra não está no dicionário.')
INSERT INTO errors VALUES('Linkbuilding', '', 'A palavra não está no dicionário.')
INSERT INTO errors VALUES('outreach', '', 'A palavra não está no dicionário.')
INSERT INTO errors VALUES('Alexa', '', 'A palavra não está no dicionário.')
INSERT INTO errors VALUES('SEMRush', '', 'A palavra não está no dicionário.')
INSERT INTO errors VALUES('Ahrefs', 'Href', 'A palavra não está no dicionário.')
INSERT INTO errors VALUES('MajesticSEO', '', 'A palavra não está no dicionário.')
INSERT INTO errors VALUES('SerpStat', '', 'A palavra não está no dicionário.')
INSERT INTO errors VALUES('freelancers', '', 'A palavra não está no dicionário.')
INSERT INTO errors VALUES('SaaS', 'Saab,Seas,SAS', 'A palavra não está no dicionário.')
INSERT INTO errors VALUES('SaaS', 'Seas,SAS', 'A palavra não está no dicionário.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'A palavra não está no dicionário.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'A palavra não está no dicionário.')
INSERT INTO errors VALUES('async', 'sync', 'A palavra não está no dicionário.')
INSERT INTO errors VALUES('geração de leads', 'geração de leads', 'A palavra não está no dicionário.')

Dump de resultados em JSON

Formato geral do resultado:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.errors = p1.errors;

obj.json %]

Texto inicial:

[

Texto final:

]

Exemplo de resultado:

[{"errors": [{"word":"SaaS","suggest":"Seas","type":"A palavra não está no dicionário."},{"word":"freelancers","suggest":"","type":"A palavra não está no dicionário."},{"word":"Afiliados","suggest":"Afiliados niki","type":"A palavra não está no dicionário."},{"word":"Youtube","suggest":"YouTube","type":"Uso incorreto de maiúsculas e minúsculas."},{"word":"emails","suggest":"e-mails","type":"A palavra não está no dicionário."},{"word":"WordStat","suggest":"","type":"A palavra não está no dicionário."},{"word":"Linkbuilding","suggest":"","type":"A palavra não está no dicionário."},{"word":"outreach","suggest":"","type":"A palavra não está no dicionário."},{"word":"Alexa","suggest":"","type":"A palavra não está no dicionário."},{"word":"SEMRush","suggest":"","type":"A palavra não está no dicionário."},{"word":"Ahrefs","suggest":"Href","type":"A palavra não está no dicionário."},{"word":"MajesticSEO","suggest":"","type":"A palavra não está no dicionário."},{"word":"SerpStat","suggest":"","type":"A palavra não está no dicionário."},{"word":"freelancers","suggest":"","type":"A palavra não está no dicionário."},{"word":"SaaS","suggest":"Saab,Seas,SAS","type":"A palavra não está no dicionário."},{"word":"SaaS","suggest":"Seas,SAS","type":"A palavra não está no dicionário."},{"word":"NodeJS","suggest":"Nodes","type":"A palavra não está no dicionário."},{"word":"Parser'a","suggest":"","type":"A palavra não está no dicionário."},{"word":"NodeJS","suggest":"Nodes","type":"A palavra não está no dicionário."},{"word":"async","suggest":"sync","type":"A palavra não está no dicionário."},{"word":"geração de leads","suggest":"geração de leads","type":"A palavra não está no dicionário."},{"word":"Extraia","suggest":"Pare","type":"A palavra não está no dicionário."},{"word":"Instagram","suggest":"","type":"A palavra não está no dicionário."},{"word":"marketplaces","suggest":"","type":"A palavra não está no dicionário."},{"word":"marketplaces","suggest":"","type":"A palavra não está no dicionário."},{"word":"marketplace","suggest":"","type":"A palavra não está no dicionário."},{"word":"Instagram","suggest":"","type":"A palavra não está no dicionário."},{"word":"Bing","suggest":"","type":"A palavra não está no dicionário."},{"word":"sites de notícias","suggest":"","type":"A palavra não está no dicionário."},{"word":"Redis","suggest":"","type":"A palavra não está no dicionário."},{"word":"extrair","suggest":"","type":"A palavra não está no dicionário."},{"word":"captchas","suggest":"","type":"A palavra não está no dicionário."},{"word":"XEvil","suggest":"Evil,Devil","type":"A palavra não está no dicionário."},{"word":"CapMonster","suggest":"Cap Monster","type":"A palavra não está no dicionário."},{"word":"Captcha","suggest":"","type":"A palavra não está no dicionário."},{"word":"RuCaptcha","suggest":"","type":"A palavra não está no dicionário."},{"word":"extrair","suggest":"disputar","type":"A palavra não está no dicionário."},{"word":"extrair","suggest":"","type":"A palavra não está no dicionário."},{"word":"extrair","suggest":"solicitar","type":"A palavra não está no dicionário."},{"word":"briefing","suggest":"","type":"A palavra não está no dicionário."},{"word":"tickets","suggest":"","type":"A palavra não está no dicionário."},{"word":"Parser’om","suggest":"","type":"A palavra não está no dicionário."},{"word":"Parser'om","suggest":"","type":"A palavra não está no dicionário."},{"word":"ferramentas","suggest":"nós,ases,ferramentas","type":"A palavra não está no dicionário."}]}]

Configurações possíveis

ParâmetroValor padrãoDescrição
LanguagesInglês, Russo, UcranianoIdiomas de verificação
OptionsPular palavras escritas em letras maiúsculas, por exemplo, "VPC"., Pular palavras com números, por exemplo, "avp17x4534"., Pular endereços de internet, endereços de e-mail e nomes de arquivos., Ignorar algarismos romanos ("I, II, III, ...").Opções de verificação
HTML::TextExtractor presetdefaultPresete para HTML::TextExtractorHTML::TextExtractor. Permite especificar as configurações de extração de texto