Перейти к основному содержимому

SE::Yandex::Speller - Проверка страниц на ошибки в тексте через Яндекс.Спеллер

Обзор парсера

SE::Yandex::Speller

SE::Yandex::SpellerSE::Yandex::Speller – находит орфографические ошибки в русском, украинском или английском тексте на указанной странице через сервис Яндекс.Спеллер. Языковые модели включают сотни миллионов слов и словосочетаний.

Функционал A-Parser позволяет сохранять настройки парсинга парсера SE::Yandex::Speller для дальнейшего использования (пресеты), задавать расписание парсинга и многое другое.

Сохранение результатов возможно в том виде и структуре которая вам необходима, благодаря встроенному мощному шаблонизатору Template Toolkit который позволяет применять дополнительную логику к результатам и выводить данные в различных форматах, включая JSON, SQL и CSV.

Собираемые данные

  • Текстовые блоки, в которых найдены ошибки

Возможности

  • Определение количества блоков в которых есть ошибки
  • Вывод возможных причин ошибок в тексте

Варианты использования

  • Поиск количества текстовых блоков в которых есть ошибки
  • Проверка страниц сайта на наличие орфографических ошибок в тексте
  • Проверка правописание на страницах сайта

Запросы

В качестве запросов необходимо указывать адрес страницы сайта которую нужно проверить, например:

https://a-parser.com/

Варианты вывода результатов

A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON

Вывод по умолчанию

Формат результата:

$query: $total\n$errors.format('$word ($suggest) - $type\n')

Пример результата:

https://a-parser.com: 44
SaaS (Seas) - Слова нет в словаре.
фрилансеры () - Слова нет в словаре.
Арбитражники (Арбитраж ники) - Слова нет в словаре.
Youtube (YouTube) - Неверное употребление прописных и строчных букв.
емейлы (мейлы) - Слова нет в словаре.
WordStat () - Слова нет в словаре.
Линкбилдинг () - Слова нет в словаре.
аутрич () - Слова нет в словаре.
Alexa () - Слова нет в словаре.
SEMRush () - Слова нет в словаре.
Ahrefs (Href) - Слова нет в словаре.
...

Сохранение в формате SQL

Формат результата:

[% FOREACH errors;
"INSERT INTO errors VALUES('" _ word _ "', '" _ suggest _ "', '" _ type _ "')\n";
END %]

Пример результата:

INSERT INTO errors VALUES('SaaS', 'Seas', 'Слова нет в словаре.')
INSERT INTO errors VALUES('фрилансеры', '', 'Слова нет в словаре.')
INSERT INTO errors VALUES('Арбитражники', 'Арбитраж ники', 'Слова нет в словаре.')
INSERT INTO errors VALUES('Youtube', 'YouTube', 'Неверное употребление прописных и строчных букв.')
INSERT INTO errors VALUES('емейлы', 'мейлы', 'Слова нет в словаре.')
INSERT INTO errors VALUES('WordStat', '', 'Слова нет в словаре.')
INSERT INTO errors VALUES('Линкбилдинг', '', 'Слова нет в словаре.')
INSERT INTO errors VALUES('аутрич', '', 'Слова нет в словаре.')
INSERT INTO errors VALUES('Alexa', '', 'Слова нет в словаре.')
INSERT INTO errors VALUES('SEMRush', '', 'Слова нет в словаре.')
INSERT INTO errors VALUES('Ahrefs', 'Href', 'Слова нет в словаре.')
INSERT INTO errors VALUES('MajesticSEO', '', 'Слова нет в словаре.')
INSERT INTO errors VALUES('SerpStat', '', 'Слова нет в словаре.')
INSERT INTO errors VALUES('фрилансеры', '', 'Слова нет в словаре.')
INSERT INTO errors VALUES('SaaS', 'Saab,Seas,SAS', 'Слова нет в словаре.')
INSERT INTO errors VALUES('SaaS', 'Seas,SAS', 'Слова нет в словаре.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Слова нет в словаре.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Слова нет в словаре.')
INSERT INTO errors VALUES('async', 'sync', 'Слова нет в словаре.')
INSERT INTO errors VALUES('лидогенерации', 'лидо генерации', 'Слова нет в словаре.')

Дамп результатов в JSON

Общий формат результата:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.errors = p1.errors;

obj.json %]

Начальный текст:

[

Конечный текст:

]

Пример результата:

[{"errors": [{"word":"SaaS","suggest":"Seas","type":"Слова нет в словаре."},{"word":"фрилансеры","suggest":"","type":"Слова нет в словаре."},{"word":"Арбитражники","suggest":"Арбитраж ники","type":"Слова нет в словаре."},{"word":"Youtube","suggest":"YouTube","type":"Неверное употребление прописных и строчных букв."},{"word":"емейлы","suggest":"мейлы","type":"Слова нет в словаре."},{"word":"WordStat","suggest":"","type":"Слова нет в словаре."},{"word":"Линкбилдинг","suggest":"","type":"Слова нет в словаре."},{"word":"аутрич","suggest":"","type":"Слова нет в словаре."},{"word":"Alexa","suggest":"","type":"Слова нет в словаре."},{"word":"SEMRush","suggest":"","type":"Слова нет в словаре."},{"word":"Ahrefs","suggest":"Href","type":"Слова нет в словаре."},{"word":"MajesticSEO","suggest":"","type":"Слова нет в словаре."},{"word":"SerpStat","suggest":"","type":"Слова нет в словаре."},{"word":"фрилансеры","suggest":"","type":"Слова нет в словаре."},{"word":"SaaS","suggest":"Saab,Seas,SAS","type":"Слова нет в словаре."},{"word":"SaaS","suggest":"Seas,SAS","type":"Слова нет в словаре."},{"word":"NodeJS","suggest":"Nodes","type":"Слова нет в словаре."},{"word":"Parser'а","suggest":"","type":"Слова нет в словаре."},{"word":"NodeJS","suggest":"Nodes","type":"Слова нет в словаре."},{"word":"async","suggest":"sync","type":"Слова нет в словаре."},{"word":"лидогенерации","suggest":"лидо генерации","type":"Слова нет в словаре."},{"word":"Парсите","suggest":"Парите","type":"Слова нет в словаре."},{"word":"Instagram","suggest":"","type":"Слова нет в словаре."},{"word":"маркетплейсы","suggest":"","type":"Слова нет в словаре."},{"word":"маркетплейсов","suggest":"","type":"Слова нет в словаре."},{"word":"маркетплейс","suggest":"","type":"Слова нет в словаре."},{"word":"Instagram","suggest":"","type":"Слова нет в словаре."},{"word":"Bing","suggest":"","type":"Слова нет в словаре."},{"word":"новостники","suggest":"","type":"Слова нет в словаре."},{"word":"Redis","suggest":"","type":"Слова нет в словаре."},{"word":"спарсить","suggest":"","type":"Слова нет в словаре."},{"word":"каптч","suggest":"","type":"Слова нет в словаре."},{"word":"XEvil","suggest":"Evil,Devil","type":"Слова нет в словаре."},{"word":"CapMonster","suggest":"Cap Monster","type":"Слова нет в словаре."},{"word":"Captcha","suggest":"","type":"Слова нет в словаре."},{"word":"RuCaptcha","suggest":"","type":"Слова нет в словаре."},{"word":"спарсить","suggest":"спорить","type":"Слова нет в словаре."},{"word":"спарсить","suggest":"","type":"Слова нет в словаре."},{"word":"спарсить","suggest":"запросить","type":"Слова нет в словаре."},{"word":"бриф","suggest":"","type":"Слова нет в словаре."},{"word":"тикетов","suggest":"","type":"Слова нет в словаре."},{"word":"Parser’ом","suggest":"","type":"Слова нет в словаре."},{"word":"Parser'ом","suggest":"","type":"Слова нет в словаре."},{"word":"тулзов","suggest":"узлов,тузов,тулов","type":"Слова нет в словаре."}]}]

Возможные настройки

ПараметрЗначение по умолчаниюОписание
LanguagesАнглийский, Русский, УкраинскийЯзыки проверки
OptionsПропускать слова, написанные заглавными буквами, например, "ВПК"., Пропускать слова с цифрами, например, "авп17х4534"., Пропускать интернет-адреса, почтовые адреса и имена файлов., Игнорировать римские цифры ("I, II, III, ...").Опции проверки
HTML::TextExtractor presetdefaultПресет для HTML::TextExtractorHTML::TextExtractor. Позволяет указать настройки парсинга текста