SE::Yandex::Speller - Проверка страниц на ошибки в тексте через Яндекс.Спеллер
Обзор парсера
SE::Yandex::Speller – находит орфографические ошибки в русском, украинском или английском тексте на указанной странице через сервис Яндекс.Спеллер. Языковые модели включают сотни миллионов слов и словосочетаний.Функционал A-Parser позволяет сохранять настройки парсинга парсера SE::Yandex::Speller для дальнейшего использования (пресеты), задавать расписание парсинга и многое другое.
Сохранение результатов возможно в том виде и структуре которая вам необходима, благодаря встроенному мощному шаблонизатору Template Toolkit который позволяет применять дополнительную логику к результатам и выводить данные в различных форматах, включая JSON, SQL и CSV.
Собираемые данные
- Текстовые блоки, в которых найдены ошибки
Возможности
- Определение количества блоков в которых есть ошибки
- Вывод возможных причин ошибок в тексте
Варианты использования
- Поиск количества текстовых блоков в которых есть ошибки
- Проверка страниц сайта на наличие орфографических ошибок в тексте
- Проверка правописание на страницах сайта
Запросы
В качестве запросов необходимо указывать адрес страницы сайта которую нужно проверить, например:
https://a-parser.com/
Варианты вывода результатов
A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON
Вывод по умолчанию
Формат результата:
$query: $total\n$errors.format('$word ($suggest) - $type\n')
Пример результата:
https://a-parser.com: 44
SaaS (Seas) - Слова нет в словаре.
фрилансеры () - Слова нет в словаре.
Арбитражники (Арбитраж ники) - Слова нет в словаре.
Youtube (YouTube) - Неверное употребление прописных и строчных букв.
емейлы (мейлы) - Слова нет в словаре.
WordStat () - Слова нет в словаре.
Линкбилдинг () - Слова нет в словаре.
аутрич () - Слова нет в словаре.
Alexa () - Слова нет в словаре.
SEMRush () - Слова нет в словаре.
Ahrefs (Href) - Слова нет в словаре.
...
Сохранение в формате SQL
Формат результата:
[% FOREACH errors;
"INSERT INTO errors VALUES('" _ word _ "', '" _ suggest _ "', '" _ type _ "')\n";
END %]
Пример результата:
INSERT INTO errors VALUES('SaaS', 'Seas', 'Слова нет в словаре.')
INSERT INTO errors VALUES('фрилансеры', '', 'Слова нет в словаре.')
INSERT INTO errors VALUES('Арбитражники', 'Арбитраж ники', 'Слова нет в словаре.')
INSERT INTO errors VALUES('Youtube', 'YouTube', 'Неверное употребление прописных и строчных букв.')
INSERT INTO errors VALUES('емейлы', 'мейлы', 'Слова нет в словаре.')
INSERT INTO errors VALUES('WordStat', '', 'Слова нет в словаре.')
INSERT INTO errors VALUES('Линкбилдинг', '', 'Слова нет в словаре.')
INSERT INTO errors VALUES('аутрич', '', 'Слова нет в словаре.')
INSERT INTO errors VALUES('Alexa', '', 'Слова нет в словаре.')
INSERT INTO errors VALUES('SEMRush', '', 'Слова нет в словаре.')
INSERT INTO errors VALUES('Ahrefs', 'Href', 'Слова нет в словаре.')
INSERT INTO errors VALUES('MajesticSEO', '', 'Слова нет в словаре.')
INSERT INTO errors VALUES('SerpStat', '', 'Слова нет в словаре.')
INSERT INTO errors VALUES('фрилансеры', '', 'Слова нет в словаре.')
INSERT INTO errors VALUES('SaaS', 'Saab,Seas,SAS', 'Слова нет в словаре.')
INSERT INTO errors VALUES('SaaS', 'Seas,SAS', 'Слова нет в словаре.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Слова нет в словаре.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Слова нет в словаре.')
INSERT INTO errors VALUES('async', 'sync', 'Слова нет в словаре.')
INSERT INTO errors VALUES('лидогенерации', 'лидо генерации', 'Слова нет в словаре.')
Дамп результатов в JSON
Общий формат результата:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.errors = p1.errors;
obj.json %]
Начальный текст:
[
Конечный текст:
]
Пример результата:
[{"errors": [{"word":"SaaS","suggest":"Seas","type":"Слова нет в словаре."},{"word":"фрилансеры","suggest":"","type":"Слова нет в словаре."},{"word":"Арбитражники","suggest":"Арбитраж ники","type":"Слова нет в словаре."},{"word":"Youtube","suggest":"YouTube","type":"Неверное употребление прописных и строчных букв."},{"word":"емейлы","suggest":"мейлы","type":"Слова нет в словаре."},{"word":"WordStat","suggest":"","type":"Слова нет в словаре."},{"word":"Линкбилдинг","suggest":"","type":"Слова нет в словаре."},{"word":"аутрич","suggest":"","type":"Слова нет в словаре."},{"word":"Alexa","suggest":"","type":"Слова нет в словаре."},{"word":"SEMRush","suggest":"","type":"Слова нет в словаре."},{"word":"Ahrefs","suggest":"Href","type":"Слова нет в словаре."},{"word":"MajesticSEO","suggest":"","type":"Слова нет в словаре."},{"word":"SerpStat","suggest":"","type":"Слова нет в словаре."},{"word":"фрилансеры","suggest":"","type":"Слова нет в словаре."},{"word":"SaaS","suggest":"Saab,Seas,SAS","type":"Слова нет в словаре."},{"word":"SaaS","suggest":"Seas,SAS","type":"Слова нет в словаре."},{"word":"NodeJS","suggest":"Nodes","type":"Слова нет в словаре."},{"word":"Parser'а","suggest":"","type":"Слова нет в словаре."},{"word":"NodeJS","suggest":"Nodes","type":"Слова нет в словаре."},{"word":"async","suggest":"sync","type":"Слова нет в словаре."},{"word":"лидогенерации","suggest":"лидо генерации","type":"Слова нет в словаре."},{"word":"Парсите","suggest":"Парите","type":"Слова нет в словаре."},{"word":"Instagram","suggest":"","type":"Слова нет в словаре."},{"word":"маркетплейсы","suggest":"","type":"Слова нет в словаре."},{"word":"маркетплейсов","suggest":"","type":"Слова нет в словаре."},{"word":"маркетплейс","suggest":"","type":"Слова нет в словаре."},{"word":"Instagram","suggest":"","type":"Слова нет в словаре."},{"word":"Bing","suggest":"","type":"Слова нет в словаре."},{"word":"новостники","suggest":"","type":"Слова нет в словаре."},{"word":"Redis","suggest":"","type":"Слова нет в словаре."},{"word":"спарсить","suggest":"","type":"Слова нет в словаре."},{"word":"каптч","suggest":"","type":"Слова нет в словаре."},{"word":"XEvil","suggest":"Evil,Devil","type":"Слова нет в словаре."},{"word":"CapMonster","suggest":"Cap Monster","type":"Слова нет в словаре."},{"word":"Captcha","suggest":"","type":"Слова нет в словаре."},{"word":"RuCaptcha","suggest":"","type":"Слова нет в словаре."},{"word":"спарсить","suggest":"спорить","type":"Слова нет в словаре."},{"word":"спарсить","suggest":"","type":"Слова нет в словаре."},{"word":"спарсить","suggest":"запросить","type":"Слова нет в словаре."},{"word":"бриф","suggest":"","type":"Слова нет в словаре."},{"word":"тикетов","suggest":"","type":"Слова нет в словаре."},{"word":"Parser’ом","suggest":"","type":"Слова нет в словаре."},{"word":"Parser'ом","suggest":"","type":"Слова нет в словаре."},{"word":"тулзов","suggest":"узлов,тузов,тулов","type":"Слова нет в словаре."}]}]
Возможные настройки
Параметр | Значение по умолчанию | Описание |
---|---|---|
Languages | Английский, Русский, Украинский | Языки проверки |
Options | Пропускать слова, написанные заглавными буквами, например, "ВПК"., Пропускать слова с цифрами, например, "авп17х4534"., Пропускать интернет-адреса, почтовые адреса и имена файлов., Игнорировать римские цифры ("I, II, III, ..."). | Опции проверки |
HTML::TextExtractor preset | default | Пресет для HTML::TextExtractor. Позволяет указать настройки парсинга текста |