SE::Yandex::Speller - Yandex.Spellerを使用したテキストのスペルチェック
スクレイパーの概要

SE::Yandex::Speller – Yandex.Spellerサービスを介して、指定されたページ内のロシア語、ウクライナ語、または英語のテキストのスペルミスを検出します。言語モデルには数億の単語やフレーズが含まれています。A-Parserの機能により、SE::Yandex::Spellerスクレイパーのスクレイピング設定を将来の使用のために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。
内蔵された強力なテンプレートエンジン Template Toolkit により、結果に必要なロジックを適用し、JSON、SQL、CSVを含む様々なフォーマットでデータを出力するなど、必要な形式と構造で結果を保存できます。
収集データ
- エラーが見つかったテキストブロック
機能
- エラーがあるブロック数の特定
- テキスト内のエラーの考えられる原因の出力
ユースケース
- エラーが含まれるテキストブロックの数の検索
- ウェブサイトのページ内のスペルミスのチェック
- ウェブサイトのページの校正チェック
クエリ
スクレイパーは、キーワード(テキスト文字列)とページへのリンクの両方を入力として受け取ることができます。クエリのタイプは自動的に判別されます。
- テキスト文字列としてのクエリ例:
Yandex Spellerスクレイパーでチェックするテキスト
タイポのあるクエリ
- チェック対象のウェブサイトのアドレスとしてのクエリ例:
https://a-parser.com/
https://en.wikipedia.org/wiki/Parsing
結果の出力例
A-Parserは、内蔵のテンプレートエンジン Template Toolkit により柔軟な結果フォーマットをサポートしており、任意の形式や、CSVやJSONなどの構造化された形式で結果を出力できます。
デフォルト出力
結果フォーマット:
$query: $total\n$errors.format('$word ($suggest) - $type\n')
結果の例:
タイポのあるクエリ: 1
オブシーブコイ (オシーブコイ,オブシーフコイ) - 辞書に単語がありません。
Yandex Spellerスクレイパーでチェックするテキスト: 0
https://a-parser.com/: 10
ポドスカズカゾク (ヒント) - 辞書に単語がありません。
データ (データ,データ) - 辞書に単語がありません。
MOZ (DMOZ) - 辞書に単語がありません。
NodeJS (Node JS) - 辞書に単語がありません。
開発しろ (開発しています) - 辞書に単語がありません。
...
https://en.wikipedia.org/wiki/Parsing: 183
• العربية (• العربية) - テキストにエラーが多すぎます。
• বাংলা (• বাংলা) - テキストにエラーが多すぎます。
...
material (素材) - 辞書に単語がありません。
parsed (passed) - 辞書に単語がありません。
they (that) - 辞書に単語がありません。
...
SQL形式での保存
結果フォーマット:
[% FOREACH errors;
"INSERT INTO errors VALUES('" _ word _ "', '" _ suggest _ "', '" _ type _ "')\n";
END %]
結果の例:
INSERT INTO errors VALUES('SaaS', 'Seas', '辞書に単語がありません。')
INSERT INTO errors VALUES('フリーランス', '', '辞書に単語がありません。')
INSERT INTO errors VALUES('アフィリエイトマーケター', 'アフィリエイト マーケター', '辞書に単語がありません。')
INSERT INTO errors VALUES('Youtube', 'YouTube', '大文字と小文字の使用が正しくありません。')
INSERT INTO errors VALUES('メール', 'メール', '辞書に単語がありません。')
INSERT INTO errors VALUES('WordStat', '', '辞書に単語がありません。')
INSERT INTO errors VALUES('リンクビルディング', '', '辞書に単語がありません。')
INSERT INTO errors VALUES('アウトリーチ', '', '辞書に単語がありません。')
INSERT INTO errors VALUES('Alexa', '', '辞書に単語がありません。')
INSERT INTO errors VALUES('SEMRush', '', '辞書に単語がありません。')
INSERT INTO errors VALUES('Ahrefs', 'Href', '辞書に単語がありません。')
INSERT INTO errors VALUES('MajesticSEO', '', '辞書に単語がありません。')
INSERT INTO errors VALUES('SerpStat', '', '辞書に単語がありません。')
INSERT INTO errors VALUES('フリーランス', '', '辞書に単語がありません。')
INSERT INTO errors VALUES('SaaS', 'Saab,Seas,SAS', '辞書に単語がありません。')
INSERT INTO errors VALUES('SaaS', 'Seas,SAS', '辞書に単語がありません。')
INSERT INTO errors VALUES('NodeJS', 'Nodes', '辞書に単語がありません。')
INSERT INTO errors VALUES('NodeJS', 'Nodes', '辞書に単語がありません。')
INSERT INTO errors VALUES('async', 'sync', '辞書に単語がありません。')
INSERT INTO errors VALUES('リードジェネレーション', 'リード ジェネレーション', '辞書に単語がありません。')
JSONへの結果ダンプ
全体の結果フォーマット:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.errors = p1.errors;
obj.json %]
開始テキスト:
[
終了テキスト:
]
結果の例:
[{"errors": [{"word":"SaaS","suggest":"Seas","type":"辞書に単語がありません。"},{"word":"フリーランス","suggest":"","type":"辞書に単語がありません。"},{"word":"アフィリエイトマーケター","suggest":"アフィリエイト マーケター","type":"辞書に単語がありません。"},{"word":"Youtube","suggest":"YouTube","type":"大文字と小文字の使用が正しくありません。"},{"word":"メール","suggest":"メール","type":"辞書に単語がありません。"},{"word":"WordStat","suggest":"","type":"辞書に単語がありません。"},{"word":"リンクビルディング","suggest":"","type":"辞書に単語がありません。"},{"word":"アウトリーチ","suggest":"","type":"辞書に単語がありません。"},{"word":"Alexa","suggest":"","type":"辞書に単語がありません。"},{"word":"SEMRush","suggest":"","type":"辞書に単語がありません。"},{"word":"Ahrefs","suggest":"Href","type":"辞書に単語がありません。"},{"word":"MajesticSEO","suggest":"","type":"辞書に単語がありません。"},{"word":"SerpStat","suggest":"","type":"辞書に単語がありません。"},{"word":"フリーランス","suggest":"","type":"辞書に単語がありません。"},{"word":"SaaS","suggest":"Saab,Seas,SAS","type":"辞書に単語がありません。"},{"word":"SaaS","suggest":"Seas,SAS","type":"辞書に単語がありません。"},{"word":"NodeJS","suggest":"Nodes","type":"辞書に単語がありません。"},{"word":"A-Parser","suggest":"","type":"辞書に単語がありません。"},{"word":"NodeJS","suggest":"Nodes","type":"辞書に単語がありません。"},{"word":"async","suggest":"sync","type":"辞書に単語がありません。"},{"word":"リードジェネレーション","suggest":"リード ジェネレーション","type":"辞書に単語がありません。"},{"word":"スクレイピングする","suggest":"パレードする","type":"辞書に単語がありません。"},{"word":"Instagram","suggest":"","type":"辞書に単語がありません。"},{"word":"マーケットプレイス","suggest":"","type":"辞書に単語がありません。"},{"word":"マーケットプレイスの","suggest":"","type":"辞書に単語がありません。"},{"word":"マーケットプレイス","suggest":"","type":"辞書に単語がありません。"},{"word":"Instagram","suggest":"","type":"辞書に単語がありません。"},{"word":"Bing","suggest":"","type":"辞書に単語がありません。"},{"word":"ニュースサイト","suggest":"","type":"辞書に単語がありません。"},{"word":"Redis","suggest":"","type":"辞書に単語がありません。"},{"word":"スクレイピングする","suggest":"","type":"辞書に単語がありません。"},{"word":"キャプチャ","suggest":"","type":"辞書に単語がありません。"},{"word":"XEvil","suggest":"Evil,Devil","type":"辞書に単語がありません。"},{"word":"CapMonster","suggest":"Cap Monster","type":"辞書に単語がありません。"},{"word":"Captcha","suggest":"","type":"辞書に単語がありません。"},{"word":"RuCaptcha","suggest":"","type":"辞書に単語がありません。"},{"word":"スクレイピングする","suggest":"議論する","type":"辞書に単語がありません。"},{"word":"スクレイピングする","suggest":"","type":"辞書に単語がありません。"},{"word":"スクレイピングする","suggest":"リクエストする","type":"辞書に単語がありません。"},{"word":"ブリーフ","suggest":"","type":"辞書に単語がありません。"},{"word":"チケット","suggest":"","type":"辞書に単語がありません。"},{"word":"A-Parserで","suggest":"","type":"辞書に単語がありません。"},{"word":"A-Parserで","suggest":"","type":"辞書に単語がありません。"},{"word":"ツール","suggest":"ノード,エース,ツール","type":"辞書に単語がありません。"}]}]
利用可能な設定
| パラメーター | デフォルト値 | 説明 |
|---|---|---|
| Languages | 英語, ロシア語, ウクライナ語 | チェック言語 |
| オプション | 「VPK」などの大文字で書かれた単語をスキップする。, 「avp17x4534」などの数字を含む単語をスキップする。, インターネットアドレス、メールアドレス、ファイル名をスキップする。, ローマ数字(「I, II, III, ...」)を無視する。 | チェックオプション |
| HTML::TextExtractor preset | default | HTML::TextExtractor用のプリセット。テキスト抽出の設定を指定できます |
