Chuyển đến nội dung chính

SE::Yandex::Speller - Kiểm tra lỗi chính tả trên trang web qua Yandex.Speller

Tổng quan về công cụ cào dữ liệu

SE::Yandex::Speller

SE::Yandex::SpellerSE::Yandex::Speller – tìm lỗi chính tả trong văn bản tiếng Nga, tiếng Ukraine hoặc tiếng Anh trên trang được chỉ định thông qua dịch vụ Yandex.Speller. Các mô hình ngôn ngữ bao gồm hàng trăm triệu từ và cụm từ.

Tính năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của công cụ cào dữ liệu SE::Yandex::Speller để sử dụng sau này (mẫu thiết lập sẵn), thiết lập lịch trình cào dữ liệu và nhiều tính năng khác.

Việc lưu kết quả có thể thực hiện dưới bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào trình tạo mẫu mạnh mẽ được tích hợp sẵn Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.

Dữ liệu thu thập được

  • Các khối văn bản phát hiện có lỗi

Tính năng

  • Xác định số lượng khối văn bản có lỗi
  • Hiển thị các nguyên nhân có thể gây ra lỗi trong văn bản

Ứng dụng

  • Tìm kiếm số lượng khối văn bản có lỗi
  • Kiểm tra các trang của trang web để tìm lỗi chính tả trong văn bản
  • Kiểm tra chính tả trên các trang của trang web

Truy vấn

Công cụ cào dữ liệu có thể nhận đầu vào là các từ khóa (chuỗi văn bản) hoặc liên kết đến các trang. Loại truy vấn được xác định tự động.

  • Ví dụ về các truy vấn dưới dạng chuỗi văn bản:
Văn bản để kiểm tra bằng công cụ cào dữ liệu Yandex Speller
Truy vấn có lỗi chính tả
  • Ví dụ về các truy vấn dưới dạng địa chỉ trang web cần kiểm tra:
https://a-parser.com/
https://en.wikipedia.org/wiki/Parsing

Các ví dụ về kết quả đầu ra

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ trình tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả ở dạng tùy ý, cũng như dạng có cấu trúc như CSV hoặc JSON

Đầu ra mặc định

Định dạng kết quả:

$query: $total\n$errors.format('$word ($suggest) - $type\n')

Ví dụ kết quả:

Truy vấn có lỗi chính tả: 1
obshibkoy (lỗi,obshivkoy) - Từ không có trong từ điển.
Văn bản để kiểm tra bằng công cụ cào dữ liệu Yandex Speller: 0
https://a-parser.com/: 10
podskazkazok (gợi ý) - Từ không có trong từ điển.
dữ liệu (dữ liệu,danykh) - Từ không có trong từ điển.
MOZ (DMOZ) - Từ không có trong từ điển.
NodeJS (Node JS) - Từ không có trong từ điển.
Phát triển (Tôi đang phát triển) - Từ không có trong từ điển.
...
https://en.wikipedia.org/wiki/Parsing: 183
• العربية (• العربية) - Văn bản chứa quá nhiều lỗi.
• বাংলা (• বাংলা) - Văn bản chứa quá nhiều lỗi.
...
material (vật liệu) - Từ không có trong từ điển.
parsed (passed) - Từ không có trong từ điển.
they (that) - Từ không có trong từ điển.
...

Lưu ở định dạng SQL

Định dạng kết quả:

[% FOREACH errors;
"INSERT INTO errors VALUES('" _ word _ "', '" _ suggest _ "', '" _ type _ "')\n";
END %]

Ví dụ kết quả:

INSERT INTO errors VALUES('SaaS', 'Seas', 'Từ không có trong từ điển.')
INSERT INTO errors VALUES('freelancer', '', 'Từ không có trong từ điển.')
INSERT INTO errors VALUES('Nhà làm affiliate', 'Arbitrazh niki', 'Từ không có trong từ điển.')
INSERT INTO errors VALUES('Youtube', 'YouTube', 'Sử dụng sai chữ hoa và chữ thường.')
INSERT INTO errors VALUES('email', 'mail', 'Từ không có trong từ điển.')
INSERT INTO errors VALUES('WordStat', '', 'Từ không có trong từ điển.')
INSERT INTO errors VALUES('Link building', '', 'Từ không có trong từ điển.')
INSERT INTO errors VALUES('outreach', '', 'Từ không có trong từ điển.')
INSERT INTO errors VALUES('Alexa', '', 'Từ không có trong từ điển.')
INSERT INTO errors VALUES('SEMRush', '', 'Từ không có trong từ điển.')
INSERT INTO errors VALUES('Ahrefs', 'Href', 'Từ không có trong từ điển.')
INSERT INTO errors VALUES('MajesticSEO', '', 'Từ không có trong từ điển.')
INSERT INTO errors VALUES('SerpStat', '', 'Từ không có trong từ điển.')
INSERT INTO errors VALUES('freelancer', '', 'Từ không có trong từ điển.')
INSERT INTO errors VALUES('SaaS', 'Saab,Seas,SAS', 'Từ không có trong từ điển.')
INSERT INTO errors VALUES('SaaS', 'Seas,SAS', 'Từ không có trong từ điển.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Từ không có trong từ điển.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Từ không có trong từ điển.')
INSERT INTO errors VALUES('async', 'sync', 'Từ không có trong từ điển.')
INSERT INTO errors VALUES('tạo khách hàng tiềm năng', 'lido generatsii', 'Từ không có trong từ điển.')

Xuất kết quả ra JSON

Định dạng kết quả chung:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.errors = p1.errors;

obj.json %]

Văn bản bắt đầu:

[

Văn bản kết thúc:

]

Ví dụ kết quả:

[{"errors": [{"word":"SaaS","suggest":"Seas","type":"Từ không có trong từ điển."},{"word":"freelancer","suggest":"","type":"Từ không có trong từ điển."},{"word":"Nhà làm affiliate","suggest":"Arbitrazh niki","type":"Từ không có trong từ điển."},{"word":"Youtube","suggest":"YouTube","type":"Sử dụng sai chữ hoa và chữ thường."},{"word":"email","suggest":"mail","type":"Từ không có trong từ điển."},{"word":"WordStat","suggest":"","type":"Từ không có trong từ điển."},{"word":"Link building","suggest":"","type":"Từ không có trong từ điển."},{"word":"outreach","suggest":"","type":"Từ không có trong từ điển."},{"word":"Alexa","suggest":"","type":"Từ không có trong từ điển."},{"word":"SEMRush","suggest":"","type":"Từ không có trong từ điển."},{"word":"Ahrefs","suggest":"Href","type":"Từ không có trong từ điển."},{"word":"MajesticSEO","suggest":"","type":"Từ không có trong từ điển."},{"word":"SerpStat","suggest":"","type":"Từ không có trong từ điển."},{"word":"freelancer","suggest":"","type":"Từ không có trong từ điển."},{"word":"SaaS","suggest":"Saab,Seas,SAS","type":"Từ không có trong từ điển."},{"word":"SaaS","suggest":"Seas,SAS","type":"Từ không có trong từ điển."},{"word":"NodeJS","suggest":"Nodes","type":"Từ không có trong từ điển."},{"word":"A-Parser","suggest":"","type":"Từ không có trong từ điển."},{"word":"NodeJS","suggest":"Nodes","type":"Từ không có trong từ điển."},{"word":"async","suggest":"sync","type":"Từ không có trong từ điển."},{"word":"tạo khách hàng tiềm năng","suggest":"lido generatsii","type":"Từ không có trong từ điển."},{"word":"Cào dữ liệu","suggest":"Parite","type":"Từ không có trong từ điển."},{"word":"Instagram","suggest":"","type":"Từ không có trong từ điển."},{"word":"sàn thương mại điện tử","suggest":"","type":"Từ không có trong từ điển."},{"word":"sàn thương mại điện tử","suggest":"","type":"Từ không có trong từ điển."},{"word":"sàn thương mại điện tử","suggest":"","type":"Từ không có trong từ điển."},{"word":"Instagram","suggest":"","type":"Từ không có trong từ điển."},{"word":"Bing","suggest":"","type":"Từ không có trong từ điển."},{"word":"trang tin tức","suggest":"","type":"Từ không có trong từ điển."},{"word":"Redis","suggest":"","type":"Từ không có trong từ điển."},{"word":"cào dữ liệu","suggest":"","type":"Từ không có trong từ điển."},{"word":"captcha","suggest":"","type":"Từ không có trong từ điển."},{"word":"XEvil","suggest":"Evil,Devil","type":"Từ không có trong từ điển."},{"word":"CapMonster","suggest":"Cap Monster","type":"Từ không có trong từ điển."},{"word":"Captcha","suggest":"","type":"Từ không có trong từ điển."},{"word":"RuCaptcha","suggest":"","type":"Từ không có trong từ điển."},{"word":"cào dữ liệu","suggest":"sporiti","type":"Từ không có trong từ điển."},{"word":"cào dữ liệu","suggest":"","type":"Từ không có trong từ điển."},{"word":"cào dữ liệu","suggest":"zapositi","type":"Từ không có trong từ điển."},{"word":"bản tóm tắt","suggest":"","type":"Từ không có trong từ điển."},{"word":"ticket","suggest":"","type":"Từ không có trong từ điển."},{"word":"A-Parser","suggest":"","type":"Từ không có trong từ điển."},{"word":"A-Parser","suggest":"","type":"Từ không có trong từ điển."},{"word":"công cụ","suggest":"uzlov,tuzov,tulov","type":"Từ không có trong từ điển."}]}]

Các cài đặt có thể có

Tham sốGiá trị mặc địnhMô tả
LanguagesTiếng Anh, Tiếng Nga, Tiếng UkraineNgôn ngữ kiểm tra
OptionsBỏ qua các từ viết hoa toàn bộ, ví dụ: "VPK"., Bỏ qua các từ có chứa số, ví dụ: "avp17kh4534"., Bỏ qua địa chỉ internet, địa chỉ email và tên tệp., Bỏ qua các chữ số La Mã ("I, II, III, ...").Tùy chọn kiểm tra
HTML::TextExtractor presetdefaultMẫu thiết lập sẵn cho HTML::TextExtractorHTML::TextExtractor. Cho phép chỉ định các cài đặt cào văn bản