Vai al contenuto principale

SE::Yandex::Speller - Controllo degli errori nel testo delle pagine tramite Yandex Speller

Panoramica dello scraper

SE::Yandex::Speller

SE::Yandex::SpellerSE::Yandex::Speller – trova errori ortografici in testi in russo, ucraino o inglese sulla pagina specificata tramite il servizio Yandex.Speller. I modelli linguistici includono centinaia di milioni di parole e frasi.

La funzionalità di A-Parser consente di salvare le impostazioni di scraping dello scraper SE::Yandex::Speller per un uso futuro (preset), impostare programmi di scraping e molto altro.

Il salvataggio dei risultati è possibile nel formato e nella struttura necessari, grazie al potente motore di modelli integrato Template Toolkit che consente di applicare logiche aggiuntive ai risultati e di esportare i dati in vari formati, tra cui JSON, SQL e CSV.

Dati raccolti

  • Blocchi di testo in cui sono stati trovati errori

Funzionalità

  • Determinazione del numero di blocchi che contengono errori
  • Output delle possibili cause degli errori nel testo

Casi d'uso

  • Ricerca del numero di blocchi di testo che contengono errori
  • Controllo delle pagine del sito per la presenza di errori ortografici nel testo
  • Controllo dell'ortografia sulle pagine del sito

Query

Lo scraper può accettare in input sia parole chiave (stringhe di testo) che link a pagine. Il tipo di query viene determinato automaticamente.

  • Esempio di query sotto forma di stringhe di testo:
Testo per il controllo con lo scraper Yandex Speller
Query con erore
  • Esempio di query sotto forma di indirizzo della pagina del sito da controllare:
https://a-parser.com/
https://en.wikipedia.org/wiki/Parsing

Varianti di output dei risultati

A-Parser supporta la formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma libera o strutturata, come CSV o JSON

Output predefinito

Formato del risultato:

$query: $total\n$errors.format('$word ($suggest) - $type\n')

Esempio di risultato:

Query con erore: 1
erore (errore,erose) - Parola non presente nel dizionario.
Testo per il controllo con lo scraper Yandex Speller: 0
https://a-parser.com/: 10
suggerimentii (suggerimenti) - Parola non presente nel dizionario.
datiii (dati,datii) - Parola non presente nel dizionario.
MOZ (DMOZ) - Parola non presente nel dizionario.
NodeJS (Node JS) - Parola non presente nel dizionario.
Sviluppai (Sviluppo) - Parola non presente nel dizionario.
...
https://en.wikipedia.org/wiki/Parsing: 183
• العربية (• العربية) - Il testo contiene troppi errori.
• বাংলা (• বাংলা) - Il testo contiene troppi errori.
...
material (materiale) - Parola non presente nel dizionario.
parsed (passed) - Parola non presente nel dizionario.
they (that) - Parola non presente nel dizionario.
...

Salvataggio in formato SQL

Formato del risultato:

[% FOREACH errors;
"INSERT INTO errors VALUES('" _ word _ "', '" _ suggest _ "', '" _ type _ "')\n";
END %]

Esempio di risultato:

INSERT INTO errors VALUES('SaaS', 'Seas', 'Parola non presente nel dizionario.')
INSERT INTO errors VALUES('freelance', '', 'Parola non presente nel dizionario.')
INSERT INTO errors VALUES('Affiliati', 'Affiliati niki', 'Parola non presente nel dizionario.')
INSERT INTO errors VALUES('Youtube', 'YouTube', 'Uso errato di maiuscole e minuscole.')
INSERT INTO errors VALUES('email', 'mail', 'Parola non presente nel dizionario.')
INSERT INTO errors VALUES('WordStat', '', 'Parola non presente nel dizionario.')
INSERT INTO errors VALUES('Link building', '', 'Parola non presente nel dizionario.')
INSERT INTO errors VALUES('outreach', '', 'Parola non presente nel dizionario.')
INSERT INTO errors VALUES('Alexa', '', 'Parola non presente nel dizionario.')
INSERT INTO errors VALUES('SEMRush', '', 'Parola non presente nel dizionario.')
INSERT INTO errors VALUES('Ahrefs', 'Href', 'Parola non presente nel dizionario.')
INSERT INTO errors VALUES('MajesticSEO', '', 'Parola non presente nel dizionario.')
INSERT INTO errors VALUES('SerpStat', '', 'Parola non presente nel dizionario.')
INSERT INTO errors VALUES('freelance', '', 'Parola non presente nel dizionario.')
INSERT INTO errors VALUES('SaaS', 'Saab,Seas,SAS', 'Parola non presente nel dizionario.')
INSERT INTO errors VALUES('SaaS', 'Seas,SAS', 'Parola non presente nel dizionario.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Parola non presente nel dizionario.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Parola non presente nel dizionario.')
INSERT INTO errors VALUES('async', 'sync', 'Parola non presente nel dizionario.')
INSERT INTO errors VALUES('lead generation', 'lead generation', 'Parola non presente nel dizionario.')

Dump dei risultati in JSON

Formato generale del risultato:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.errors = p1.errors;

obj.json %]

Testo iniziale:

[

Testo finale:

]

Esempio di risultato:

[{"errors": [{"word":"SaaS","suggest":"Seas","type":"Parola non presente nel dizionario."},{"word":"freelance","suggest":"","type":"Parola non presente nel dizionario."},{"word":"Affiliati","suggest":"Affiliati niki","type":"Parola non presente nel dizionario."},{"word":"Youtube","suggest":"YouTube","type":"Uso errato di maiuscole e minuscole."},{"word":"email","suggest":"mail","type":"Parola non presente nel dizionario."},{"word":"WordStat","suggest":"","type":"Parola non presente nel dizionario."},{"word":"Link building","suggest":"","type":"Parola non presente nel dizionario."},{"word":"outreach","suggest":"","type":"Parola non presente nel dizionario."},{"word":"Alexa","suggest":"","type":"Parola non presente nel dizionario."},{"word":"SEMRush","suggest":"","type":"Parola non presente nel dizionario."},{"word":"Ahrefs","suggest":"Href","type":"Parola non presente nel dizionario."},{"word":"MajesticSEO","suggest":"","type":"Parola non presente nel dizionario."},{"word":"SerpStat","suggest":"","type":"Parola non presente nel dizionario."},{"word":"freelance","suggest":"","type":"Parola non presente nel dizionario."},{"word":"SaaS","suggest":"Saab,Seas,SAS","type":"Parola non presente nel dizionario."},{"word":"SaaS","suggest":"Seas,SAS","type":"Parola non presente nel dizionario."},{"word":"NodeJS","suggest":"Nodes","type":"Parola non presente nel dizionario."},{"word":"A-Parser","suggest":"","type":"Parola non presente nel dizionario."},{"word":"NodeJS","suggest":"Nodes","type":"Parola non presente nel dizionario."},{"word":"async","suggest":"sync","type":"Parola non presente nel dizionario."},{"word":"lead generation","suggest":"lead generation","type":"Parola non presente nel dizionario."},{"word":"Scrapate","suggest":"Parite","type":"Parola non presente nel dizionario."},{"word":"Instagram","suggest":"","type":"Parola non presente nel dizionario."},{"word":"marketplace","suggest":"","type":"Parola non presente nel dizionario."},{"word":"marketplace","suggest":"","type":"Parola non presente nel dizionario."},{"word":"marketplace","suggest":"","type":"Parola non presente nel dizionario."},{"word":"Instagram","suggest":"","type":"Parola non presente nel dizionario."},{"word":"Bing","suggest":"","type":"Parola non presente nel dizionario."},{"word":"siti di news","suggest":"","type":"Parola non presente nel dizionario."},{"word":"Redis","suggest":"","type":"Parola non presente nel dizionario."},{"word":"scrapare","suggest":"","type":"Parola non presente nel dizionario."},{"word":"captcha","suggest":"","type":"Parola non presente nel dizionario."},{"word":"XEvil","suggest":"Evil,Devil","type":"Parola non presente nel dizionario."},{"word":"CapMonster","suggest":"Cap Monster","type":"Parola non presente nel dizionario."},{"word":"Captcha","suggest":"","type":"Parola non presente nel dizionario."},{"word":"RuCaptcha","suggest":"","type":"Parola non presente nel dizionario."},{"word":"scrapare","suggest":"discutere","type":"Parola non presente nel dizionario."},{"word":"scrapare","suggest":"","type":"Parola non presente nel dizionario."},{"word":"scrapare","suggest":"richiedere","type":"Parola non presente nel dizionario."},{"word":"brief","suggest":"","type":"Parola non presente nel dizionario."},{"word":"ticket","suggest":"","type":"Parola non presente nel dizionario."},{"word":"A-Parser","suggest":"","type":"Parola non presente nel dizionario."},{"word":"A-Parser","suggest":"","type":"Parola non presente nel dizionario."},{"word":"tool","suggest":"nodi,assi,strumenti","type":"Parola non presente nel dizionario."}]}]

Impostazioni possibili

ParametroValore predefinitoDescrizione
LanguagesInglese, Russo, UcrainoLingue di controllo
OptionsIgnora le parole scritte in maiuscolo, ad esempio "VPC"., Ignora le parole con numeri, ad esempio "avp17h4534"., Ignora indirizzi internet, indirizzi email e nomi di file., Ignora i numeri romani ("I, II, III, ...").Opzioni di controllo
HTML::TextExtractor presetdefaultPreset per HTML::TextExtractorHTML::TextExtractor. Consente di specificare le impostazioni di scraping del testo