Hoppa till huvudinnehåll

SE::Yandex::Speller - Kontrollera sidor för textfel via Yandex Speller

Översikt av scrapern

SE::Yandex::Speller

SE::Yandex::SpellerSE::Yandex::Speller – hittar stavfel i rysk, ukrainsk eller engelsk text på den angivna sidan via tjänsten Yandex.Speller. Språkmodellerna omfattar hundratals miljoner ord och fraser.

Funktionaliteten i A-Parser gör det möjligt att spara inställningar för scrapern SE::Yandex::Speller för framtida bruk (förinställningar), schemalägga dataskrapning och mycket mer.

Resultaten kan sparas i det format och den struktur du behöver, tack vare den inbyggda kraftfulla mallmotorn Template Toolkit som gör det möjligt att tillämpa ytterligare logik på resultaten och exportera data i olika format, inklusive JSON, SQL och CSV.

Insamlade data

  • Textblock där fel har hittats

Funktioner

  • Fastställa antalet block som innehåller fel
  • Visa möjliga orsaker till fel i texten

Användningsfall

  • Hitta antalet textblock som innehåller fel
  • Kontrollera webbplatssidor för stavfel i texten
  • Kontrollera rättstavning på webbplatssidor

Frågor

Scrapern kan ta emot både sökord (textsträngar) och länkar till sidor som indata. Typen av fråga identifieras automatiskt.

  • Exempel på frågor i form av textsträngar:
Text för kontroll med scrapern Yandex Speller
Fråga med stavfel
  • Exempel på frågor i form av en webbadress till en sida som ska kontrolleras:
https://a-parser.com/
https://en.wikipedia.org/wiki/Parsing

Alternativ för resultatvisning

A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör det möjligt att visa resultat i valfri form, samt i strukturerad form som CSV eller JSON.

Standardutdata

Resultatformat:

$query: $total\n$errors.format('$word ($suggest) - $type\n')

Exempel på resultat:

Fråga med stavfel: 1
stavfel (stavfel,stavning) - Ordet finns inte i ordboken.
Text för kontroll med scrapern Yandex Speller: 0
https://a-parser.com/: 10
tipsen (tipsen) - Ordet finns inte i ordboken.
data (data,datum) - Ordet finns inte i ordboken.
MOZ (DMOZ) - Ordet finns inte i ordboken.
NodeJS (Node JS) - Ordet finns inte i ordboken.
Utveckla (Utvecklar) - Ordet finns inte i ordboken.
...
https://en.wikipedia.org/wiki/Parsing: 183
• العربية (• العربية) - Texten innehåller för många fel.
• বাংলা (• বাংলা) - Texten innehåller för många fel.
...
material (material) - Ordet finns inte i ordboken.
parsed (passed) - Ordet finns inte i ordboken.
they (that) - Ordet finns inte i ordboken.
...

Spara i SQL-format

Resultatformat:

[% FOREACH errors;
"INSERT INTO errors VALUES('" _ word _ "', '" _ suggest _ "', '" _ type _ "')\n";
END %]

Exempel på resultat:

INSERT INTO errors VALUES('SaaS', 'Seas', 'Ordet finns inte i ordboken.')
INSERT INTO errors VALUES('frilansare', '', 'Ordet finns inte i ordboken.')
INSERT INTO errors VALUES('Affiliate-marknadsförare', 'Affiliate marknadsförare', 'Ordet finns inte i ordboken.')
INSERT INTO errors VALUES('Youtube', 'YouTube', 'Felaktig användning av stora och små bokstäver.')
INSERT INTO errors VALUES('e-postmeddelanden', 'mejl', 'Ordet finns inte i ordboken.')
INSERT INTO errors VALUES('WordStat', '', 'Ordet finns inte i ordboken.')
INSERT INTO errors VALUES('Länkbygge', '', 'Ordet finns inte i ordboken.')
INSERT INTO errors VALUES('outreach', '', 'Ordet finns inte i ordboken.')
INSERT INTO errors VALUES('Alexa', '', 'Ordet finns inte i ordboken.')
INSERT INTO errors VALUES('SEMRush', '', 'Ordet finns inte i ordboken.')
INSERT INTO errors VALUES('Ahrefs', 'Href', 'Ordet finns inte i ordboken.')
INSERT INTO errors VALUES('MajesticSEO', '', 'Ordet finns inte i ordboken.')
INSERT INTO errors VALUES('SerpStat', '', 'Ordet finns inte i ordboken.')
INSERT INTO errors VALUES('frilansare', '', 'Ordet finns inte i ordboken.')
INSERT INTO errors VALUES('SaaS', 'Saab,Seas,SAS', 'Ordet finns inte i ordboken.')
INSERT INTO errors VALUES('SaaS', 'Seas,SAS', 'Ordet finns inte i ordboken.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Ordet finns inte i ordboken.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Ordet finns inte i ordboken.')
INSERT INTO errors VALUES('async', 'sync', 'Ordet finns inte i ordboken.')
INSERT INTO errors VALUES('leadgenerering', 'lead generering', 'Ordet finns inte i ordboken.')

Dumpa resultat till JSON

Allmänt resultatformat:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.errors = p1.errors;

obj.json %]

Starttext:

[

Sluttext:

]

Exempel på resultat:

[{"errors": [{"word":"SaaS","suggest":"Seas","type":"Ordet finns inte i ordboken."},{"word":"frilansare","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"Affiliate-marknadsförare","suggest":"Affiliate marknadsförare","type":"Ordet finns inte i ordboken."},{"word":"Youtube","suggest":"YouTube","type":"Felaktig användning av stora och små bokstäver."},{"word":"e-post","suggest":"mejl","type":"Ordet finns inte i ordboken."},{"word":"WordStat","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"Länkbygge","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"outreach","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"Alexa","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"SEMRush","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"Ahrefs","suggest":"Href","type":"Ordet finns inte i ordboken."},{"word":"MajesticSEO","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"SerpStat","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"frilansare","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"SaaS","suggest":"Saab,Seas,SAS","type":"Ordet finns inte i ordboken."},{"word":"SaaS","suggest":"Seas,SAS","type":"Ordet finns inte i ordboken."},{"word":"NodeJS","suggest":"Nodes","type":"Ordet finns inte i ordboken."},{"word":"Parser'a","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"NodeJS","suggest":"Nodes","type":"Ordet finns inte i ordboken."},{"word":"async","suggest":"sync","type":"Ordet finns inte i ordboken."},{"word":"leadgenerering","suggest":"lead generering","type":"Ordet finns inte i ordboken."},{"word":"Scrapa","suggest":"Spara","type":"Ordet finns inte i ordboken."},{"word":"Instagram","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"marknadsplatser","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"marknadsplatsernas","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"marknadsplats","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"Instagram","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"Bing","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"nyhetssajter","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"Redis","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"scrapa","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"captchas","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"XEvil","suggest":"Evil,Devil","type":"Ordet finns inte i ordboken."},{"word":"CapMonster","suggest":"Cap Monster","type":"Ordet finns inte i ordboken."},{"word":"Captcha","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"RuCaptcha","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"scrapa","suggest":"spåra","type":"Ordet finns inte i ordboken."},{"word":"scrapa","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"scrapa","suggest":"begära","type":"Ordet finns inte i ordboken."},{"word":"brief","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"tickets","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"Parser’om","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"Parser'om","suggest":"","type":"Ordet finns inte i ordboken."},{"word":"verktyg","suggest":"utlopp,tusen,tullar","type":"Ordet finns inte i ordboken."}]}]

Möjliga inställningar

ParameterStandardvärdeBeskrivning
LanguagesEngelska, Ryska, UkrainskaSpråk för kontroll
OptionsHoppa över ord skrivna med versaler, t.ex. "VPC"., Hoppa över ord med siffror, t.ex. "avp17x4534"., Hoppa över internetadresser, e-postadresser och filnamn., Ignorera romerska siffror ("I, II, III, ...").Alternativ för kontroll
HTML::TextExtractor presetdefaultFörinställning för HTML::TextExtractorHTML::TextExtractor. Gör det möjligt att ange inställningar för textskrapning