Ga naar de hoofdinhoud

SE::Yandex::Speller - Pagina's controleren op tekstfouten via Yandex Speller

Overzicht van de scraper

SE::Yandex::Speller

SE::Yandex::SpellerSE::Yandex::Speller – vindt spelfouten in Russische, Oekraïense of Engelse tekst op de opgegeven pagina via de Yandex.Speller-service. De taalmodellen bevatten honderden miljoenen woorden en woordcombinaties.

De functionaliteit van A-Parser maakt het mogelijk om instellingen voor de scraper SE::Yandex::Speller op te slaan voor toekomstig gebruik (presets), een schema voor gegevensextractie in te stellen en nog veel meer.

Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV.

Verzamelde gegevens

  • Tekstblokken waarin fouten zijn gevonden

Mogelijkheden

  • Bepalen van het aantal blokken waarin fouten staan
  • Weergave van mogelijke oorzaken van fouten in de tekst

Toepassingen

  • Zoeken naar het aantal tekstblokken waarin fouten staan
  • Controleren van websitepagina's op spelfouten in de tekst
  • Controleren van de spelling op websitepagina's

Query's

De scraper kan zowel trefwoorden (tekstregels) als links naar pagina's als invoer accepteren. Het type query wordt automatisch bepaald.

  • Voorbeeld van query's in de vorm van tekstregels:
Tekst voor controle door de Yandex Speller scraper
Query met fout
  • Voorbeeld van query's in de vorm van een website-adres dat gecontroleerd moet worden:
https://a-parser.com/
https://en.wikipedia.org/wiki/Parsing

Varianten van resultaatweergave

A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden weergegeven, evenals in een gestructureerde vorm zoals CSV of JSON.

Standaard uitvoer

Resultaatformaat:

$query: $total\n$errors.format('$word ($suggest) - $type\n')

Voorbeeld van resultaat:

Query met fout: 1
fout (fout, foutje) - Woord staat niet in het woordenboek.
Tekst voor controle door de Yandex Speller scraper: 0
https://a-parser.com/: 10
suggesties (suggesties) - Woord staat niet in het woordenboek.
gegeves (gegevens, gegeves) - Woord staat niet in het woordenboek.
MOZ (DMOZ) - Woord staat niet in het woordenboek.
NodeJS (Node JS) - Woord staat niet in het woordenboek.
Ontwikkel (Ontwikkeling) - Woord staat niet in het woordenboek.
...
https://en.wikipedia.org/wiki/Parsing: 183
• العربية (• العربية) - Tekst bevat te veel fouten.
• বাংলা (• বাংলা) - Tekst bevat te veel fouten.
...
material (materiaal) - Woord staat niet in het woordenboek.
parsed (passed) - Woord staat niet in het woordenboek.
they (that) - Woord staat niet in het woordenboek.
...

Opslaan in SQL-formaat

Resultaatformaat:

[% FOREACH errors;
"INSERT INTO errors VALUES('" _ word _ "', '" _ suggest _ "', '" _ type _ "')\n";
END %]

Voorbeeld van resultaat:

INSERT INTO errors VALUES('SaaS', 'Seas', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('freelancers', '', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('Affiliate marketeers', 'Affiliate marketeers', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('Youtube', 'YouTube', 'Onjuist gebruik van hoofdletters en kleine letters.')
INSERT INTO errors VALUES('e-mails', 'mails', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('WordStat', '', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('Linkbuilding', '', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('outreach', '', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('Alexa', '', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('SEMRush', '', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('Ahrefs', 'Href', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('MajesticSEO', '', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('SerpStat', '', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('freelancers', '', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('SaaS', 'Saab,Seas,SAS', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('SaaS', 'Seas,SAS', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('async', 'sync', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('leadgeneratie', 'lead generatie', 'Woord staat niet in het woordenboek.')

Dump van resultaten in JSON

Algemeen resultaatformaat:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.errors = p1.errors;

obj.json %]

Begintekst:

[

Eindtekst:

]

Voorbeeld van resultaat:

[{"errors": [{"word":"SaaS","suggest":"Seas","type":"Woord staat niet in het woordenboek."},{"word":"freelancers","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"Affiliate marketeers","suggest":"Affiliate marketeers","type":"Woord staat niet in het woordenboek."},{"word":"Youtube","suggest":"YouTube","type":"Onjuist gebruik van hoofdletters en kleine letters."},{"word":"e-mails","suggest":"mails","type":"Woord staat niet in het woordenboek."},{"word":"WordStat","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"Linkbuilding","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"outreach","suggest":"","type":"Woord staat niet in het wordenboek."},{"word":"Alexa","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"SEMRush","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"Ahrefs","suggest":"Href","type":"Woord staat niet in het woordenboek."},{"word":"MajesticSEO","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"SerpStat","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"freelancers","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"SaaS","suggest":"Saab,Seas,SAS","type":"Woord staat niet in het woordenboek."},{"word":"SaaS","suggest":"Seas,SAS","type":"Woord staat niet in het woordenboek."},{"word":"NodeJS","suggest":"Nodes","type":"Woord staat niet in het woordenboek."},{"word":"Parser'a","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"NodeJS","suggest":"Nodes","type":"Woord staat niet in het woordenboek."},{"word":"async","suggest":"sync","type":"Woord staat niet in het woordenboek."},{"word":"leadgeneratie","suggest":"lead generatie","type":"Woord staat niet in het woordenboek."},{"word":"Scrapen","suggest":"Scheren","type":"Woord staat niet in het woordenboek."},{"word":"Instagram","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"marketplaces","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"marketplaces","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"marketplace","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"Instagram","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"Bing","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"nieuwssites","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"Redis","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"scrapen","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"captchas","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"XEvil","suggest":"Evil,Devil","type":"Woord staat niet in het woordenboek."},{"word":"CapMonster","suggest":"Cap Monster","type":"Woord staat niet in het woordenboek."},{"word":"Captcha","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"RuCaptcha","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"scrapen","suggest":"sparren","type":"Woord staat niet in het woordenboek."},{"word":"scrapen","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"scrapen","suggest":"aanvragen","type":"Woord staat niet in het woordenboek."},{"word":"brief","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"tickets","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"Parser’om","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"Parser'om","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"tools","suggest":"knopen,azen,tools","type":"Woord staat niet in het woordenboek."}]}]

Mogelijke instellingen

ParameterStandaardwaardeBeschrijving
LanguagesEngels, Russisch, OekraïensTalen voor controle
OptionsWoorden in hoofdletters overslaan, bijv. "VPC"., Woorden met cijfers overslaan, bijv. "avp17x4534"., Internetadressen, e-mailadressen en bestandsnamen overslaan., Romeinse cijfers negeren ("I, II, III, ...").Controle-opties
HTML::TextExtractor presetdefaultPreset voor HTML::TextExtractorHTML::TextExtractor. Hiermee kunt u instellingen voor tekstextractie opgeven