SE::Yandex::Speller - Pagina's controleren op tekstfouten via Yandex Speller
Overzicht van de scraper

SE::Yandex::Speller – vindt spelfouten in Russische, Oekraïense of Engelse tekst op de opgegeven pagina via de Yandex.Speller-service. De taalmodellen bevatten honderden miljoenen woorden en woordcombinaties.De functionaliteit van A-Parser maakt het mogelijk om instellingen voor de scraper SE::Yandex::Speller op te slaan voor toekomstig gebruik (presets), een schema voor gegevensextractie in te stellen en nog veel meer.
Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV.
Verzamelde gegevens
- Tekstblokken waarin fouten zijn gevonden
Mogelijkheden
- Bepalen van het aantal blokken waarin fouten staan
- Weergave van mogelijke oorzaken van fouten in de tekst
Toepassingen
- Zoeken naar het aantal tekstblokken waarin fouten staan
- Controleren van websitepagina's op spelfouten in de tekst
- Controleren van de spelling op websitepagina's
Query's
De scraper kan zowel trefwoorden (tekstregels) als links naar pagina's als invoer accepteren. Het type query wordt automatisch bepaald.
- Voorbeeld van query's in de vorm van tekstregels:
Tekst voor controle door de Yandex Speller scraper
Query met fout
- Voorbeeld van query's in de vorm van een website-adres dat gecontroleerd moet worden:
https://a-parser.com/
https://en.wikipedia.org/wiki/Parsing
Varianten van resultaatweergave
A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden weergegeven, evenals in een gestructureerde vorm zoals CSV of JSON.
Standaard uitvoer
Resultaatformaat:
$query: $total\n$errors.format('$word ($suggest) - $type\n')
Voorbeeld van resultaat:
Query met fout: 1
fout (fout, foutje) - Woord staat niet in het woordenboek.
Tekst voor controle door de Yandex Speller scraper: 0
https://a-parser.com/: 10
suggesties (suggesties) - Woord staat niet in het woordenboek.
gegeves (gegevens, gegeves) - Woord staat niet in het woordenboek.
MOZ (DMOZ) - Woord staat niet in het woordenboek.
NodeJS (Node JS) - Woord staat niet in het woordenboek.
Ontwikkel (Ontwikkeling) - Woord staat niet in het woordenboek.
...
https://en.wikipedia.org/wiki/Parsing: 183
• العربية (• العربية) - Tekst bevat te veel fouten.
• বাংলা (• বাংলা) - Tekst bevat te veel fouten.
...
material (materiaal) - Woord staat niet in het woordenboek.
parsed (passed) - Woord staat niet in het woordenboek.
they (that) - Woord staat niet in het woordenboek.
...
Opslaan in SQL-formaat
Resultaatformaat:
[% FOREACH errors;
"INSERT INTO errors VALUES('" _ word _ "', '" _ suggest _ "', '" _ type _ "')\n";
END %]
Voorbeeld van resultaat:
INSERT INTO errors VALUES('SaaS', 'Seas', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('freelancers', '', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('Affiliate marketeers', 'Affiliate marketeers', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('Youtube', 'YouTube', 'Onjuist gebruik van hoofdletters en kleine letters.')
INSERT INTO errors VALUES('e-mails', 'mails', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('WordStat', '', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('Linkbuilding', '', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('outreach', '', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('Alexa', '', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('SEMRush', '', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('Ahrefs', 'Href', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('MajesticSEO', '', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('SerpStat', '', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('freelancers', '', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('SaaS', 'Saab,Seas,SAS', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('SaaS', 'Seas,SAS', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('async', 'sync', 'Woord staat niet in het woordenboek.')
INSERT INTO errors VALUES('leadgeneratie', 'lead generatie', 'Woord staat niet in het woordenboek.')
Dump van resultaten in JSON
Algemeen resultaatformaat:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.errors = p1.errors;
obj.json %]
Begintekst:
[
Eindtekst:
]
Voorbeeld van resultaat:
[{"errors": [{"word":"SaaS","suggest":"Seas","type":"Woord staat niet in het woordenboek."},{"word":"freelancers","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"Affiliate marketeers","suggest":"Affiliate marketeers","type":"Woord staat niet in het woordenboek."},{"word":"Youtube","suggest":"YouTube","type":"Onjuist gebruik van hoofdletters en kleine letters."},{"word":"e-mails","suggest":"mails","type":"Woord staat niet in het woordenboek."},{"word":"WordStat","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"Linkbuilding","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"outreach","suggest":"","type":"Woord staat niet in het wordenboek."},{"word":"Alexa","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"SEMRush","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"Ahrefs","suggest":"Href","type":"Woord staat niet in het woordenboek."},{"word":"MajesticSEO","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"SerpStat","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"freelancers","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"SaaS","suggest":"Saab,Seas,SAS","type":"Woord staat niet in het woordenboek."},{"word":"SaaS","suggest":"Seas,SAS","type":"Woord staat niet in het woordenboek."},{"word":"NodeJS","suggest":"Nodes","type":"Woord staat niet in het woordenboek."},{"word":"Parser'a","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"NodeJS","suggest":"Nodes","type":"Woord staat niet in het woordenboek."},{"word":"async","suggest":"sync","type":"Woord staat niet in het woordenboek."},{"word":"leadgeneratie","suggest":"lead generatie","type":"Woord staat niet in het woordenboek."},{"word":"Scrapen","suggest":"Scheren","type":"Woord staat niet in het woordenboek."},{"word":"Instagram","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"marketplaces","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"marketplaces","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"marketplace","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"Instagram","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"Bing","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"nieuwssites","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"Redis","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"scrapen","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"captchas","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"XEvil","suggest":"Evil,Devil","type":"Woord staat niet in het woordenboek."},{"word":"CapMonster","suggest":"Cap Monster","type":"Woord staat niet in het woordenboek."},{"word":"Captcha","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"RuCaptcha","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"scrapen","suggest":"sparren","type":"Woord staat niet in het woordenboek."},{"word":"scrapen","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"scrapen","suggest":"aanvragen","type":"Woord staat niet in het woordenboek."},{"word":"brief","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"tickets","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"Parser’om","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"Parser'om","suggest":"","type":"Woord staat niet in het woordenboek."},{"word":"tools","suggest":"knopen,azen,tools","type":"Woord staat niet in het woordenboek."}]}]
Mogelijke instellingen
| Parameter | Standaardwaarde | Beschrijving |
|---|---|---|
| Languages | Engels, Russisch, Oekraïens | Talen voor controle |
| Options | Woorden in hoofdletters overslaan, bijv. "VPC"., Woorden met cijfers overslaan, bijv. "avp17x4534"., Internetadressen, e-mailadressen en bestandsnamen overslaan., Romeinse cijfers negeren ("I, II, III, ..."). | Controle-opties |
| HTML::TextExtractor preset | default | Preset voor HTML::TextExtractor. Hiermee kunt u instellingen voor tekstextractie opgeven |
