SE::Yandex::Speller - Sprawdzanie stron pod kątem błędów w tekście przez Yandex.Speller
Przegląd scrapera

SE::Yandex::Speller – znajduje błędy ortograficzne w tekście rosyjskim, ukraińskim lub angielskim na wskazanej stronie za pomocą usługi Yandex.Speller. Modele językowe obejmują setki milionów słów i fraz.Funkcjonalność A-Parser pozwala na zapisywanie ustawień scrapowania scrapera SE::Yandex::Speller do dalszego wykorzystania (presety), ustawianie harmonogramu scrapowania i wiele więcej.
Zapisywanie wyników jest możliwe w dowolnej formie i strukturze, dzięki wbudowanemu potężnemu silnikowi szablonów Template Toolkit, który pozwala na stosowanie dodatkowej logiki do wyników i eksportowanie danych w różnych formatach, w tym JSON, SQL i CSV.
Pobierane dane
- Bloki tekstowe, w których znaleziono błędy
Możliwości
- Określanie liczby bloków zawierających błędy
- Wyświetlanie możliwych przyczyn błędów w tekście
Warianty wykorzystania
- Wyszukiwanie liczby bloków tekstowych, w których występują błędy
- Sprawdzanie stron witryny pod kątem błędów ortograficznych w tekście
- Sprawdzanie pisowni na stronach witryny
Zapytania
Scraper może przyjmować jako dane wejściowe zarówno słowa kluczowe (ciągi tekstowe), jak i linki do stron. Typ zapytania jest określany automatycznie.
- Przykład zapytań w formie ciągów tekstowych:
Tekst do sprawdzenia przez scraper Yandex Speller
Zapytanie z błendem
- Przykład zapytań w formie adresu strony internetowej, którą należy sprawdzić:
https://a-parser.com/
https://en.wikipedia.org/wiki/Parsing
Warianty wyświetlania wyników
A-Parser obsługuje elastyczne formatowanie wyników dzięki wbudowanemu silnikowi szablonów Template Toolkit, co pozwala mu na wyświetlanie wyników w dowolnej formie, a także w formie ustrukturyzowanej, np. CSV lub JSON
Wyjście domyślne
Format wyniku:
$query: $total\n$errors.format('$word ($suggest) - $type\n')
Przykład wyniku:
Zapytanie z błendem: 1
błendem (błędem, bębnem) - Słowa nie ma w słowniku.
Tekst do sprawdzenia przez scraper Yandex Speller: 0
https://a-parser.com/: 10
podpowiedździ (podpowiedzi) - Słowa nie ma w słowniku.
danychh (danych) - Słowa nie ma w słowniku.
MOZ (DMOZ) - Słowa nie ma w słowniku.
NodeJS (Node JS) - Słowa nie ma w słowniku.
Opracowywuj (Opracowuj) - Słowa nie ma w słowniku.
...
https://en.wikipedia.org/wiki/Parsing: 183
• العربية (• العربية) - Tekst zawiera zbyt wiele błędów.
• বাংলা (• বাংলা) - Tekst zawiera zbyt wiele błędów.
...
material (materiał) - Słowa nie ma w słowniku.
parsed (passed) - Słowa nie ma w słowniku.
they (that) - Słowa nie ma w słowniku.
...
Zapisywanie w formacie SQL
Format wyniku:
[% FOREACH errors;
"INSERT INTO errors VALUES('" _ word _ "', '" _ suggest _ "', '" _ type _ "')\n";
END %]
Przykład wyniku:
INSERT INTO errors VALUES('SaaS', 'Seas', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('freelancerzy', '', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('Marketerzy afiliacyjni', 'Marketerzy afiliacyjni', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('Youtube', 'YouTube', 'Nieprawidłowe użycie wielkich i małych liter.')
INSERT INTO errors VALUES('emaile', 'maile', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('WordStat', '', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('Linkbuilding', '', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('outreach', '', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('Alexa', '', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('SEMRush', '', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('Ahrefs', 'Href', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('MajesticSEO', '', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('SerpStat', '', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('freelancerzy', '', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('SaaS', 'Saab,Seas,SAS', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('SaaS', 'Seas,SAS', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('async', 'sync', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('lead generation', 'lead generation', 'Słowa nie ma w słowniku.')
Zrzut wyników do JSON
Ogólny format wyniku:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.errors = p1.errors;
obj.json %]
Tekst początkowy:
[
Tekst końcowy:
]
Przykład wyniku:
[{"errors": [{"word":"SaaS","suggest":"Seas","type":"Słowa nie ma w słowniku."},{"word":"freelancerzy","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"Marketerzy afiliacyjni","suggest":"Marketerzy afiliacyjni","type":"Słowa nie ma w słowniku."},{"word":"Youtube","suggest":"YouTube","type":"Nieprawidłowe użycie wielkich i małych liter."},{"word":"emaile","suggest":"maile","type":"Słowa nie ma w słowniku."},{"word":"WordStat","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"Linkbuilding","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"outreach","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"Alexa","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"SEMRush","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"Ahrefs","suggest":"Href","type":"Słowa nie ma w słowniku."},{"word":"MajesticSEO","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"SerpStat","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"freelancerzy","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"SaaS","suggest":"Saab,Seas,SAS","type":"Słowa nie ma w słowniku."},{"word":"SaaS","suggest":"Seas,SAS","type":"Słowa nie ma w słowniku."},{"word":"NodeJS","suggest":"Nodes","type":"Słowa nie ma w słowniku."},{"word":"Parser'a","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"NodeJS","suggest":"Nodes","type":"Słowa nie ma w słowniku."},{"word":"async","suggest":"sync","type":"Słowa nie ma w słowniku."},{"word":"leadgeneration","suggest":"lead generation","type":"Słowa nie ma w słowniku."},{"word":"Scrapujcie","suggest":"Skrapujcie","type":"Słowa nie ma w słowniku."},{"word":"Instagram","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"marketplaces","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"marketplaces","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"marketplace","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"Instagram","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"Bing","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"serwisy informacyjne","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"Redis","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"zescrapować","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"captch","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"XEvil","suggest":"Evil,Devil","type":"Słowa nie ma w słowniku."},{"word":"CapMonster","suggest":"Cap Monster","type":"Słowa nie ma w słowniku."},{"word":"Captcha","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"RuCaptcha","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"zescrapować","suggest":"sprawdzić","type":"Słowa nie ma w słowniku."},{"word":"zescrapować","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"zescrapować","suggest":"poprosić","type":"Słowa nie ma w słowniku."},{"word":"brief","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"ticketów","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"Parser’em","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"Parser'em","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"toolsów","suggest":"narzędzi","type":"Słowa nie ma w słowniku."}]}]
Możliwe ustawienia
| Parametr | Wartość domyślna | Opis |
|---|---|---|
| Languages | Angielski, Rosyjski, Ukraiński | Języki sprawdzania |
| Options | Pomijaj słowa pisane wielkimi literami, np. "WPK"., Pomijaj słowa z cyframi, np. "awp17x4534"., Pomijaj adresy internetowe, adresy e-mail i nazwy plików., Ignoruj cyfry rzymskie ("I, II, III, ..."). | Opcje sprawdzania |
| HTML::TextExtractor preset | default | Preset dla HTML::TextExtractor. Pozwala określić ustawienia scrapowania tekstu |
