Przejdź do treści głównej

SE::Yandex::Speller - Sprawdzanie stron pod kątem błędów w tekście przez Yandex.Speller

Przegląd scrapera

SE::Yandex::Speller

SE::Yandex::SpellerSE::Yandex::Speller – znajduje błędy ortograficzne w tekście rosyjskim, ukraińskim lub angielskim na wskazanej stronie za pomocą usługi Yandex.Speller. Modele językowe obejmują setki milionów słów i fraz.

Funkcjonalność A-Parser pozwala na zapisywanie ustawień scrapowania scrapera SE::Yandex::Speller do dalszego wykorzystania (presety), ustawianie harmonogramu scrapowania i wiele więcej.

Zapisywanie wyników jest możliwe w dowolnej formie i strukturze, dzięki wbudowanemu potężnemu silnikowi szablonów Template Toolkit, który pozwala na stosowanie dodatkowej logiki do wyników i eksportowanie danych w różnych formatach, w tym JSON, SQL i CSV.

Pobierane dane

  • Bloki tekstowe, w których znaleziono błędy

Możliwości

  • Określanie liczby bloków zawierających błędy
  • Wyświetlanie możliwych przyczyn błędów w tekście

Warianty wykorzystania

  • Wyszukiwanie liczby bloków tekstowych, w których występują błędy
  • Sprawdzanie stron witryny pod kątem błędów ortograficznych w tekście
  • Sprawdzanie pisowni na stronach witryny

Zapytania

Scraper może przyjmować jako dane wejściowe zarówno słowa kluczowe (ciągi tekstowe), jak i linki do stron. Typ zapytania jest określany automatycznie.

  • Przykład zapytań w formie ciągów tekstowych:
Tekst do sprawdzenia przez scraper Yandex Speller
Zapytanie z błendem
  • Przykład zapytań w formie adresu strony internetowej, którą należy sprawdzić:
https://a-parser.com/
https://en.wikipedia.org/wiki/Parsing

Warianty wyświetlania wyników

A-Parser obsługuje elastyczne formatowanie wyników dzięki wbudowanemu silnikowi szablonów Template Toolkit, co pozwala mu na wyświetlanie wyników w dowolnej formie, a także w formie ustrukturyzowanej, np. CSV lub JSON

Wyjście domyślne

Format wyniku:

$query: $total\n$errors.format('$word ($suggest) - $type\n')

Przykład wyniku:

Zapytanie z błendem: 1
błendem (błędem, bębnem) - Słowa nie ma w słowniku.
Tekst do sprawdzenia przez scraper Yandex Speller: 0
https://a-parser.com/: 10
podpowiedździ (podpowiedzi) - Słowa nie ma w słowniku.
danychh (danych) - Słowa nie ma w słowniku.
MOZ (DMOZ) - Słowa nie ma w słowniku.
NodeJS (Node JS) - Słowa nie ma w słowniku.
Opracowywuj (Opracowuj) - Słowa nie ma w słowniku.
...
https://en.wikipedia.org/wiki/Parsing: 183
• العربية (• العربية) - Tekst zawiera zbyt wiele błędów.
• বাংলা (• বাংলা) - Tekst zawiera zbyt wiele błędów.
...
material (materiał) - Słowa nie ma w słowniku.
parsed (passed) - Słowa nie ma w słowniku.
they (that) - Słowa nie ma w słowniku.
...

Zapisywanie w formacie SQL

Format wyniku:

[% FOREACH errors;
"INSERT INTO errors VALUES('" _ word _ "', '" _ suggest _ "', '" _ type _ "')\n";
END %]

Przykład wyniku:

INSERT INTO errors VALUES('SaaS', 'Seas', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('freelancerzy', '', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('Marketerzy afiliacyjni', 'Marketerzy afiliacyjni', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('Youtube', 'YouTube', 'Nieprawidłowe użycie wielkich i małych liter.')
INSERT INTO errors VALUES('emaile', 'maile', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('WordStat', '', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('Linkbuilding', '', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('outreach', '', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('Alexa', '', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('SEMRush', '', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('Ahrefs', 'Href', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('MajesticSEO', '', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('SerpStat', '', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('freelancerzy', '', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('SaaS', 'Saab,Seas,SAS', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('SaaS', 'Seas,SAS', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('NodeJS', 'Nodes', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('async', 'sync', 'Słowa nie ma w słowniku.')
INSERT INTO errors VALUES('lead generation', 'lead generation', 'Słowa nie ma w słowniku.')

Zrzut wyników do JSON

Ogólny format wyniku:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.errors = p1.errors;

obj.json %]

Tekst początkowy:

[

Tekst końcowy:

]

Przykład wyniku:

[{"errors": [{"word":"SaaS","suggest":"Seas","type":"Słowa nie ma w słowniku."},{"word":"freelancerzy","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"Marketerzy afiliacyjni","suggest":"Marketerzy afiliacyjni","type":"Słowa nie ma w słowniku."},{"word":"Youtube","suggest":"YouTube","type":"Nieprawidłowe użycie wielkich i małych liter."},{"word":"emaile","suggest":"maile","type":"Słowa nie ma w słowniku."},{"word":"WordStat","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"Linkbuilding","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"outreach","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"Alexa","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"SEMRush","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"Ahrefs","suggest":"Href","type":"Słowa nie ma w słowniku."},{"word":"MajesticSEO","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"SerpStat","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"freelancerzy","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"SaaS","suggest":"Saab,Seas,SAS","type":"Słowa nie ma w słowniku."},{"word":"SaaS","suggest":"Seas,SAS","type":"Słowa nie ma w słowniku."},{"word":"NodeJS","suggest":"Nodes","type":"Słowa nie ma w słowniku."},{"word":"Parser'a","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"NodeJS","suggest":"Nodes","type":"Słowa nie ma w słowniku."},{"word":"async","suggest":"sync","type":"Słowa nie ma w słowniku."},{"word":"leadgeneration","suggest":"lead generation","type":"Słowa nie ma w słowniku."},{"word":"Scrapujcie","suggest":"Skrapujcie","type":"Słowa nie ma w słowniku."},{"word":"Instagram","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"marketplaces","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"marketplaces","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"marketplace","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"Instagram","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"Bing","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"serwisy informacyjne","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"Redis","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"zescrapować","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"captch","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"XEvil","suggest":"Evil,Devil","type":"Słowa nie ma w słowniku."},{"word":"CapMonster","suggest":"Cap Monster","type":"Słowa nie ma w słowniku."},{"word":"Captcha","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"RuCaptcha","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"zescrapować","suggest":"sprawdzić","type":"Słowa nie ma w słowniku."},{"word":"zescrapować","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"zescrapować","suggest":"poprosić","type":"Słowa nie ma w słowniku."},{"word":"brief","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"ticketów","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"Parser’em","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"Parser'em","suggest":"","type":"Słowa nie ma w słowniku."},{"word":"toolsów","suggest":"narzędzi","type":"Słowa nie ma w słowniku."}]}]

Możliwe ustawienia

ParametrWartość domyślnaOpis
LanguagesAngielski, Rosyjski, UkraińskiJęzyki sprawdzania
OptionsPomijaj słowa pisane wielkimi literami, np. "WPK"., Pomijaj słowa z cyframi, np. "awp17x4534"., Pomijaj adresy internetowe, adresy e-mail i nazwy plików., Ignoruj cyfry rzymskie ("I, II, III, ...").Opcje sprawdzania
HTML::TextExtractor presetdefaultPreset dla HTML::TextExtractorHTML::TextExtractor. Pozwala określić ustawienia scrapowania tekstu