Przejdź do treści głównej

SE::Yandex::SQI - Sprawdzanie Indeksu Jakości Strony (SQI) w Yandex

Przegląd scrapera

Przegląd scraperaSE::Yandex::SQISE::Yandex::SQI – sprawdzanie wskaźnika jakości witryny (SQI) w Yandex. Niesamowicie szybki scraper, prędkość działania wynosi 3000-7000 zapytań na minutę.

Możesz używać automatycznego powielania zapytań, podstawiania podzapytań z plików, iteracji kombinacji alfanumerycznych oraz list w celu uzyskania maksymalnej możliwej liczby wyników. Korzystając z filtrowania wyników możesz od razu wyczyścić wynik, usuwając wszystkie niepotrzebne śmieci (używając słów wykluczających).

Funkcjonalność A-Parser pozwala zapisywać ustawienia scrapowania scrapera SE::Yandex::SQI do dalszego wykorzystania (presety), ustalać harmonogram scrapowania i wiele więcej.

Zapisywanie wyników jest możliwe w takiej formie i strukturze, jakiej potrzebujesz, dzięki wbudowanemu potężnemu silnikowi szablonów Template Toolkit, który pozwala stosować dodatkową logikę do wyników i wyprowadzać dane w różnych formatach, w tym JSON, SQL i CSV.

Zbierane dane

  • Indeks jakości witryny (Yandex IKS)
  • Dane o posiadaniu odznak przez witrynę (1 - odznaka przyznana, 0 - brak odznaki):
    • Wybór użytkowników
    • Popularna witryna
    • Bezpieczne połączenie
    • Strony Turbo
    • Czy witryna jest oficjalna
  • Dla odznak "Wybór użytkowników" i "Popularna witryna" można uzyskać stopień gotowości do otrzymania odznaki w postaci wartości pośredniej od 0 do 1, na przykład 0.4.
  • Liczba opinii, ocena i ranking
  • Ranking sklepu w wyszukiwarce produktów i ranking sklepu w Yandex Market (jeśli dane te są dostępne dla szukanej witryny)

Warianty wykorzystania

  • Ocena użyteczności witryny z punktu widzenia Yandex
  • Zbieranie tytułów (titles)

Zapytania

Jako zapytania należy podawać domenę szukanej witryny. Można podawać zarówno z protokołem, jak i bez niego, na przykład:

yandex.ru 
google.com
vk.com
facebook.com
https://a-parser.com

Warianty wyprowadzania wyników

A-Parser obsługuje elastyczne formatowanie wyników dzięki wbudowanemu silnikowi szablonów Template Toolkit, co pozwala mu wyprowadzać wyniki w dowolnej formie, a także w ustrukturyzowanej, np. CSV lub JSON

Wynik domyślny

Format wyniku:

$query: $sqi\n

Przykład wyniku, w którym wyświetlone jest zapytanie początkowe i jego IKS:

facebook.com: 130000  
yandex.ru: -1
https://a-parser.com: 110
google.com: 120000
vk.com: 340000

Jeśli IKS dla domeny jest niedostępny, wynikiem będzie -1.

Wyprowadzanie do tabeli CSV

Format wyniku:

[% tools.CSVline(query, sqi, rating); %]

Nazwa pliku:

$datefile.format().csv

Tekst początkowy:

Domena,Ranking,Autor,Cena

wskazówka

Aby opcja "Prepend text" była dostępna w Edytorze zadań, należy aktywować "More options". W "Prepend text" wpisujemy nazwy kolumn oddzielone przecinkami i drugą linię pozostawiamy pustą.

Zapisywanie w formacie SQL

Format wyniku:

[% "INSERT INTO sqi VALUES('" _ query _ "', '" _ sqi _ "', '" _ rating _ "')\n" %]

Przykład wyniku:

INSERT INTO sqi VALUES('google.com', '122000', '87')
INSERT INTO sqi VALUES('yandex.ru', 'none', '92')
INSERT INTO sqi VALUES('https://a-parser.com', '200', '')
INSERT INTO sqi VALUES('vk.com', '326000', '73')
INSERT INTO sqi VALUES('facebook.com', '117000', '66')

Zrzut wyników do JSON

Ogólny format wyniku:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.sqi = p1.sqi;
obj.rating = p1.rating;

obj.json %]

Tekst początkowy:

[

Tekst końcowy:

]

Przykład wyniku:

[{"query":"vk.com","rating":73,"sqi":326000},
{"query":"google.com","rating":87,"sqi":122000},
{"query":"https://a-parser.com","rating":"","sqi":200},
{"query":"yandex.ru","rating":92,"sqi":"none"},
{"query":"facebook.com","rating":66,"sqi":117000}]
wskazówka

Aby opcje "Prepend text" i "Append text" były dostępne w Edytorze zadań, należy aktywować "More options".

Możliwe ustawienia

ParametrWartość domyślnaOpis
AntiGate presetdefaultWybór presetu Util::AntiGateUtil::AntiGate, szczegóły konfiguracji tutaj
AntiGate preset for old captchadefaultAnalogicznie do AntiGate preset, ale używane tylko dla zwykłych (starych, w formie jednego obrazka) captch. Jeśli tutaj nie wybrano preset, to dla takich captch zostanie użyty preset wybrany w AntiGate preset.
Experimental img captcha max count5Maksymalna liczba ponownych obrazków captcha na próbę
Preffered captcha typeClickWybór preferowanego rodzaju captcha: Click lub Puzzle
Use sessionsZapisuje dobre sesje, co pozwala scrapować jeszcze szybciej, otrzymując mniejszą liczbę błędów