SE::Yandex::SQI - Sprawdzanie Indeksu Jakości Strony (SQI) w Yandex
Przegląd scrapera

SE::Yandex::SQI – sprawdzanie wskaźnika jakości witryny (SQI) w Yandex. Niesamowicie szybki scraper, prędkość działania wynosi 3000-7000 zapytań na minutę.Możesz używać automatycznego powielania zapytań, podstawiania podzapytań z plików, iteracji kombinacji alfanumerycznych oraz list w celu uzyskania maksymalnej możliwej liczby wyników. Korzystając z filtrowania wyników możesz od razu wyczyścić wynik, usuwając wszystkie niepotrzebne śmieci (używając słów wykluczających).
Funkcjonalność A-Parser pozwala zapisywać ustawienia scrapowania scrapera SE::Yandex::SQI do dalszego wykorzystania (presety), ustalać harmonogram scrapowania i wiele więcej.
Zapisywanie wyników jest możliwe w takiej formie i strukturze, jakiej potrzebujesz, dzięki wbudowanemu potężnemu silnikowi szablonów Template Toolkit, który pozwala stosować dodatkową logikę do wyników i wyprowadzać dane w różnych formatach, w tym JSON, SQL i CSV.
Zbierane dane
- Indeks jakości witryny (Yandex IKS)
- Dane o posiadaniu odznak przez witrynę (1 - odznaka przyznana, 0 - brak odznaki):
- Wybór użytkowników
- Popularna witryna
- Bezpieczne połączenie
- Strony Turbo
- Czy witryna jest oficjalna
- Dla odznak "Wybór użytkowników" i "Popularna witryna" można uzyskać stopień gotowości do otrzymania odznaki w postaci wartości pośredniej od 0 do 1, na przykład 0.4.
- Liczba opinii, ocena i ranking
- Ranking sklepu w wyszukiwarce produktów i ranking sklepu w Yandex Market (jeśli dane te są dostępne dla szukanej witryny)
Warianty wykorzystania
- Ocena użyteczności witryny z punktu widzenia Yandex
- Zbieranie tytułów (titles)
Zapytania
Jako zapytania należy podawać domenę szukanej witryny. Można podawać zarówno z protokołem, jak i bez niego, na przykład:
yandex.ru
google.com
vk.com
facebook.com
https://a-parser.com
Warianty wyprowadzania wyników
A-Parser obsługuje elastyczne formatowanie wyników dzięki wbudowanemu silnikowi szablonów Template Toolkit, co pozwala mu wyprowadzać wyniki w dowolnej formie, a także w ustrukturyzowanej, np. CSV lub JSON
Wynik domyślny
Format wyniku:
$query: $sqi\n
Przykład wyniku, w którym wyświetlone jest zapytanie początkowe i jego IKS:
facebook.com: 130000
yandex.ru: -1
https://a-parser.com: 110
google.com: 120000
vk.com: 340000
Jeśli IKS dla domeny jest niedostępny, wynikiem będzie -1.
Wyprowadzanie do tabeli CSV
Format wyniku:
[% tools.CSVline(query, sqi, rating); %]
Nazwa pliku:
$datefile.format().csv
Tekst początkowy:
Domena,Ranking,Autor,Cena
Aby opcja "Prepend text" była dostępna w Edytorze zadań, należy aktywować "More options". W "Prepend text" wpisujemy nazwy kolumn oddzielone przecinkami i drugą linię pozostawiamy pustą.
Zapisywanie w formacie SQL
Format wyniku:
[% "INSERT INTO sqi VALUES('" _ query _ "', '" _ sqi _ "', '" _ rating _ "')\n" %]
Przykład wyniku:
INSERT INTO sqi VALUES('google.com', '122000', '87')
INSERT INTO sqi VALUES('yandex.ru', 'none', '92')
INSERT INTO sqi VALUES('https://a-parser.com', '200', '')
INSERT INTO sqi VALUES('vk.com', '326000', '73')
INSERT INTO sqi VALUES('facebook.com', '117000', '66')
Zrzut wyników do JSON
Ogólny format wyniku:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.sqi = p1.sqi;
obj.rating = p1.rating;
obj.json %]
Tekst początkowy:
[
Tekst końcowy:
]
Przykład wyniku:
[{"query":"vk.com","rating":73,"sqi":326000},
{"query":"google.com","rating":87,"sqi":122000},
{"query":"https://a-parser.com","rating":"","sqi":200},
{"query":"yandex.ru","rating":92,"sqi":"none"},
{"query":"facebook.com","rating":66,"sqi":117000}]
Aby opcje "Prepend text" i "Append text" były dostępne w Edytorze zadań, należy aktywować "More options".
Możliwe ustawienia
| Parametr | Wartość domyślna | Opis |
|---|---|---|
| AntiGate preset | default | Wybór presetu Util::AntiGate, szczegóły konfiguracji tutaj |
| AntiGate preset for old captcha | default | Analogicznie do AntiGate preset, ale używane tylko dla zwykłych (starych, w formie jednego obrazka) captch. Jeśli tutaj nie wybrano preset, to dla takich captch zostanie użyty preset wybrany w AntiGate preset. |
| Experimental img captcha max count | 5 | Maksymalna liczba ponownych obrazków captcha na próbę |
| Preffered captcha type | Click | Wybór preferowanego rodzaju captcha: Click lub Puzzle |
| Use sessions | ☑ | Zapisuje dobre sesje, co pozwala scrapować jeszcze szybciej, otrzymując mniejszą liczbę błędów |
