SE::Yandex - Scraper wyników wyszukiwania Yandex

Przegląd scrapera
Scraper wyników wyszukiwania Yandex zasłużenie znajduje się w TOP-5 najpopularniejszych scraperów. Jedną z głównych przewag konkurencyjnych naszego scrapera jest jego kolosalna wydajność. Dzięki wielowątkowej pracy A-Parser, prędkość przetwarzania zapytań może osiągać 3000-7000 zapytań na minutę, co średnio pozwala uzyskać do 5000000 linków na minutę, przy czym zużycie zasobów jest minimalne – do pracy wystarczy dowolny komputer biurowy lub domowy, a także dowolny VDS klasy podstawowej. Nasz scraper obsługuje wszystkie operatory wyszukiwania Yandex, co pozwala znacznie rozszerzyć możliwości scrapowania. Stabilność i ciągłość scrapowania wyników jest zapewniona dzięki rozpoznawaniu captcha przez AntiCaptcha lub dowolne inne obsługiwane API (Anti-Captcha, RuCaptcha, CapMonster.cloud, 2captcha i inne).
Elastyczność ustawień pozwala określić typ wyników (mobilne/desktop), region, język, sortowanie wyników według daty i wiele więcej. Funkcjonalność A-Parser pozwala zapisywać ustawienia scrapowania do dalszego wykorzystania (presety), ustalać harmonogram scrapowania i wiele więcej. Możesz wykorzystać automatyczne rozmnażanie zapytań, podstawianie podzapytań z plików, generowanie kombinacji alfanumerycznych i list w celu uzyskania maksymalnej możliwej liczby wyników.
Zapisywanie wyników jest możliwe w dowolnej formie i strukturze, której potrzebujesz, dzięki wbudowanemu potężnemu silnikowi szablonów Template Toolkit, który pozwala stosować dodatkową logikę do wyników i wyprowadzać dane w różnych formatach, w tym JSON, SQL i CSV.
Case studies użycia scrapera
🔗 Wyniki Yandex i numer pozycji
Pobieramy wyniki Yandex i numer pozycji wyniku. Wynik jest zapisywany do pliku csv.
🔗 Scrapowanie lite wersji wyników Yandex
W tym artykule omówiono przykład tworzenia scrapera do zbierania informacji z wersji lite wyszukiwarki Yandex.
🔗 Scrapowanie reklam z Yandex
Preset analizuje blok reklamowy w wynikach wyszukiwania Yandex i zapisuje wynik w formacie json.
🔗 Ocena konkurencji w Yandex
Preset określa konkurencję w wyszukiwarce Yandex na podstawie słów kluczowych.
🔗 Scraper cache Yandex
W presecie zaimplementowano możliwość pobierania linków do pamięci podręcznej (cache) wyszukiwarki Yandex.
🔗 Scrapowanie tylko snippetów z Yandex
Ten preset przyjmuje jako parametr słowo lub frazę do wyszukania w Yandex.
Zbierane dane

- Liczba wyników dla zapytania
- Linki, anchory i snippety z wyników wyszukiwania
- Zbierane są również informacje o flagach każdego wyniku, obecnie obsługiwane są flagi: Date, Image Preview, Video, Rich snippet, Featured snippet
- Czas pierwszego i ostatniego buforowania (tylko dla wyników desktopowych)
- Lista powiązanych słów kluczowych (Related keywords)
- Określa, czy Yandex uznał zapytanie za literówkę, czy nie
- Scrapowanie linku do pamięci podręcznej strony (tylko dla wyników desktopowych)
- Lista nazw ikon witryny oraz ich typów, jeśli występują (w tym Turbo)
- Górne, środkowe i dolne bloki reklamowe ze wszystkich stron
- Link, widoczny link, anchor, snippet i domenę
- Dodatkowe linki i anchory
- Stację metra
- Pominięte słowa (słowa, które mogą wyświetlać się pod każdym wynikiem z dopiskiem "Nie znaleziono")
- Lista szybkich odpowiedzi (Quick answers): pytania, odpowiedzi, linki do źródeł (włączane osobną opcją Parse Quick answers)
- Odpowiedź AI (Wyszukiwanie z Alisą), jej typ i lista źródeł
Możliwości
- Wybór typu wyników: mobilne/desktop
- Obsługa wszystkich operatorów wyszukiwania Yandex (site:, lang: itp.)
- Scrapuje maksymalną liczbę wyników podawaną przez Yandex - 25 stron po 50 elementów w wynikach
- Możliwość wyszukiwania powiązanych słów kluczowych
- Obsługuje wybór regionu wyszukiwania, domeny
- Możliwość sortowania wyników według daty
- Scrapuje czas indeksowania strony, z możliwością filtrowania wyników według tego parametru
- Opcja emulacji przeglądarki (pozwala osiągnąć wysoką prędkość scrapowania i niskie zużycie captcha)
- Możliwość obejścia captcha za pomocą serwisu AntiCaptcha lub dowolnego innego obsługiwanego API (zaleca się włączenie parametru is_russian w ustawieniach antigate)
- Możliwość określenia liczby szybkich odpowiedzi (Quick answers), które scraper powinien zebrać, klikając w głąb każdego pytania
Na podstawie scrapera Yandex działają następujące scrapery:
SE::Yandex::Position - sprawdzanie pozycji strony na słowa kluczowe w Yandex
Warianty użycia
- Zbieranie baz linków - dla A-Poster, XRumer, AllSubmitter itp.
- Ocena konkurencji dla słów kluczowych
- Wyszukiwanie backlinków (wspomnień) o witrynach
- Sprawdzanie indeksowania witryn
- Wyszukiwanie podatnych witryn
- Dowolne inne warianty zakładające scrapowanie Yandex w tej czy innej formie
Zapytania
Jako zapytania należy podawać frazy wyszukiwania, dokładnie tak samo, jak gdyby były wpisywane bezpośrednio w formularzu wyszukiwania Yandex, na przykład:
okna Warszawa
lang:en windows Moscow
url:a-parser.com
site:a-parser.com
"a-parser.com"
Podstawianie zapytań
Możesz użyć wbudowanych makr do rozmnażania zapytań, na przykład chcemy uzyskać bardzo dużą bazę forów, podajemy kilka głównych zapytań w różnych językach:
forum
forum
foro
论坛
W formacie zapytań określimy generowanie znaków od a do zzzz, ta metoda pozwala maksymalnie rotować wyniki wyszukiwania i uzyskiwać mnóstwo nowych unikalnych wyników:
$query {az:a:zzzz}
To makro utworzy 475254 dodatkowych zapytań dla każdego wyjściowego zapytania, co łącznie da 4 x 475254 = 1901016 zapytań, liczba imponująca, ale to żaden problem dla A-Parsera. Przy prędkości 2000 zapytań na minutę takie zadanie zostanie przetworzone w zaledwie 16 godzin.
Użycie operatorów
Możesz używać operatorów wyszukiwania w formacie zapytania, dzięki czemu zostaną one automatycznie dodane do każdego zapytania z Twojej listy:
site:$query
Konta
Dla działania scrapera
SE::Yandex mogą być potrzebne konta Yandex. Konta można zarejestrować za pomocą scrapera
SE::Yandex::Register lub po prostu dodać istniejące konta do pliku files/SE-Yandex/accounts.txt w obsługiwanym formacie.
Można również włączyć rejestrację kont "w locie".
Aby pracować z autoryzacją przez sesję, ciąg danych musi być w następującym formacie:
[email protected];MAQT78Z31Rinx4H;{"answer":"qmfhsxdcrk","proxy":"185.104.120.45:3128","session_id":"3:1748440908.5.0.1748440867459:ZXBxpg:47e4.1.2:1|2191075974.41.2.2:41.3:1748440908|3:10308131.797655.5pfkoRZWgLJGntKTlcUhYdysNfk"}
Warianty wyprowadzania wyników
A-Parser obsługuje elastyczne formatowanie wyników dzięki wbudowanemu silnikowi szablonów Template Toolkit, co pozwala mu wyprowadzać wyniki w dowolnej formie, a także w formie ustrukturyzowanej, na przykład CSV lub JSON
Eksport listy linków
Format wyniku:
$serp.format('$link\n')
Przykład wyniku:
https://TestoMetrika.com/tests/
https://onlinetestpad.com/ru/tests
https://www.speedtest.net/
https://ustaliy.ru/testi/
https://yandex.ru/internet/
https://konstruktortestov.ru/popular
https://TestEdu.ru/test/
https://kto-chto-gde.ru/category/tests/
https://weekend.rambler.ru/tests/
https://GadalkinDom.ru/test
...
Linki + anchory + snippety z wyprowadzeniem pozycji
Format wyniku:
[% FOREACH item IN serp; loop.count _ ' - ' _ item.link _ ' - ' _ item.anchor _ ' - ' _ item.snippet _ "\n"; END %]
Przykład wyniku:
1 - http://forum.r-rp.ru/ - <b>forum</b>.r-rp.ru -
2 - https://forum.arizona-rp.com/ - <div class=a11y-hidden>Wynik internetowy z dodatkowymi linkami</div><b>Forum</b> – Arizona Role Play - Menu. Główna. <b>Fora</b>. Nowe wiadomości. Co nowego? Nowe wiadomości. Użytkownicy. Obecni goście. <b>Fora</b>. Logowanie. ... Statystyki <b>forum</b>. Tematy. 1,247,176. Wiadomości. 5,225,340. Użytkownicy. 623,675.
3 - https://ru.wikipedia.org/wiki/%D0%A4%D0%BE%D1%80%D1%83%D0%BC - <b>Forum</b> — Wikipedia - <b>Fórum</b> (łac. <b>forum</b> — arch. przedsionek grobowca; plac w tłoczni dla winogron podlegających obróbce; plac rynkowy, rynek miejski; targowisko, centralny plac):
4 - https://zen.yandex.ru/media/propromotion/chto-takoe-forum-i-vse-chto-s-nim-sviazano-5d65164c1d656a00ad52ba30 - Co to jest <b>forum</b> i wszystko, co z nim związane | Kreatywna... - Dzisiaj porozmawiamy o tym, co to jest <b>forum</b> i o wszystkim, co z nim związane, dostępnymi i prostymi słowami. Każdy z nas dąży do znalezienia takiej osoby, z którą można by nawiązać rozmowę na wspólne tematy, podzielić się doświadczeniem, udzielić rady. W nowoczesnym świecie wszystko to stało się możliwe bez wychodzenia z domu. Właśnie jedną z form takiego wirtualnego kontaktu jest web-<b>forum</b>.
5 - https://forum.vimeworld.ru/ - VimeWorld - <b>Forum</b> - <b>Forum</b> projektu idealnych serwerów gier Minecraft - VimeWorld...
...
Wyprowadzanie linków, anchorów i snippetów do tabeli CSV
Wbudowane narzędzie $tools.CSVLine pozwala tworzyć poprawne dokumenty tabelaryczne, gotowe do importu do Excela lub Arkuszy Google.
Ogólny format wyniku:
[% FOREACH i IN p1.serp; tools.CSVline(i.link, i.anchor, i.snippet); END %]
Nazwa pliku:
$datefile.format().csv
Tekst początkowy:
Link,Anchor,Snippet
W Ogólnym formacie wyników stosowany jest silnik szablonów Template Toolkit do wyprowadzania tablicy $serp w pętli FOREACH.
W nazwie pliku wyników wystarczy zmienić rozszerzenie pliku na csv.
Aby opcja "Tekst początkowy" była dostępna w Edytorze zadań, należy aktywować "Więcej opcji". W "Tekst początkowy" wpisujemy nazwy kolumn oddzielone przecinkami, a drugą linię pozostawiamy pustą.
Wyprowadzanie bloków reklamowych
Format wyniku:
$ads.format('$link - $anchor - $snippet\n')
Przykład wyniku:
http://yabs.yandex.ru/count/WcOejI_zO3C2vH80P1zY-_ryBtnaD0K0CmCnZYWCO000000u109mhiMfd8qUW07CkUOvY07Kyz3GCP01vCcQhIwO0PgqhFigk06qZQ3m6C01NDW1gkAR5E01kAZK4-W1y06W0kYCvAl-Wue5-0Bmwl7WeSQurUK1c0FRc3lkh0Ju1Bpr48W5lFKGa0MxjssW1Qxa1QW5hkG5i0Mkv0Mu1OYr9S05eTt90SW5aFn4YkWqZwuhO8VP1W00012H0000gGVlTvJIyeiV0R07W82O3BW7W0Nn1tjIyvgFUtz-X8A0WSIqXdB92j4AXC7wM-4_u3nZJEzt003CKjw5aRa50DaBw0kyzRAxthu1gGn-j62AsN3cl-WCemBW3OE0W4293eDHIPs09kwAqTFvwFMAi8VO3WAX3zaFW13WszlG4DcTXo9ZI0HkD3-n4YxXl0bOc-q2u1E8jIMW58Yr9QWKkxTjl9wVx0Ne58m2q1Mydf_i1TWLmOhsxAEFlFnZyA0Mq92TW0R95l0_q1Qokzw-0O4N0F0_c1UwdvGKg1S9m1Uq0jWNm8GzcHYW60wm68UTi806q1WX-1Yf-9keZlxncYM06R3qkEBGlP6v890P0Q0PmWEm6RWP____0T8P4dbXOdDVSsLoTcLoBt8qEJSjCkWPWC83y1c0mWE16l__WxZFMxv27W2GPM2khLr2HGBSgKCU4fSjR_apLy29ToVZBSaX0K10aLK2xDc6HsxyWlx3mqOzRTCnV7G7IDvEXnY4YqauFXdHmHcIWrcJNGT1NfMC_8eB8q1m1-WEYbKFtWBTZHwcD4A80G00~1?from=yandex.ru%3Bsearch%26%23x2F%3B%3Bweb%3B%3B0%3B&q=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%B0%D0%B2%D0%B8%D0%B0%D0%B1%D0%B8%D0%BB%D0%B5%D1%82%D1%8B&etext=2202.wBaB7RlytlP_PRaU6jPhHD2nHBNT_4gSF6009OyJEfpWjUPoA5WrSJAqCfap0m9ReXhoaGRlaWhmYmllemF2ZA.f04b1271668949ea17ffcafcb11c72c2ab6454c5 - <b>Kupić</b> <b>bilet lotniczy</b> do / aviasales.ru - Oferujemy: <b>Kupić</b> <b>bilet lotniczy</b> do tutaj. Super oferta! Śpiesz się!
http://yabs.yandex.ru/count/WgGejI_zO5e2rHG092HY-_ryhkYFF0K0MWCnZYWCO000000u109mhDZpa8WGW07ZZm680U2f-wrQa07AywxRoe20W0AO0ShphjjAk06oWAxe8C01NDW1e8MobW7W0TJCXm_e0O01c0BImFq2e0BuQjW20l02g_w3YWNu0l3gyU2XnhZLvG600vF6eiSFY0FStR-O39W3cyKxYga3-0JJpWI81TFE1905Z-zGe0MPj06e1PMM0R05bPO1k0NInnJ01TF1ZG781PNz8uheD8-kAs27sGO0000GaG000Aa7xtUKqlAB7m6m1u20c0ou1u05yGTxKlEQZtj_VeI2l3M02W712l_aZtPQIU8_oGeJ5NRdMhxJFweB4E0yOqplTm00p5BUXP6v1G3P2-WBqyu4y0i6Y0ookzw-0QaCu_jL-Yu3zB_e3AC2u0s3W810YGwgO5HI9w3dYj7J-UZrYh27s0u2-0x7dPAe2Q4FFGhNet0zzZ_P3_0_W13GmC4Rm92GPpgqxC9xJZC_iHAuM7p6uhZj0k0JqiSKe1JInnIe58_lKB0KYw381hWKmAo0jQI04TWK-FpP_WNe58m2q1Nu_Dd-1TWLmOhsxAEFlFnZyA0Mq92TW0R95j0MihlUlW615vWNfwZz3wWN2S0Nj0BO5y24FPaOe1WAi1Z9fB201j0O8VWOgVYRg8x-yPebW1cmzBZYqBsHkI2G6G6W6S83i1cu6V___m7I6H9vOM9pNtDbSdPbSYzoD3atBJBe6O320_0PWC83WHh__oD2TTsApne0jsLWrgrT_2INXiZt8r8kcvWxe0SCE37tPBmjEYG0203ecjreFlD0AY-khXXjgcFZa190IXd9BOrkl3guMzzraExES_xHXH4WwWDq1xIoUlHJ6Y74~1?from=yandex.ru%3Bsearch%26%23x2F%3B%3Bweb%3B%3B0%3B&q=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%B0%D0%B2%D0%B8%D0%B0%D0%B1%D0%B8%D0%BB%D0%B5%D1%82%D1%8B&etext=2202.wBaB7RlytlP_PRaU6jPhHD2nHBNT_4gSF6009OyJEfpWjUPoA5WrSJAqCfap0m9ReXhoaGRlaWhmYmllemF2ZA.f04b1271668949ea17ffcafcb11c72c2ab6454c5 - <b>Kupić</b> <b>bilet lotniczy</b> online na Tutu.ru! Oficjalna strona! - Bilety na samolot w niskiej cenie! Korzystne rejsy na całym świecie! <b>Kupić</b> bilet online!
http://yabs.yandex.ru/count/WcOejI_zO3C2vH80P1zY-_ryBtnaD0K0CmCnZYWCO000000u109mhiMfd8qUW07CkUOvY07Kyz3GCP01vCcQhIwO0PgqhFigk06qZQ3m6C01NDW1gkAR5E01kAZK4-W1y06W0kYCvAl-Wue5-0Bmwl7WeSQurUK1c0FRc3lkh0Ju1Bpr48W5lFKGa0MxjssW1Qxa1QW5hkG5i0Mkv0Mu1OYr9S05eTt90SW5aFn4YkWqZwuhO8VP1W00012H0000gGVlTvJIyeiV0R07W82O3BW7W0Nn1tjIyvgFUtz-X8A0WSIqXdB92j4AXC7wM-4_u3nZJEzt003CKjw5aRa50DaBw0kyzRAxthu1gGn-j62AsN3cl-WCemBW3OE0W4293eDHIPs09kwAqTFvwFMAi8VO3WAX3zaFW13WszlG4DcTXo9ZI0HkD3-n4YxXl0bOc-q2u1E8jIMW58Yr9QWKkxTjl9wVx0Ne58m2q1Mydf_i1TWLmOhsxAEFlFnZyA0Mq92TW0R95l0_q1Qokzw-0O4N0F0_c1UwdvGKg1S9m1Uq0jWNm8GzcHYW60wm68UTi806q1WX-1Yf-9keZlxncYM06R3qkEBGlP6v890P0Q0PmWEm6RWP____0T8P4dbXOdDVSsLoTcLoBt8qEJSjCkWPWC83y1c0mWE16l__WxZFMxv27W2GPM2khLr2HGBSgKCU4fSjR_apLy29ToVZBSaX0K10aLK2xDc6HsxyWlx3mqOzRTCnV7G7IDvEXnY4YqauFXdHmHcIWrcJNGT1NfMC_8eB8q1m1-WEYbKFtWBTZHwcD4A80G00~1?from=yandex.ru%3Bsearch%26%23x2F%3B%3Bweb%3B%3B0%3B&q=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%B0%D0%B2%D0%B8%D0%B0%D0%B1%D0%B8%D0%BB%D0%B5%D1%82%D1%8B&etext=2202.wBaB7RlytlP_PRaU6jPhHD2nHBNT_4gSF6009OyJEfpWjUPoA5WrSJAqCfap0m9ReXhoaGRlaWhmYmllemF2ZA.f04b1271668949ea17ffcafcb11c72c2ab6454c5 - <b>Kupić</b> <b>bilet lotniczy</b> do / aviasales.ru - Oferujemy: <b>Kupić</b> <b>bilet lotniczy</b> do tutaj. Super oferta! Śpiesz się!
...
Zapisywanie powiązanych słów kluczowych
Format wyniku:
$related.format('$key\n')
Przykład wyniku:
<b>test</b> tanki online
tanki online
wszystkie <b>testy</b> kropka ru
i exam ru testowanie
<b>test</b> prędkości internetu
<b>tests</b>24.ru
speedtest
online <b>test</b> wydajności pc
testowanie online
my <b>test</b> student jak poznać odpowiedzi
...
Aby automatycznie usuwać tagi HTML w wyniku, należy użyć Konstruktor wyników, wybrać tablicę $related i zastosować Remove HTML tags.
Konkurencja słów kluczowych
Format wyniku:
$query - $totalcount\n
Przykład wyniku:
wszystkie testy kropka ru - 25000000
testowanie online - 13000000
tanki online - 7000000
i exam ru testowanie - 27000000
tests24.ru - 238000000
online test wydajności pc - 16000000
speedtest - 2000000
test prędkości internetu - 16000000
test tanki online - 19000000
my test student jak poznać odpowiedzi - 16000000
Określanie słów kluczowych z błędami
Format wyniku:
$query - $misspell\n
Przykład wyniku:
testowanie online - 0
test prędkości internetu - 0
onlajn testowanie - 1
test predkosci intrnetu - 1
Sprawdzanie indeksowania linków
Format zapytania:
site:$query
Format wyniku:
$query.orig - $totalcount\n
Przykład wyniku:
https://a-parser.com/pages/buy - 2
https://a-parser.com/wiki/parsers - 16
https://trjkjfkdf.bg.ky - 0
https://a-parser.com/resources - 1000
https://a-parser.com/forum - 499
Aby sprawdzić indeksowanie linków, podstawiamy w Formacie zapytania odpowiedni operator: site:.
Format wyniku jest wyprowadzany w postaci "źródłowy url - liczba stron w indeksie".
W rezultacie otrzymujemy adres stron i ich liczbę w indeksie wyszukiwarki.
Jeśli strona jest nieobecna, wynik wyniesie: 0.
Zapisywanie w formacie SQL
Format wyniku:
[% FOREACH serp; "INSERT INTO serp VALUES('" _ query _ "', '"; link _ "', '"; anchor _ "')\n"; END %]
Przykład wyniku:
INSERT INTO serp VALUES('test', 'https://konstruktortestov.ru/popular', 'Popularne online <b>testy</b>')
INSERT INTO serp VALUES('test', 'https://TestoMetrika.com/tests/', 'Online <b>testy</b> c z dokładnym wynikiem od psychologicznych...')
INSERT INTO serp VALUES('test', 'https://ustaliy.ru/testi/', '<b>Testy</b> online: najlepsze, interesujące i popularne')
INSERT INTO serp VALUES('test', 'https://www.SunHome.ru/tests/Interesting_tests', 'Interesujące <b>testy</b>. Przejdź psychologiczne interesujące...')
INSERT INTO serp VALUES('test', 'https://onlinetestpad.com/ru/tests', '<b>Testy</b> online | Online Test Pad')
...
Zrzut wyników do JSON
Ogólny format wyniku:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.totalcount = p1.totalcount;
obj.links = [];
FOREACH item IN p1.serp;
obj.links.push(item.link);
END;
obj.json %]
Tekst początkowy:
[
Tekst końcowy:
]
Przykład wyniku:
[{"totalcount":113000000,"links":["https://TestoMetrika.com/tests/","https://konstruktortestov.ru/popular","https://ustaliy.ru/testi/","https://www.SunHome.ru/tests/Interesting_tests","https://GadalkinDom.ru/test","https://zen.yandex.ru/tes","https://onlinetestpad.com/ru/tests","https://kto-chto-gde.ru/category/tests/","https://psytests.org/top.html","https://MixTests.com/new/","https://TestEdu.ru/test/","https://testserver.pro/index","https://onedio.ru/tests","https://BankTestov.ru/","https://weekend.rambler.ru/tests/","https://edieta.org/testi","https://trikky.ru/?%21","https://BBF.ru/tests/","https://dropi.ru/c/tests/raznie","https://cadelta.ru/tests","https://www.Elle.ru/tests/","https://www.adme.ru/svoboda-psihologiya/polnyj-spisok-psihologicheskih-testov-dlya-poznaniya-sebya-kotorye-mozhno-projti-onlajn-2071715/","https://www.ellegirl.ru/tests/","https://test.tankionline.com/","https://vraki.net/onlajn-testy/","https://Lifehacker.ru/psixologicheskie-testy/","https://iq2u.ru/tests","https://www.b17.ru/tests/","https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D1%81%D1%82","https://gurutest.ru/test/","https://www.psychologies.ru/tests/","https://peopletalk.ru/category/tests/","https://obrazovaka.ru/testy","https://likeyou.io/category/test/","https://ProfTest.me/tests","https://TayniyMir.com/testy","https://psi-technology.net/psytest/","https://www.kp.ru/putevoditel/online-test/","https://tvoytest.ru/","https://twizz.ru/tests/","https://lunanews.net/testy/","https://www.ivi.ru/titr/tests","https://sntch.com/tests/","https://testy.online/","https://videouroki.net/tests/","https://www.speedtest.net/ru","https://rb.ru/tests/","https://aznaetelivy.ru/tests/","https://woman-psy.com/psihologicheskie-testy/testy_na_eruditsiyu_i_znaniya/interesnye_testy/","https://mamochka-club.com/psihologicheskie-testy/interesnye-testy/"]}]
Aby opcje "Tekst początkowy" i "Tekst końcowy" były dostępne w Edytorze zadań, należy aktywować "Więcej opcji".
Przetwarzanie wyników
A-Parser pozwala przetwarzać wyniki bezpośrednio podczas scrapowania, w tej sekcji przedstawiliśmy najpopularniejsze przypadki dla scrapera Yandex
Usuwanie duplikatów linków
Dodaj usuwanie duplikatów i z listy rozwijanej wybierz $serp.$i.link - Link.
Pobierz przykład
Jak zaimportować przykład do A-Parser
eJx9VE2P2jAQ/SurEYdWQqvQLpfcWFSqVnTZLuyhohy8ZIJcHNu1HQqK+O+dCUkc
ttVeoszze/NtVxCE3/tHhx6Dh3Rdga3/IYXlpzT9IXSGx5u51Ht/86zl7xJhCFY4
j47p6x6LDjLMRakCDCsIJ4vkxBzQOZmxSmZkW2eOJ4fBSfSEHYQqmTZKkgTOb8jE
Drem1CFqRm/QFedr0bEsKsZJT1K2xVC5nHK6BqrJEsBi2AwbxupC95Sx3kGLflbm
RShIgyvxvNm0XvzMuEJw8wZ2dNt0sjtcigOuDB3mUsXIfkbWgyg4yiATAfn0Nq8d
vXt/G47sQWSZDNJooS4RuPcxajOYFLQhLv1yd2fOFAQFrB0weGqzW8OgtmOV3y8a
SHOhPA7BU6ozQYlkr09kQCeCcQvL+RBegdETpeZ4QBVptf/7UqqMFmWSk+hLI/w/
ZfGPj3NXXj8UDfqPoxw6L7V1v/gWVZmZmx1Vnr3UwyxkINtP6+1JISFwj2i7nj1w
zwrjsAvTeG6i092wqHmr4sgmNkJXZVyN5RrcGp3L3aLZ1JZZ6hVdwIWemsIq5Lp0
qRSNxeNTXI+Jb8bARkzwtXhah+DS23sIwRjlvy4vqVonaf3GnGBBnexHbVxuhVLP
T/P+CcSVIuNnmdzdfeDvx3H9P7ogwNqAO0NbRZWdN90r0b0tVf+tSKszjeqXf7yQ
uC6mEEYN8jQHvuB/AYBymo0=
Zobacz również: Usuwanie duplikatów wyników
Usuwanie duplikatów linków według domeny
Dodaj usuwanie duplikatów i z listy rozwijanej wybierz $serp.$i.link - Link. Wybierz typ usuwania duplikatów: Domena.
Pobierz przykład
Jak zaimportować przykład do A-Parser
eJx9VE2P2jAQ/SvI4tBKCIV2ueTG0lK1ost2YQ8V5WDIBLk4tms7FBTx33fGCXHY
VnuxPG/mzbddMc/dwT1acOAdS9cVM+HOUrb8nKY/ucrg1JsLdXC9ZyX+lNDbnnuf
dMGFYgNmuHVgibju2KMig5yX0rNBxfzZALrTR7BWZIBKkaFsrD6dLXgrwCF25LIk
s1GSJOzyBo3vYadL5SNn9Ia5pMwNWKJFxjjpUMpQFiqxcEo5XTOsySBAZLYZNBar
2jy71l6jX6TecslSb0u4bDZXL26mbcGpjX0zGjY9bZVLfoSVRmUuZIzsZig98IKi
9DPugbTDPDh6937oT+SBZ5nwQisu6wjU+xi1HhHylUZbvFJ3Z1YXCHkIDgg8X7Nb
s36QY5U/ag5Lcy4dDJjDVGccE8lea4QHy722C0P5IF4xrSZSzuEIMpoF//elkBku
yiRH0teG+H+TxT8+Lm153VA46L8Wc2i9BOl+8T2yMj3XexrZNgyzEB5lNw3bk7IE
wQOAaXv2QD0rtIU2TOO5iY6vxICirYojm5gI3ZRxM5ZbcKdVLvaLZlOvlqVa4VNc
qKkujASqS5VS4lgcPMX1mLhmDCTEBF+TpyEElX59h8xrLd23ZZ2qsQLXb0wJFtjJ
btTG5Y5L+fw072pYXCkUfpXJ3d0HOj+Ow31UI4y4HvYatworu2zaX6L9ZaruX5FW
FxzVb/dYG1FdZIIYNsjhHOiBvwAa7J3h
Zobacz również: Usuwanie duplikatów wyników
Wyodrębnianie domen
Dodaj Konstruktor wyników i z listy rozwijanej wybierz źródło: $p1.serp.$i.link - Link. Wybierz typ: Extract Domain.
Pobierz przykład
Jak zaimportować przykład do A-Parser
eJx9VEtv2zAM/isFkcMGBIGzNRff0qwBNmRN17SHIetBi+lAiyxpkpwlMPzfR8qO
7XZDL4b5+Eh+fKiCIPzB3zv0GDyk2wps/IcUNrdp+l3oDE9Xt6fgxC5cfTKFkNrD
GKxwHh0jtgNHMmSYi1IFGFcQzhYpjjmiczJDMsqMZOvM6ewwOIkc6ShUyW7TJEmg
fgMm9rgzpQ49ZvqGu5L64C06hvWIWVI/P4+BKFKNfmlcIZjqyE4nLe/OuBFHfDRk
zKXCXr0k6U4UnHKUiYBsneQx0Lv3k3DiCCLLZJBGC9Vk4Db1WZ+0/B0Za0O+9MuN
WDpTkCpgDMDK86W6LYyiDBSijNhvDQbSXCiPY/BU6lJQIdlriwzoRDBubbke0ldg
9FypFR5R9W4x/k0pVUYznecE+twC/++y/idG3dEbpqKZ/HFUQxclSjfrrz0qMyuz
J+bZT+KtZCEDyX4RB51CQsoDou16dsc9K4zDLk0buc1Om2xR8wL0I5vbXvWCxoux
DJQVeFO6HeXbJuMt0KLbWJw+AG9Pu3HYHEVzEzx158SZ9K17MO0WQk2YndG53K/b
Jb1kLvUjnd9aL0xhFXKfdKkUjdnjQ79uc9+OlYWe8GvwIqbgVl5OkGowyn/ZNNSt
k1TSjAkXNJlh1jbkTij19LAaWqBfURJ+lMn19Qf+fpzF/2mjAcYG3BvaUmLGhNsH
ontZquEzkVY1jf6Xv2+cmBe7kI4a5GmufNt/AaiMmIc=
Zobacz również: Konstruktor wyników
Usuwanie tagów z anchorów i snippetów
Dodaj Konstruktor wyników i z listy rozwijanej wybierz źródło: $p1.serp.$i.anchor - Anchor. Wybierz typ: Remove HTML tags.
Dodaj ponownie Konstruktor wyników i z listy rozwijanej wybierz źródło: $p1.serp.$i.snippet - Snippet. Wybierz typ: Remove HTML tags.
Pobierz przykład
Jak zaimportować przykład do A-Parser
eJyVVN9v2jAQ/lcii4dNQihs5SVvFA11Ey0dtA8T64NHLszDsT3bYaCI/313jknS
rqq0lyi+u++7X59dM8/d3t1bcOAdyzY1M+GfZWz9Kcu+cZXDMVlBqQ+Q3DzcLhLP
dy4prC6Tqdr+1NYlGJOslTCGKIbMcOvAEtmmx4GOHApeSc+GNfMnA5gCSa0VOaBT
5Hg2Vh9PFrwVQEwHLisKG6dpys5vwPgOtrpSvsOM3wiXQu2dAUuwDjFJz09PQ4bd
Y41urm3JaQoDMx7FkbTONT/Ag0ZnISR05jme7nhJKQc590DeURGI3r0f+SMx8DwX
XmjFZZOBxtRlfVTid+hYaYzFXxrEHGeNJg+BgIynS3UbNghnhhRVwH5tMCwruHQw
ZA5LnXMsJH/pER4s99ouDdWD9pppNZVyAQeQXVjgv66EzHGn0wJBnyPw9ZDlPxzn
tr1+KtzJH4s1tCzhdL287VC5Xugddp7/wL6lKIXHs5uFRWcsReMewLQzu6OZldpC
myYyx+wocgOKBNCtbGo607M2nq2lZ6yZ05XdYr5NOtwwFLqhrYabwEg/UXM23Jgb
X0pyW8tPaIzRnqQTISTT1xhdc5/+i/KCOSNmq1Uhdsuo/Es7lXrA675UM10aCTR8
VUmJ2nGw6jQ8dVErdOim+BI8CyloP5d7jWVo6b6sm3kaK7CqyTAW3s8aKbdcysfV
ou9hne7x8L1Kr64+0PfjJPyPGwsjrIedRuljZ9RwfHXal6zuvz1ZfUY9/XL3TRD1
RSFowwE5FAs9GH8BhLW+Jg==
Konstruktor wyników można dodać tyle razy, ile potrzebujesz.
Zobacz również: Konstruktor wyników
Filtrowanie linków według wystąpienia
Dodaj filtr i z listy rozwijanej wybierz: $serp.$i.link - Link. Wybierz typ: Zawiera ciąg. Następnie w polu Ciąg wpisz cechę filtrowania, na przykład, jeśli chcesz, aby w wynikach zapisywane były tylko linki zawierające .com, wpisz to w polu "Ciąg".
Pobierz przykład
Jak zaimportować przykład do A-Parser
eJx9VE2P2jAQ/SvI4tBKCMFhL7mxqEit6LJd2EOFOHjxJHJxbNd2KCjKf++ME+Kw
rfaW+Xhv3nw4NQvcn/yzAw/Bs2xfMxu/Wca2X7LsJ9cCLqOVVAGc1MXo7TryIX5J
PVJSn9iEWe48OELvByAMCMh5pQKb1CxcLSCnOYNzUgAGpUDbOnO5OkBG8Og7c1VR
2nw2m7HmAxgv4GgqHRJm/kE66fQWHMES4mE2gOSxQwxi9yQ52zPsyaIjNnmYdBm7
Nv1odOBSDyRPj6ZE09ggjUbbg/asORxujH5lXMlprmM7n3ZD7oNbfoadaXVAcuPc
4YmXxD8WPABFp3kk+vR5Gi7EwIWQVJOrtgLtIVV91fJ31KcN5uInTXrlUGvGAkQC
cl5v6vZsHG3quIrYHy2GZTlXHibMo9QVRyHifUTifHgwbhNngP6aGb1Qag1nUCkt
8j9WUgk8mkWOoK8d8P8pm384mr69YSlc+h+HGnqWaD1uvieUMGtTYOfiLS62lAFt
v4yXlLEZOk8Atp/ZE82sNA76Mh1zVx2fjQVNF5ZWtrDJddfG3VrunXhNuSw23dXe
Miu9w7e50UtTWgXUl66UwrV4eEnnsfDdGshIAt+Dl7EEtX57kywYo/y3bSvVOonn
90ACS5zksGpHeeRKvb6shxGWTiqekyfaI95pYfCCsIvm0P8d+l9MPfxHZHWDa/nl
n9sk6oFS0IfD8PElzZu/Z6ed/A==
Zobacz również: Filtry wyników
Możliwe ustawienia
| Nazwa parametru | Wartość domyślna | Opis |
|---|---|---|
| AntiGate preset | default | Wybór presetu Util::AntiGate, więcej o ustawieniu tutaj |
| AntiGate preset for old captcha | default | Podobnie jak AntiGate preset, ale używane tylko dla zwykłych (starych, w formie jednego obrazka) captcha. Jeśli nie wybrano tutaj presetu, dla takich captcha zostanie użyty preset wybrany w AntiGate preset. |
| Experimental img captcha max count | 5 | Maksymalna liczba ponownych obrazków captcha na próbę |
| Preffered captcha type | Click | Wybór preferowanego rodzaju captcha: Click lub Puzzle |
| Engine | HTTP (Fast, JavaScript Disabled) | Pozwala wybrać silnik: HTTP (szybszy, ale większe prawdopodobieństwo captcha) lub przeglądarka (wolniejszy, ale mniejsze prawdopodobieństwo captcha) |
| Device | Modern desktop computer (Windows 10, Chrome 84) | Wybór typu wyników (Desktop computer / Mobile device) |
| Pages count | 5 | Liczba stron do scrapowania (od 1 do 25) |
| Sort serp by date | ☐ | Sortowanie wyników według daty |
| Serp time | All time | Okres wyszukiwania |
| Yandex domain | www.yandex.ru | Domena Yandex do scrapowania, obsługiwane są wszystkie domeny (.ru, .ua, .by, .kz, .com.tr, .com). Od wersji 1.1.345 wybierana automatycznie w zależności od wybranego regionu. |
| Region of serp (lr=) | Moskwa | Wybór regionu wyszukiwania (parametr lr=) |
| Custom region ID | Możliwość podania id regionu nieobecnego na liście wyboru. Ta opcja ma priorytet nad opcją Region of serp (lr=). Należy koniecznie ustawić odpowiednią domenę w Yandex domain. | |
| Search sites from (rstr=) | Not set | Wybór powiązania regionalnego witryn (parametr rstr=) |
| Language | Any | Język wyników wyszukiwania (Russian, English, Belorussian, French, German, Indonesian, Kazakh, Tatar, Turkish, Ukrainian) |
| Parse not found | ☑ | Określa, czy scrapować wyniki, jeśli dla danego zapytania znaleziono zero wyników i zaproponowano wyniki dla innego zapytania |
| Not personalized | ☐ | Personalizacja wyszukiwania. Więcej tutaj |
| Filter pages | Moderate filter | Filtrowanie wyników z niepożądanych treści (Family search / Moderate filter / Do not filter) |
| Use Accounts | ☐ | Praca z istniejącymi kontami w pliku files/SE-Yandex/accounts.txt. SE::Yandex::Register - Pozwala rejestrować konta w Yandex |
| Remove bad accounts | ☑ | Usuwanie nieprawidłowych kont |
| Quick answers count | 0 | Maksymalna liczba pytań-odpowiedzi (Szybkie odpowiedzi) dla każdego zapytania, które scraper powinien zebrać |
| Parse generative answer | ☐ | Czy scrapować odpowiedź generatywną (dodaje to dodatkowe podzapytanie i odpowiednio spowalnia ogólną pracę) |
| Accounts | Only from "accounts.txt" | Wybór metody pracy z kontami: Always auto register - zawsze automatycznie rejestruj konta "w locie", wymaga wybrania skonfigurowanego presetu w parametrze SE::Yandex::Register preset. Auto register if no more in "accounts.txt" - najpierw używane są istniejące konta z accounts.txt, a jeśli się skończą - używana jest automatyczna rejestracja "na lecie", dla której należy wybrać skonfigurowany preset w parametrze SE::Yandex::Register preset. Only from "accounts.txt" - używaj tylko istniejących kont z accounts.txt, a jeśli się skończą - czekaj określony czas (parametr Wait new accounts in "accounts.txt") na pojawienie się nowych. Only by session_id from "accounts.txt" - autoryzacja przez ciasteczka. |
| Remove bad accounts | Always, except wrong login/password | Automatyczne usuwanie "złych" kont: Always - zawsze usuwaj. Always, except wrong login/password - usuwaj zawsze, z wyjątkiem przypadków, gdy Yandex poinformował o błędnym loginie/haśle. Wynika to z faktu, że taki komunikat Yandex może podawać przy blokadzie IP dla całkowicie sprawnego konta, dlatego opcjonalnie można zostawiać takie konta do ponownego użycia. Never - nigdy nie usuwaj. Niezależnie od wybranego wariantu, przy błędach proxy/przeglądarki konta nie są usuwane |
| Use sessions | ☑ | Używanie sesji |
| Wait new accounts in "accounts.txt" | 0 | Czas oczekiwania na pojawienie się nowych kont w accounts.txt |
| SE::Yandex::Register preset | default | Wybór presetu ustawień dla SE::Yandex::Register |
| Force neuro | ☐ | Wymuszone włączenie odpowiedzi neuro, analogicznie do ręcznego przełączania między "Wyszukiwaniem" a "Wyszukiwaniem z Alisą" |
