Przejdź do treści głównej

SE::Yandex - Scraper wyników wyszukiwania Yandex

Yandex

Przegląd scrapera

Scraper wyników wyszukiwania Yandex zasłużenie znajduje się w TOP-5 najpopularniejszych scraperów. Jedną z głównych przewag konkurencyjnych naszego scrapera jest jego kolosalna wydajność. Dzięki wielowątkowej pracy A-Parser, prędkość przetwarzania zapytań może osiągać 3000-7000 zapytań na minutę, co średnio pozwala uzyskać do 5000000 linków na minutę, przy czym zużycie zasobów jest minimalne – do pracy wystarczy dowolny komputer biurowy lub domowy, a także dowolny VDS klasy podstawowej. Nasz scraper obsługuje wszystkie operatory wyszukiwania Yandex, co pozwala znacznie rozszerzyć możliwości scrapowania. Stabilność i ciągłość scrapowania wyników jest zapewniona dzięki rozpoznawaniu captcha przez AntiCaptcha lub dowolne inne obsługiwane API (Anti-Captcha, RuCaptcha, CapMonster.cloud, 2captcha i inne).

Elastyczność ustawień pozwala określić typ wyników (mobilne/desktop), region, język, sortowanie wyników według daty i wiele więcej. Funkcjonalność A-Parser pozwala zapisywać ustawienia scrapowania do dalszego wykorzystania (presety), ustalać harmonogram scrapowania i wiele więcej. Możesz wykorzystać automatyczne rozmnażanie zapytań, podstawianie podzapytań z plików, generowanie kombinacji alfanumerycznych i list w celu uzyskania maksymalnej możliwej liczby wyników.

Zapisywanie wyników jest możliwe w dowolnej formie i strukturze, której potrzebujesz, dzięki wbudowanemu potężnemu silnikowi szablonów Template Toolkit, który pozwala stosować dodatkową logikę do wyników i wyprowadzać dane w różnych formatach, w tym JSON, SQL i CSV.

Case studies użycia scrapera

Zbierane dane

Zbierane dane
  • Liczba wyników dla zapytania
  • Linki, anchory i snippety z wyników wyszukiwania
    • Zbierane są również informacje o flagach każdego wyniku, obecnie obsługiwane są flagi: Date, Image Preview, Video, Rich snippet, Featured snippet
  • Czas pierwszego i ostatniego buforowania (tylko dla wyników desktopowych)
  • Lista powiązanych słów kluczowych (Related keywords)
  • Określa, czy Yandex uznał zapytanie za literówkę, czy nie
  • Scrapowanie linku do pamięci podręcznej strony (tylko dla wyników desktopowych)
  • Lista nazw ikon witryny oraz ich typów, jeśli występują (w tym Turbo)
  • Górne, środkowe i dolne bloki reklamowe ze wszystkich stron
    • Link, widoczny link, anchor, snippet i domenę
    • Dodatkowe linki i anchory
    • Stację metra
  • Pominięte słowa (słowa, które mogą wyświetlać się pod każdym wynikiem z dopiskiem "Nie znaleziono")
  • Lista szybkich odpowiedzi (Quick answers): pytania, odpowiedzi, linki do źródeł (włączane osobną opcją Parse Quick answers)
  • Odpowiedź AI (Wyszukiwanie z Alisą), jej typ i lista źródeł

Możliwości

  • Wybór typu wyników: mobilne/desktop
  • Obsługa wszystkich operatorów wyszukiwania Yandex (site:, lang: itp.)
  • Scrapuje maksymalną liczbę wyników podawaną przez Yandex - 25 stron po 50 elementów w wynikach
  • Możliwość wyszukiwania powiązanych słów kluczowych
  • Obsługuje wybór regionu wyszukiwania, domeny
  • Możliwość sortowania wyników według daty
  • Scrapuje czas indeksowania strony, z możliwością filtrowania wyników według tego parametru
  • Opcja emulacji przeglądarki (pozwala osiągnąć wysoką prędkość scrapowania i niskie zużycie captcha)
  • Możliwość obejścia captcha za pomocą serwisu AntiCaptcha lub dowolnego innego obsługiwanego API (zaleca się włączenie parametru is_russian w ustawieniach antigate)
  • Możliwość określenia liczby szybkich odpowiedzi (Quick answers), które scraper powinien zebrać, klikając w głąb każdego pytania

img

Na podstawie scrapera Yandex działają następujące scrapery:

Warianty użycia

  • Zbieranie baz linków - dla A-Poster, XRumer, AllSubmitter itp.
  • Ocena konkurencji dla słów kluczowych
  • Wyszukiwanie backlinków (wspomnień) o witrynach
  • Sprawdzanie indeksowania witryn
  • Wyszukiwanie podatnych witryn
  • Dowolne inne warianty zakładające scrapowanie Yandex w tej czy innej formie

Zapytania

Jako zapytania należy podawać frazy wyszukiwania, dokładnie tak samo, jak gdyby były wpisywane bezpośrednio w formularzu wyszukiwania Yandex, na przykład:

okna Warszawa
lang:en windows Moscow
url:a-parser.com
site:a-parser.com
"a-parser.com"

Podstawianie zapytań

Możesz użyć wbudowanych makr do rozmnażania zapytań, na przykład chcemy uzyskać bardzo dużą bazę forów, podajemy kilka głównych zapytań w różnych językach:

forum
forum
foro
论坛

W formacie zapytań określimy generowanie znaków od a do zzzz, ta metoda pozwala maksymalnie rotować wyniki wyszukiwania i uzyskiwać mnóstwo nowych unikalnych wyników:

$query {az:a:zzzz}

To makro utworzy 475254 dodatkowych zapytań dla każdego wyjściowego zapytania, co łącznie da 4 x 475254 = 1901016 zapytań, liczba imponująca, ale to żaden problem dla A-Parsera. Przy prędkości 2000 zapytań na minutę takie zadanie zostanie przetworzone w zaledwie 16 godzin.

Użycie operatorów

Możesz używać operatorów wyszukiwania w formacie zapytania, dzięki czemu zostaną one automatycznie dodane do każdego zapytania z Twojej listy:

site:$query

Konta

Dla działania scrapera SE::YandexSE::Yandex mogą być potrzebne konta Yandex. Konta można zarejestrować za pomocą scrapera SE::Yandex::RegisterSE::Yandex::Register lub po prostu dodać istniejące konta do pliku files/SE-Yandex/accounts.txt w obsługiwanym formacie.

Można również włączyć rejestrację kont "w locie".

Aby pracować z autoryzacją przez sesję, ciąg danych musi być w następującym formacie: [email protected];MAQT78Z31Rinx4H;{"answer":"qmfhsxdcrk","proxy":"185.104.120.45:3128","session_id":"3:1748440908.5.0.1748440867459:ZXBxpg:47e4.1.2:1|2191075974.41.2.2:41.3:1748440908|3:10308131.797655.5pfkoRZWgLJGntKTlcUhYdysNfk"}

Warianty wyprowadzania wyników

A-Parser obsługuje elastyczne formatowanie wyników dzięki wbudowanemu silnikowi szablonów Template Toolkit, co pozwala mu wyprowadzać wyniki w dowolnej formie, a także w formie ustrukturyzowanej, na przykład CSV lub JSON

Eksport listy linków

Format wyniku:

$serp.format('$link\n')

Przykład wyniku:

https://TestoMetrika.com/tests/
https://onlinetestpad.com/ru/tests
https://www.speedtest.net/
https://ustaliy.ru/testi/
https://yandex.ru/internet/
https://konstruktortestov.ru/popular
https://TestEdu.ru/test/
https://kto-chto-gde.ru/category/tests/
https://weekend.rambler.ru/tests/
https://GadalkinDom.ru/test
...

Format wyniku:

[% FOREACH item IN serp;    loop.count _ ' - ' _ item.link _ ' - ' _ item.anchor _ ' - ' _ item.snippet _ "\n"; END %]

Przykład wyniku:

1 - http://forum.r-rp.ru/ - <b>forum</b>.r-rp.ru - 
2 - https://forum.arizona-rp.com/ - <div class=a11y-hidden>Wynik internetowy z dodatkowymi linkami</div><b>Forum</b> – Arizona Role Play - Menu. Główna. <b>Fora</b>. Nowe wiadomości. Co nowego? Nowe wiadomości. Użytkownicy. Obecni goście. <b>Fora</b>. Logowanie. ... Statystyki <b>forum</b>. Tematy. 1,247,176. Wiadomości. 5,225,340. Użytkownicy. 623,675.
3 - https://ru.wikipedia.org/wiki/%D0%A4%D0%BE%D1%80%D1%83%D0%BC - <b>Forum</b> — Wikipedia - <b>Fórum</b> (łac. <b>forum</b> — arch. przedsionek grobowca; plac w tłoczni dla winogron podlegających obróbce; plac rynkowy, rynek miejski; targowisko, centralny plac):
4 - https://zen.yandex.ru/media/propromotion/chto-takoe-forum-i-vse-chto-s-nim-sviazano-5d65164c1d656a00ad52ba30 - Co to jest <b>forum</b> i wszystko, co z nim związane | Kreatywna... - Dzisiaj porozmawiamy o tym, co to jest <b>forum</b> i o wszystkim, co z nim związane, dostępnymi i prostymi słowami. Każdy z nas dąży do znalezienia takiej osoby, z którą można by nawiązać rozmowę na wspólne tematy, podzielić się doświadczeniem, udzielić rady. W nowoczesnym świecie wszystko to stało się możliwe bez wychodzenia z domu. Właśnie jedną z form takiego wirtualnego kontaktu jest web-<b>forum</b>.
5 - https://forum.vimeworld.ru/ - VimeWorld - <b>Forum</b> - <b>Forum</b> projektu idealnych serwerów gier Minecraft - VimeWorld...
...

Wbudowane narzędzie $tools.CSVLine pozwala tworzyć poprawne dokumenty tabelaryczne, gotowe do importu do Excela lub Arkuszy Google.

Ogólny format wyniku:

[%  FOREACH i IN p1.serp;    tools.CSVline(i.link, i.anchor, i.snippet); END  %]

Nazwa pliku:

$datefile.format().csv

Tekst początkowy:

Link,Anchor,Snippet

wskazówka

W Ogólnym formacie wyników stosowany jest silnik szablonów Template Toolkit do wyprowadzania tablicy $serp w pętli FOREACH.

W nazwie pliku wyników wystarczy zmienić rozszerzenie pliku na csv.

Aby opcja "Tekst początkowy" była dostępna w Edytorze zadań, należy aktywować "Więcej opcji". W "Tekst początkowy" wpisujemy nazwy kolumn oddzielone przecinkami, a drugą linię pozostawiamy pustą.

Wyprowadzanie bloków reklamowych

Format wyniku:

$ads.format('$link - $anchor - $snippet\n')

Przykład wyniku:

http://yabs.yandex.ru/count/WcOejI_zO3C2vH80P1zY-_ryBtnaD0K0CmCnZYWCO000000u109mhiMfd8qUW07CkUOvY07Kyz3GCP01vCcQhIwO0PgqhFigk06qZQ3m6C01NDW1gkAR5E01kAZK4-W1y06W0kYCvAl-Wue5-0Bmwl7WeSQurUK1c0FRc3lkh0Ju1Bpr48W5lFKGa0MxjssW1Qxa1QW5hkG5i0Mkv0Mu1OYr9S05eTt90SW5aFn4YkWqZwuhO8VP1W00012H0000gGVlTvJIyeiV0R07W82O3BW7W0Nn1tjIyvgFUtz-X8A0WSIqXdB92j4AXC7wM-4_u3nZJEzt003CKjw5aRa50DaBw0kyzRAxthu1gGn-j62AsN3cl-WCemBW3OE0W4293eDHIPs09kwAqTFvwFMAi8VO3WAX3zaFW13WszlG4DcTXo9ZI0HkD3-n4YxXl0bOc-q2u1E8jIMW58Yr9QWKkxTjl9wVx0Ne58m2q1Mydf_i1TWLmOhsxAEFlFnZyA0Mq92TW0R95l0_q1Qokzw-0O4N0F0_c1UwdvGKg1S9m1Uq0jWNm8GzcHYW60wm68UTi806q1WX-1Yf-9keZlxncYM06R3qkEBGlP6v890P0Q0PmWEm6RWP____0T8P4dbXOdDVSsLoTcLoBt8qEJSjCkWPWC83y1c0mWE16l__WxZFMxv27W2GPM2khLr2HGBSgKCU4fSjR_apLy29ToVZBSaX0K10aLK2xDc6HsxyWlx3mqOzRTCnV7G7IDvEXnY4YqauFXdHmHcIWrcJNGT1NfMC_8eB8q1m1-WEYbKFtWBTZHwcD4A80G00~1?from=yandex.ru%3Bsearch%26%23x2F%3B%3Bweb%3B%3B0%3B&amp;q=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%B0%D0%B2%D0%B8%D0%B0%D0%B1%D0%B8%D0%BB%D0%B5%D1%82%D1%8B&amp;etext=2202.wBaB7RlytlP_PRaU6jPhHD2nHBNT_4gSF6009OyJEfpWjUPoA5WrSJAqCfap0m9ReXhoaGRlaWhmYmllemF2ZA.f04b1271668949ea17ffcafcb11c72c2ab6454c5 - <b>Kupić</b> <b>bilet lotniczy</b> do / aviasales.ru - Oferujemy: <b>Kupić</b> <b>bilet lotniczy</b> do tutaj. Super oferta! Śpiesz się!
http://yabs.yandex.ru/count/WgGejI_zO5e2rHG092HY-_ryhkYFF0K0MWCnZYWCO000000u109mhDZpa8WGW07ZZm680U2f-wrQa07AywxRoe20W0AO0ShphjjAk06oWAxe8C01NDW1e8MobW7W0TJCXm_e0O01c0BImFq2e0BuQjW20l02g_w3YWNu0l3gyU2XnhZLvG600vF6eiSFY0FStR-O39W3cyKxYga3-0JJpWI81TFE1905Z-zGe0MPj06e1PMM0R05bPO1k0NInnJ01TF1ZG781PNz8uheD8-kAs27sGO0000GaG000Aa7xtUKqlAB7m6m1u20c0ou1u05yGTxKlEQZtj_VeI2l3M02W712l_aZtPQIU8_oGeJ5NRdMhxJFweB4E0yOqplTm00p5BUXP6v1G3P2-WBqyu4y0i6Y0ookzw-0QaCu_jL-Yu3zB_e3AC2u0s3W810YGwgO5HI9w3dYj7J-UZrYh27s0u2-0x7dPAe2Q4FFGhNet0zzZ_P3_0_W13GmC4Rm92GPpgqxC9xJZC_iHAuM7p6uhZj0k0JqiSKe1JInnIe58_lKB0KYw381hWKmAo0jQI04TWK-FpP_WNe58m2q1Nu_Dd-1TWLmOhsxAEFlFnZyA0Mq92TW0R95j0MihlUlW615vWNfwZz3wWN2S0Nj0BO5y24FPaOe1WAi1Z9fB201j0O8VWOgVYRg8x-yPebW1cmzBZYqBsHkI2G6G6W6S83i1cu6V___m7I6H9vOM9pNtDbSdPbSYzoD3atBJBe6O320_0PWC83WHh__oD2TTsApne0jsLWrgrT_2INXiZt8r8kcvWxe0SCE37tPBmjEYG0203ecjreFlD0AY-khXXjgcFZa190IXd9BOrkl3guMzzraExES_xHXH4WwWDq1xIoUlHJ6Y74~1?from=yandex.ru%3Bsearch%26%23x2F%3B%3Bweb%3B%3B0%3B&amp;q=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%B0%D0%B2%D0%B8%D0%B0%D0%B1%D0%B8%D0%BB%D0%B5%D1%82%D1%8B&amp;etext=2202.wBaB7RlytlP_PRaU6jPhHD2nHBNT_4gSF6009OyJEfpWjUPoA5WrSJAqCfap0m9ReXhoaGRlaWhmYmllemF2ZA.f04b1271668949ea17ffcafcb11c72c2ab6454c5 - <b>Kupić</b> <b>bilet lotniczy</b> online na Tutu.ru! Oficjalna strona! - Bilety na samolot w niskiej cenie! Korzystne rejsy na całym świecie! <b>Kupić</b> bilet online!
http://yabs.yandex.ru/count/WcOejI_zO3C2vH80P1zY-_ryBtnaD0K0CmCnZYWCO000000u109mhiMfd8qUW07CkUOvY07Kyz3GCP01vCcQhIwO0PgqhFigk06qZQ3m6C01NDW1gkAR5E01kAZK4-W1y06W0kYCvAl-Wue5-0Bmwl7WeSQurUK1c0FRc3lkh0Ju1Bpr48W5lFKGa0MxjssW1Qxa1QW5hkG5i0Mkv0Mu1OYr9S05eTt90SW5aFn4YkWqZwuhO8VP1W00012H0000gGVlTvJIyeiV0R07W82O3BW7W0Nn1tjIyvgFUtz-X8A0WSIqXdB92j4AXC7wM-4_u3nZJEzt003CKjw5aRa50DaBw0kyzRAxthu1gGn-j62AsN3cl-WCemBW3OE0W4293eDHIPs09kwAqTFvwFMAi8VO3WAX3zaFW13WszlG4DcTXo9ZI0HkD3-n4YxXl0bOc-q2u1E8jIMW58Yr9QWKkxTjl9wVx0Ne58m2q1Mydf_i1TWLmOhsxAEFlFnZyA0Mq92TW0R95l0_q1Qokzw-0O4N0F0_c1UwdvGKg1S9m1Uq0jWNm8GzcHYW60wm68UTi806q1WX-1Yf-9keZlxncYM06R3qkEBGlP6v890P0Q0PmWEm6RWP____0T8P4dbXOdDVSsLoTcLoBt8qEJSjCkWPWC83y1c0mWE16l__WxZFMxv27W2GPM2khLr2HGBSgKCU4fSjR_apLy29ToVZBSaX0K10aLK2xDc6HsxyWlx3mqOzRTCnV7G7IDvEXnY4YqauFXdHmHcIWrcJNGT1NfMC_8eB8q1m1-WEYbKFtWBTZHwcD4A80G00~1?from=yandex.ru%3Bsearch%26%23x2F%3B%3Bweb%3B%3B0%3B&amp;q=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%B0%D0%B2%D0%B8%D0%B0%D0%B1%D0%B8%D0%BB%D0%B5%D1%82%D1%8B&amp;etext=2202.wBaB7RlytlP_PRaU6jPhHD2nHBNT_4gSF6009OyJEfpWjUPoA5WrSJAqCfap0m9ReXhoaGRlaWhmYmllemF2ZA.f04b1271668949ea17ffcafcb11c72c2ab6454c5 - <b>Kupić</b> <b>bilet lotniczy</b> do / aviasales.ru - Oferujemy: <b>Kupić</b> <b>bilet lotniczy</b> do tutaj. Super oferta! Śpiesz się!
...

Format wyniku:

$related.format('$key\n')

Przykład wyniku:

<b>test</b> tanki online
tanki online
wszystkie <b>testy</b> kropka ru
i exam ru testowanie
<b>test</b> prędkości internetu
<b>tests</b>24.ru
speedtest
online <b>test</b> wydajności pc
testowanie online
my <b>test</b> student jak poznać odpowiedzi
...
wskazówka

Aby automatycznie usuwać tagi HTML w wyniku, należy użyć Konstruktor wyników, wybrać tablicę $related i zastosować Remove HTML tags.

Konkurencja słów kluczowych

Format wyniku:

$query - $totalcount\n

Przykład wyniku:

wszystkie testy kropka ru - 25000000
testowanie online - 13000000
tanki online - 7000000
i exam ru testowanie - 27000000
tests24.ru - 238000000
online test wydajności pc - 16000000
speedtest - 2000000
test prędkości internetu - 16000000
test tanki online - 19000000
my test student jak poznać odpowiedzi - 16000000

Określanie słów kluczowych z błędami

Format wyniku:

$query - $misspell\n

Przykład wyniku:

testowanie online - 0
test prędkości internetu - 0
onlajn testowanie - 1
test predkosci intrnetu - 1

Sprawdzanie indeksowania linków

Format zapytania:

site:$query

Format wyniku:

$query.orig - $totalcount\n

Przykład wyniku:

https://a-parser.com/pages/buy - 2
https://a-parser.com/wiki/parsers - 16
https://trjkjfkdf.bg.ky - 0
https://a-parser.com/resources - 1000
https://a-parser.com/forum - 499
wskazówka

Aby sprawdzić indeksowanie linków, podstawiamy w Formacie zapytania odpowiedni operator: site:.

Format wyniku jest wyprowadzany w postaci "źródłowy url - liczba stron w indeksie".

W rezultacie otrzymujemy adres stron i ich liczbę w indeksie wyszukiwarki.

Jeśli strona jest nieobecna, wynik wyniesie: 0.

Zapisywanie w formacie SQL

Format wyniku:

[%  FOREACH serp;   "INSERT INTO serp VALUES('" _ query _ "', '";   link _ "', '";  anchor _ "')\n"; END  %]

Przykład wyniku:

INSERT INTO serp VALUES('test', 'https://konstruktortestov.ru/popular', 'Popularne online <b>testy</b>')
INSERT INTO serp VALUES('test', 'https://TestoMetrika.com/tests/', 'Online <b>testy</b> c z dokładnym wynikiem od psychologicznych...')
INSERT INTO serp VALUES('test', 'https://ustaliy.ru/testi/', '<b>Testy</b> online: najlepsze, interesujące i popularne')
INSERT INTO serp VALUES('test', 'https://www.SunHome.ru/tests/Interesting_tests', 'Interesujące <b>testy</b>. Przejdź psychologiczne interesujące...')
INSERT INTO serp VALUES('test', 'https://onlinetestpad.com/ru/tests', '<b>Testy</b> online | Online Test Pad')
...

Zrzut wyników do JSON

Ogólny format wyniku:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.totalcount = p1.totalcount;
obj.links = [];

FOREACH item IN p1.serp;
obj.links.push(item.link);
END;

obj.json %]

Tekst początkowy:

[

Tekst końcowy:

]

Przykład wyniku:

[{"totalcount":113000000,"links":["https://TestoMetrika.com/tests/","https://konstruktortestov.ru/popular","https://ustaliy.ru/testi/","https://www.SunHome.ru/tests/Interesting_tests","https://GadalkinDom.ru/test","https://zen.yandex.ru/tes","https://onlinetestpad.com/ru/tests","https://kto-chto-gde.ru/category/tests/","https://psytests.org/top.html","https://MixTests.com/new/","https://TestEdu.ru/test/","https://testserver.pro/index","https://onedio.ru/tests","https://BankTestov.ru/","https://weekend.rambler.ru/tests/","https://edieta.org/testi","https://trikky.ru/?%21","https://BBF.ru/tests/","https://dropi.ru/c/tests/raznie","https://cadelta.ru/tests","https://www.Elle.ru/tests/","https://www.adme.ru/svoboda-psihologiya/polnyj-spisok-psihologicheskih-testov-dlya-poznaniya-sebya-kotorye-mozhno-projti-onlajn-2071715/","https://www.ellegirl.ru/tests/","https://test.tankionline.com/","https://vraki.net/onlajn-testy/","https://Lifehacker.ru/psixologicheskie-testy/","https://iq2u.ru/tests","https://www.b17.ru/tests/","https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D1%81%D1%82","https://gurutest.ru/test/","https://www.psychologies.ru/tests/","https://peopletalk.ru/category/tests/","https://obrazovaka.ru/testy","https://likeyou.io/category/test/","https://ProfTest.me/tests","https://TayniyMir.com/testy","https://psi-technology.net/psytest/","https://www.kp.ru/putevoditel/online-test/","https://tvoytest.ru/","https://twizz.ru/tests/","https://lunanews.net/testy/","https://www.ivi.ru/titr/tests","https://sntch.com/tests/","https://testy.online/","https://videouroki.net/tests/","https://www.speedtest.net/ru","https://rb.ru/tests/","https://aznaetelivy.ru/tests/","https://woman-psy.com/psihologicheskie-testy/testy_na_eruditsiyu_i_znaniya/interesnye_testy/","https://mamochka-club.com/psihologicheskie-testy/interesnye-testy/"]}]
wskazówka

Aby opcje "Tekst początkowy" i "Tekst końcowy" były dostępne w Edytorze zadań, należy aktywować "Więcej opcji".

Przetwarzanie wyników

A-Parser pozwala przetwarzać wyniki bezpośrednio podczas scrapowania, w tej sekcji przedstawiliśmy najpopularniejsze przypadki dla scrapera Yandex

Dodaj usuwanie duplikatów i z listy rozwijanej wybierz $serp.$i.link - Link.

Pobierz przykład

Jak zaimportować przykład do A-Parser

eJx9VE2P2jAQ/SurEYdWQqvQLpfcWFSqVnTZLuyhohy8ZIJcHNu1HQqK+O+dCUkc
ttVeoszze/NtVxCE3/tHhx6Dh3Rdga3/IYXlpzT9IXSGx5u51Ht/86zl7xJhCFY4
j47p6x6LDjLMRakCDCsIJ4vkxBzQOZmxSmZkW2eOJ4fBSfSEHYQqmTZKkgTOb8jE
Drem1CFqRm/QFedr0bEsKsZJT1K2xVC5nHK6BqrJEsBi2AwbxupC95Sx3kGLflbm
RShIgyvxvNm0XvzMuEJw8wZ2dNt0sjtcigOuDB3mUsXIfkbWgyg4yiATAfn0Nq8d
vXt/G47sQWSZDNJooS4RuPcxajOYFLQhLv1yd2fOFAQFrB0weGqzW8OgtmOV3y8a
SHOhPA7BU6ozQYlkr09kQCeCcQvL+RBegdETpeZ4QBVptf/7UqqMFmWSk+hLI/w/
ZfGPj3NXXj8UDfqPoxw6L7V1v/gWVZmZmx1Vnr3UwyxkINtP6+1JISFwj2i7nj1w
zwrjsAvTeG6i092wqHmr4sgmNkJXZVyN5RrcGp3L3aLZ1JZZ6hVdwIWemsIq5Lp0
qRSNxeNTXI+Jb8bARkzwtXhah+DS23sIwRjlvy4vqVonaf3GnGBBnexHbVxuhVLP
T/P+CcSVIuNnmdzdfeDvx3H9P7ogwNqAO0NbRZWdN90r0b0tVf+tSKszjeqXf7yQ
uC6mEEYN8jQHvuB/AYBymo0=
wskazówka

Dodaj usuwanie duplikatów i z listy rozwijanej wybierz $serp.$i.link - Link. Wybierz typ usuwania duplikatów: Domena.

Pobierz przykład

Jak zaimportować przykład do A-Parser

eJx9VE2P2jAQ/SvI4tBKCIV2ueTG0lK1ost2YQ8V5WDIBLk4tms7FBTx33fGCXHY
VnuxPG/mzbddMc/dwT1acOAdS9cVM+HOUrb8nKY/ucrg1JsLdXC9ZyX+lNDbnnuf
dMGFYgNmuHVgibju2KMig5yX0rNBxfzZALrTR7BWZIBKkaFsrD6dLXgrwCF25LIk
s1GSJOzyBo3vYadL5SNn9Ia5pMwNWKJFxjjpUMpQFiqxcEo5XTOsySBAZLYZNBar
2jy71l6jX6TecslSb0u4bDZXL26mbcGpjX0zGjY9bZVLfoSVRmUuZIzsZig98IKi
9DPugbTDPDh6937oT+SBZ5nwQisu6wjU+xi1HhHylUZbvFJ3Z1YXCHkIDgg8X7Nb
s36QY5U/ag5Lcy4dDJjDVGccE8lea4QHy722C0P5IF4xrSZSzuEIMpoF//elkBku
yiRH0teG+H+TxT8+Lm153VA46L8Wc2i9BOl+8T2yMj3XexrZNgyzEB5lNw3bk7IE
wQOAaXv2QD0rtIU2TOO5iY6vxICirYojm5gI3ZRxM5ZbcKdVLvaLZlOvlqVa4VNc
qKkujASqS5VS4lgcPMX1mLhmDCTEBF+TpyEElX59h8xrLd23ZZ2qsQLXb0wJFtjJ
btTG5Y5L+fw072pYXCkUfpXJ3d0HOj+Ow31UI4y4HvYatworu2zaX6L9ZaruX5FW
FxzVb/dYG1FdZIIYNsjhHOiBvwAa7J3h
wskazówka

Wyodrębnianie domen

Dodaj Konstruktor wyników i z listy rozwijanej wybierz źródło: $p1.serp.$i.link - Link. Wybierz typ: Extract Domain.

Pobierz przykład

Jak zaimportować przykład do A-Parser

eJx9VEtv2zAM/isFkcMGBIGzNRff0qwBNmRN17SHIetBi+lAiyxpkpwlMPzfR8qO
7XZDL4b5+Eh+fKiCIPzB3zv0GDyk2wps/IcUNrdp+l3oDE9Xt6fgxC5cfTKFkNrD
GKxwHh0jtgNHMmSYi1IFGFcQzhYpjjmiczJDMsqMZOvM6ewwOIkc6ShUyW7TJEmg
fgMm9rgzpQ49ZvqGu5L64C06hvWIWVI/P4+BKFKNfmlcIZjqyE4nLe/OuBFHfDRk
zKXCXr0k6U4UnHKUiYBsneQx0Lv3k3DiCCLLZJBGC9Vk4Db1WZ+0/B0Za0O+9MuN
WDpTkCpgDMDK86W6LYyiDBSijNhvDQbSXCiPY/BU6lJQIdlriwzoRDBubbke0ldg
9FypFR5R9W4x/k0pVUYznecE+twC/++y/idG3dEbpqKZ/HFUQxclSjfrrz0qMyuz
J+bZT+KtZCEDyX4RB51CQsoDou16dsc9K4zDLk0buc1Om2xR8wL0I5vbXvWCxoux
DJQVeFO6HeXbJuMt0KLbWJw+AG9Pu3HYHEVzEzx158SZ9K17MO0WQk2YndG53K/b
Jb1kLvUjnd9aL0xhFXKfdKkUjdnjQ79uc9+OlYWe8GvwIqbgVl5OkGowyn/ZNNSt
k1TSjAkXNJlh1jbkTij19LAaWqBfURJ+lMn19Qf+fpzF/2mjAcYG3BvaUmLGhNsH
ontZquEzkVY1jf6Xv2+cmBe7kI4a5GmufNt/AaiMmIc=
wskazówka

Zobacz również: Konstruktor wyników

Usuwanie tagów z anchorów i snippetów

Dodaj Konstruktor wyników i z listy rozwijanej wybierz źródło: $p1.serp.$i.anchor - Anchor. Wybierz typ: Remove HTML tags.

Dodaj ponownie Konstruktor wyników i z listy rozwijanej wybierz źródło: $p1.serp.$i.snippet - Snippet. Wybierz typ: Remove HTML tags.

Pobierz przykład

Jak zaimportować przykład do A-Parser

eJyVVN9v2jAQ/lcii4dNQihs5SVvFA11Ey0dtA8T64NHLszDsT3bYaCI/313jknS
rqq0lyi+u++7X59dM8/d3t1bcOAdyzY1M+GfZWz9Kcu+cZXDMVlBqQ+Q3DzcLhLP
dy4prC6Tqdr+1NYlGJOslTCGKIbMcOvAEtmmx4GOHApeSc+GNfMnA5gCSa0VOaBT
5Hg2Vh9PFrwVQEwHLisKG6dpys5vwPgOtrpSvsOM3wiXQu2dAUuwDjFJz09PQ4bd
Y41urm3JaQoDMx7FkbTONT/Ag0ZnISR05jme7nhJKQc590DeURGI3r0f+SMx8DwX
XmjFZZOBxtRlfVTid+hYaYzFXxrEHGeNJg+BgIynS3UbNghnhhRVwH5tMCwruHQw
ZA5LnXMsJH/pER4s99ouDdWD9pppNZVyAQeQXVjgv66EzHGn0wJBnyPw9ZDlPxzn
tr1+KtzJH4s1tCzhdL287VC5Xugddp7/wL6lKIXHs5uFRWcsReMewLQzu6OZldpC
myYyx+wocgOKBNCtbGo607M2nq2lZ6yZ05XdYr5NOtwwFLqhrYabwEg/UXM23Jgb
X0pyW8tPaIzRnqQTISTT1xhdc5/+i/KCOSNmq1Uhdsuo/Es7lXrA675UM10aCTR8
VUmJ2nGw6jQ8dVErdOim+BI8CyloP5d7jWVo6b6sm3kaK7CqyTAW3s8aKbdcysfV
ou9hne7x8L1Kr64+0PfjJPyPGwsjrIedRuljZ9RwfHXal6zuvz1ZfUY9/XL3TRD1
RSFowwE5FAs9GH8BhLW+Jg==
wskazówka

Konstruktor wyników można dodać tyle razy, ile potrzebujesz.

Zobacz również: Konstruktor wyników

Dodaj filtr i z listy rozwijanej wybierz: $serp.$i.link - Link. Wybierz typ: Zawiera ciąg. Następnie w polu Ciąg wpisz cechę filtrowania, na przykład, jeśli chcesz, aby w wynikach zapisywane były tylko linki zawierające .com, wpisz to w polu "Ciąg".

Pobierz przykład

Jak zaimportować przykład do A-Parser

eJx9VE2P2jAQ/SvI4tBKCMFhL7mxqEit6LJd2EOFOHjxJHJxbNd2KCjKf++ME+Kw
rfaW+Xhv3nw4NQvcn/yzAw/Bs2xfMxu/Wca2X7LsJ9cCLqOVVAGc1MXo7TryIX5J
PVJSn9iEWe48OELvByAMCMh5pQKb1CxcLSCnOYNzUgAGpUDbOnO5OkBG8Og7c1VR
2nw2m7HmAxgv4GgqHRJm/kE66fQWHMES4mE2gOSxQwxi9yQ52zPsyaIjNnmYdBm7
Nv1odOBSDyRPj6ZE09ggjUbbg/asORxujH5lXMlprmM7n3ZD7oNbfoadaXVAcuPc
4YmXxD8WPABFp3kk+vR5Gi7EwIWQVJOrtgLtIVV91fJ31KcN5uInTXrlUGvGAkQC
cl5v6vZsHG3quIrYHy2GZTlXHibMo9QVRyHifUTifHgwbhNngP6aGb1Qag1nUCkt
8j9WUgk8mkWOoK8d8P8pm384mr69YSlc+h+HGnqWaD1uvieUMGtTYOfiLS62lAFt
v4yXlLEZOk8Atp/ZE82sNA76Mh1zVx2fjQVNF5ZWtrDJddfG3VrunXhNuSw23dXe
Miu9w7e50UtTWgXUl66UwrV4eEnnsfDdGshIAt+Dl7EEtX57kywYo/y3bSvVOonn
90ACS5zksGpHeeRKvb6shxGWTiqekyfaI95pYfCCsIvm0P8d+l9MPfxHZHWDa/nl
n9sk6oFS0IfD8PElzZu/Z6ed/A==
wskazówka

Zobacz również: Filtry wyników

Możliwe ustawienia

Nazwa parametruWartość domyślnaOpis
AntiGate presetdefaultWybór presetu Util::AntiGateUtil::AntiGate, więcej o ustawieniu tutaj
AntiGate preset for old captchadefaultPodobnie jak AntiGate preset, ale używane tylko dla zwykłych (starych, w formie jednego obrazka) captcha. Jeśli nie wybrano tutaj presetu, dla takich captcha zostanie użyty preset wybrany w AntiGate preset.
Experimental img captcha max count5Maksymalna liczba ponownych obrazków captcha na próbę
Preffered captcha typeClickWybór preferowanego rodzaju captcha: Click lub Puzzle
EngineHTTP (Fast, JavaScript Disabled)Pozwala wybrać silnik: HTTP (szybszy, ale większe prawdopodobieństwo captcha) lub przeglądarka (wolniejszy, ale mniejsze prawdopodobieństwo captcha)
DeviceModern desktop computer (Windows 10, Chrome 84)Wybór typu wyników (Desktop computer / Mobile device)
Pages count5Liczba stron do scrapowania (od 1 do 25)
Sort serp by dateSortowanie wyników według daty
Serp timeAll timeOkres wyszukiwania
Yandex domainwww.yandex.ruDomena Yandex do scrapowania, obsługiwane są wszystkie domeny (.ru, .ua, .by, .kz, .com.tr, .com). Od wersji 1.1.345 wybierana automatycznie w zależności od wybranego regionu.
Region of serp (lr=)MoskwaWybór regionu wyszukiwania (parametr lr=)
Custom region IDMożliwość podania id regionu nieobecnego na liście wyboru. Ta opcja ma priorytet nad opcją Region of serp (lr=). Należy koniecznie ustawić odpowiednią domenę w Yandex domain.
Search sites from (rstr=)Not setWybór powiązania regionalnego witryn (parametr rstr=)
LanguageAnyJęzyk wyników wyszukiwania (Russian, English, Belorussian, French, German, Indonesian, Kazakh, Tatar, Turkish, Ukrainian)
Parse not foundOkreśla, czy scrapować wyniki, jeśli dla danego zapytania znaleziono zero wyników i zaproponowano wyniki dla innego zapytania
Not personalizedPersonalizacja wyszukiwania. Więcej tutaj
Filter pagesModerate filterFiltrowanie wyników z niepożądanych treści (Family search / Moderate filter / Do not filter)
Use AccountsPraca z istniejącymi kontami w pliku files/SE-Yandex/accounts.txt. SE::Yandex::RegisterSE::Yandex::Register - Pozwala rejestrować konta w Yandex
Remove bad accountsUsuwanie nieprawidłowych kont
Quick answers count0Maksymalna liczba pytań-odpowiedzi (Szybkie odpowiedzi) dla każdego zapytania, które scraper powinien zebrać
Parse generative answerCzy scrapować odpowiedź generatywną (dodaje to dodatkowe podzapytanie i odpowiednio spowalnia ogólną pracę)
AccountsOnly from "accounts.txt"Wybór metody pracy z kontami: Always auto register - zawsze automatycznie rejestruj konta "w locie", wymaga wybrania skonfigurowanego presetu w parametrze SE::Yandex::Register preset. Auto register if no more in "accounts.txt" - najpierw używane są istniejące konta z accounts.txt, a jeśli się skończą - używana jest automatyczna rejestracja "na lecie", dla której należy wybrać skonfigurowany preset w parametrze SE::Yandex::Register preset. Only from "accounts.txt" - używaj tylko istniejących kont z accounts.txt, a jeśli się skończą - czekaj określony czas (parametr Wait new accounts in "accounts.txt") na pojawienie się nowych. Only by session_id from "accounts.txt" - autoryzacja przez ciasteczka.
Remove bad accountsAlways, except wrong login/passwordAutomatyczne usuwanie "złych" kont: Always - zawsze usuwaj. Always, except wrong login/password - usuwaj zawsze, z wyjątkiem przypadków, gdy Yandex poinformował o błędnym loginie/haśle. Wynika to z faktu, że taki komunikat Yandex może podawać przy blokadzie IP dla całkowicie sprawnego konta, dlatego opcjonalnie można zostawiać takie konta do ponownego użycia. Never - nigdy nie usuwaj. Niezależnie od wybranego wariantu, przy błędach proxy/przeglądarki konta nie są usuwane
Use sessionsUżywanie sesji
Wait new accounts in "accounts.txt"0Czas oczekiwania na pojawienie się nowych kont w accounts.txt
SE::Yandex::Register presetdefaultWybór presetu ustawień dla SE::Yandex::RegisterSE::Yandex::Register
Force neuroWymuszone włączenie odpowiedzi neuro, analogicznie do ręcznego przełączania między "Wyszukiwaniem" a "Wyszukiwaniem z Alisą"