Ga naar de hoofdinhoud

SE::Yandex - Scraper voor Yandex zoekresultaten

Yandex

Overzicht van de scraper

De scraper voor de zoekresultaten van Yandex behoort met recht tot de top 5 van meest gevraagde scrapers. Een van de belangrijkste concurrentievoordelen van onze scraper is de enorme prestatie. Dankzij de multithreading van A-Parser kan de verwerkingssnelheid oplopen tot 3000-7000 verzoeken per minuut, wat gemiddeld tot 5.000.000 links per minuut oplevert, terwijl het verbruik van resources minimaal is; elke kantoor- of thuiscomputer, evenals elke instap-VDS, is geschikt voor gebruik. Onze scraper ondersteunt alle zoekoperators van Yandex, wat de mogelijkheden voor gegevensextractie aanzienlijk uitbreidt. De stabiliteit en continuïteit van de gegevensextractie uit de zoekresultaten wordt gewaarborgd door captcha-herkenning via AntiCaptcha of elke andere ondersteunde API (Anti-Captcha, RuCaptcha, CapMonster.cloud, 2captcha en andere).

De flexibiliteit in instellingen maakt het mogelijk om het type resultaten (mobiel/desktop), regio, taal, sortering op datum en nog veel meer op te geven. De functionaliteit van A-Parser maakt het mogelijk om scraper-instellingen op te slaan voor toekomstig gebruik (presets), schema's voor gegevensextractie in te stellen en nog veel meer. U kunt automatische query-vermenigvuldiging gebruiken, sub-query's uit bestanden invoegen, alfanumerieke combinaties en lijsten doorlopen om het maximaal mogelijke aantal resultaten te verkrijgen.

Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit, waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt exporteren, waaronder JSON, SQL en CSV.

Toepassingen van de scraper

Verzamelde gegevens

Verzamelde gegevens
  • Aantal resultaten per query
  • Links, ankers en snippets uit de zoekresultaten
    • Er wordt ook informatie verzameld over vlaggen van elk resultaat; momenteel worden vlaggen ondersteund zoals: Date, Image Preview, Video, Rich snippet, Featured snippet
  • Tijdstip van eerste en laatste caching (alleen voor desktop-resultaten)
  • Lijst met gerelateerde zoekwoorden (Related keywords)
  • Bepaalt of Yandex de query als een typefout heeft beschouwd of niet
  • Scrapen van de link naar de cache van de pagina (alleen voor desktop-resultaten)
  • Lijst met namen van site-pictogrammen en hun typen, indien aanwezig (waaronder Turbo)
  • Bovenste, middelste en onderste advertentieblokken van alle pagina's
    • Link, zichtbare link, anker, snippet en domein
    • Extra links en ankers
    • Metrostation
  • Ontbrekende woorden (woorden die onder elk resultaat in de zoekresultaten kunnen verschijnen met de melding "Niet gevonden")
  • Lijst met snelle antwoorden (Quick answers): vragen, antwoorden, links naar bronnen (wordt ingeschakeld met een aparte optie Parse Quick answers)
  • AI-antwoord (Zoeken met Alice), het type en de lijst met bronnen

Mogelijkheden

  • Keuze van type resultaten: mobiel/desktop
  • Ondersteuning voor alle Yandex zoekoperators (site:, lang:, enz.)
  • Scraapt het maximale aantal resultaten dat Yandex geeft - 25 pagina's van 50 elementen per resultatenpagina
  • Mogelijkheid om naar gerelateerde zoekwoorden te zoeken
  • Ondersteunt keuze van zoekregio en domein
  • Mogelijkheid tot sorteren van resultaten op datum
  • Scraapt de indexeringstijd van de pagina, met de mogelijkheid om resultaten op deze parameter te filteren
  • Optie voor browser-emulatie (maakt hoge scrapingsnelheid en laag verbruik van captcha's mogelijk)
  • Mogelijkheid om captcha te omzeilen met behulp van de AntiCaptcha-service of een andere ondersteunde API (het wordt aanbevolen om de parameter is_russian in de antigate-instellingen in te schakelen)
  • Mogelijkheid om het aantal snelle antwoorden (Quick answers) op te geven dat de scraper moet verzamelen door diep op elke vraag te klikken

img

De volgende scrapers werken op basis van de Yandex-scraper:

Gebruiksscenario's

  • Verzamelen van linkdatabases - voor A-Poster, XRumer, AllSubmitter, enz.
  • Beoordeling van concurrentie voor zoekwoorden
  • Zoeken naar backlinks (vermeldingen) van websites
  • Controleren van website-indexering
  • Zoeken naar kwetsbare websites
  • Alle andere varianten die het scrapen van Yandex in een of andere vorm inhouden

Query's

Als query's moeten zoektermen worden opgegeven, op precies dezelfde manier als wanneer u ze rechtstreeks in het zoekformulier van Yandex zou invoeren, bijvoorbeeld:

ramen Moskou
lang:en windows Moscow
url:a-parser.com
site:a-parser.com
"a-parser.com"

Query-substituties

U kunt ingebouwde macro's gebruiken voor query-vermenigvuldiging. Stel dat we een zeer grote database met forums willen verkrijgen, dan geven we enkele basisquery's in verschillende talen op:

forum
forum
foro
论坛

In het query-formaat geven we een bereik aan van a tot zzzz; deze methode maakt het mogelijk om de zoekresultaten maximaal te roteren en veel nieuwe unieke resultaten te verkrijgen:

$query {az:a:zzzz}

Deze macro zal 475254 extra query's maken voor elke oorspronkelijke zoekopdracht, wat in totaal 4 x 475254 = 1901016 zoekopdrachten oplevert. Dit is een indrukwekkend getal, maar geen enkel probleem voor A-Parser. Bij een snelheid van 2000 verzoeken per minuut wordt een dergelijke taak in slechts 16 uur verwerkt.

Gebruik van operators

U kunt zoekoperators in het query-formaat gebruiken, zodat deze automatisch aan elke query uit uw lijst worden toegevoegd:

site:$query

Accounts

Voor de werking van de scraper SE::YandexSE::Yandex kunnen Yandex-accounts nodig zijn. Accounts kunnen worden geregistreerd met de scraper SE::Yandex::RegisterSE::Yandex::Register of voeg simpelweg bestaande accounts toe aan het bestand files/SE-Yandex/accounts.txt in het ondersteunde formaat.

Of u kunt accountregistratie "on the fly" inschakelen.

Om te werken met autorisatie via sessie, moet de gegevensregel in dit formaat zijn: [email protected];MAQT78Z31Rinx4H;{"answer":"qmfhsxdcrk","proxy":"185.104.120.45:3128","session_id":"3:1748440908.5.0.1748440867459:ZXBxpg:47e4.1.2:1|2191075974.41.2.2:41.3:1748440908|3:10308131.797655.5pfkoRZWgLJGntKTlcUhYdysNfk"}

Voorbeelden van resultaatuitvoer

A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden uitgevoerd, evenals in gestructureerde formaten zoals CSV of JSON

Export van een lijst met links

Resultaatformaat:

$serp.format('$link\n')

Voorbeeld van resultaat:

https://TestoMetrika.com/tests/
https://onlinetestpad.com/ru/tests
https://www.speedtest.net/
https://ustaliy.ru/testi/
https://yandex.ru/internet/
https://konstruktortestov.ru/popular
https://TestEdu.ru/test/
https://kto-chto-gde.ru/category/tests/
https://weekend.rambler.ru/tests/
https://GadalkinDom.ru/test
...

Resultaatformaat:

[% FOREACH item IN serp;    loop.count _ ' - ' _ item.link _ ' - ' _ item.anchor _ ' - ' _ item.snippet _ "\n"; END %]

Voorbeeld van resultaat:

1 - http://forum.r-rp.ru/ - <b>forum</b>.r-rp.ru - 
2 - https://forum.arizona-rp.com/ - <div class=a11y-hidden>Webresultaat met extra links</div><b>Forum</b> – Arizona Role Play - Menu. Home. <b>Forums</b>. Nieuwe berichten. Wat is er nieuw? Nieuwe berichten. Gebruikers. Huidige bezoekers. <b>Forums</b>. Inloggen. ... Statistieken van het <b>forum</b>. Thema's. 1,247,176. Berichten. 5,225,340. Gebruikers. 623,675.
3 - https://ru.wikipedia.org/wiki/%D0%A4%D0%BE%D1%80%D1%83%D0%BC - <b>Forum</b> — Wikipedia - <b>Fórum</b> (lat. <b>forum</b> — arch. voorportaal van een graf; platform in een pers voor te verwerken druiven; marktplein, stadsmarkt; marktplaats, centraal plein):
4 - https://zen.yandex.ru/media/propromotion/chto-takoe-forum-i-vse-chto-s-nim-sviazano-5d65164c1d656a00ad52ba30 - Wat is een <b>forum</b> en alles wat ermee te maken heeft | Creatief... - Vandaag gaan we het hebben over wat een <b>forum</b> is en alles wat ermee te maken heeft in begrijpelijke en eenvoudige woorden. Ieder van ons streeft ernaar iemand te vinden met wie men kan communiceren over gemeenschappelijke interesses, ervaringen kan delen, advies kan geven. In de moderne wereld is dit allemaal mogelijk geworden zonder het huis te verlaten. Juist een van de vormen van zo'n virtueel contact is een web-<b>forum</b>.
5 - https://forum.vimeworld.ru/ - VimeWorld - <b>Forum</b> - <b>Forum</b> van het project van ideale Minecraft-gameservers - VimeWorld...
...

De ingebouwde utility $tools.CSVLine maakt het mogelijk om correcte tabeldocumenten te maken, klaar voor import in Excel of Google Sheets.

Algemeen resultaatformaat:

[%  FOREACH i IN p1.serp;    tools.CSVline(i.link, i.anchor, i.snippet); END  %]

Bestandsnaam:

$datefile.format().csv

Begintekst:

Link,Anker,Snippet

tip

In het Algemeen resultaatformaat wordt de sjabloon-engine Template Toolkit toegepast om de array $serp in een lus uit te voeren FOREACH.

In de bestandsnaam van de resultaten hoeft u alleen de bestandsextensie te wijzigen naar csv.

Om de optie "Begintekst" beschikbaar te maken in de Taakeditor, moet u "Meer opties" activeren. In "Begintekst" schrijft u de kolomnamen gescheiden door een komma en maakt u de tweede regel leeg.

Uitvoer van advertentieblokken

Resultaatformaat:

$ads.format('$link - $anchor - $snippet\n')

Voorbeeld van resultaat:

http://yabs.yandex.ru/count/WcOejI_zO3C2vH80P1zY-_ryBtnaD0K0CmCnZYWCO000000u109mhiMfd8qUW07CkUOvY07Kyz3GCP01vCcQhIwO0PgqhFigk06qZQ3m6C01NDW1gkAR5E01kAZK4-W1y06W0kYCvAl-Wue5-0Bmwl7WeSQurUK1c0FRc3lkh0Ju1Bpr48W5lFKGa0MxjssW1Qxa1QW5hkG5i0Mkv0Mu1OYr9S05eTt90SW5aFn4YkWqZwuhO8VP1W00012H0000gGVlTvJIyeiV0R07W82O3BW7W0Nn1tjIyvgFUtz-X8A0WSIqXdB92j4AXC7wM-4_u3nZJEzt003CKjw5aRa50DaBw0kyzRAxthu1gGn-j62AsN3cl-WCemBW3OE0W4293eDHIPs09kwAqTFvwFMAi8VO3WAX3zaFW13WszlG4DcTXo9ZI0HkD3-n4YxXl0bOc-q2u1E8jIMW58Yr9QWKkxTjl9wVx0Ne58m2q1Mydf_i1TWLmOhsxAEFlFnZyA0Mq92TW0R95l0_q1Qokzw-0O4N0F0_c1UwdvGKg1S9m1Uq0jWNm8GzcHYW60wm68UTi806q1WX-1Yf-9keZlxncYM06R3qkEBGlP6v890P0Q0PmWEm6RWP____0T8P4dbXOdDVSsLoTcLoBt8qEJSjCkWPWC83y1c0mWE16l__WxZFMxv27W2GPM2khLr2HGBSgKCU4fSjR_apLy29ToVZBSaX0K10aLK2xDc6HsxyWlx3mqOzRTCnV7G7IDvEXnY4YqauFXdHmHcIWrcJNGT1NfMC_8eB8q1m1-WEYbKFtWBTZHwcD4A80G00~1?from=yandex.ru%3Bsearch%26%23x2F%3B%3Bweb%3B%3B0%3B&amp;q=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%B0%D0%B2%D0%B8%D0%B0%D0%B1%D0%B8%D0%BB%D0%B5%D1%82%D1%8B&amp;etext=2202.wBaB7RlytlP_PRaU6jPhHD2nHBNT_4gSF6009OyJEfpWjUPoA5WrSJAqCfap0m9ReXhoaGRlaWhmYmllemF2ZA.f04b1271668949ea17ffcafcb11c72c2ab6454c5 - <b>Koop</b> <b>vliegticket</b> naar / aviasales.ru - Wij bieden: <b>Koop</b> <b>vliegticket</b> naar hier. Superaanbieding! Haast u!
http://yabs.yandex.ru/count/WgGejI_zO5e2rHG092HY-_ryhkYFF0K0MWCnZYWCO000000u109mhDZpa8WGW07ZZm680U2f-wrQa07AywxRoe20W0AO0ShphjjAk06oWAxe8C01NDW1e8MobW7W0TJCXm_e0O01c0BImFq2e0BuQjW20l02g_w3YWNu0l3gyU2XnhZLvG600vF6eiSFY0FStR-O39W3cyKxYga3-0JJpWI81TFE1905Z-zGe0MPj06e1PMM0R05bPO1k0NInnJ01TF1ZG781PNz8uheD8-kAs27sGO0000GaG000Aa7xtUKqlAB7m6m1u20c0ou1u05yGTxKlEQZtj_VeI2l3M02W712l_aZtPQIU8_oGeJ5NRdMhxJFweB4E0yOqplTm00p5BUXP6v1G3P2-WBqyu4y0i6Y0ookzw-0QaCu_jL-Yu3zB_e3AC2u0s3W810YGwgO5HI9w3dYj7J-UZrYh27s0u2-0x7dPAe2Q4FFGhNet0zzZ_P3_0_W13GmC4Rm92GPpgqxC9xJZC_iHAuM7p6uhZj0k0JqiSKe1JInnIe58_lKB0KYw381hWKmAo0jQI04TWK-FpP_WNe58m2q1Nu_Dd-1TWLmOhsxAEFlFnZyA0Mq92TW0R95j0MihlUlW615vWNfwZz3wWN2S0Nj0BO5y24FPaOe1WAi1Z9fB201j0O8VWOgVYRg8x-yPebW1cmzBZYqBsHkI2G6G6W6S83i1cu6V___m7I6H9vOM9pNtDbSdPbSYzoD3atBJBe6O320_0PWC83WHh__oD2TTsApne0jsLWrgrT_2INXiZt8r8kcvWxe0SCE37tPBmjEYG0203ecjreFlD0AY-khXXjgcFZa190IXd9BOrkl3guMzzraExES_xHXH4WwWDq1xIoUlHJ6Y74~1?from=yandex.ru%3Bsearch%26%23x2F%3B%3Bweb%3B%3B0%3B&amp;q=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%B0%D0%B2%D0%B8%D0%B0%D0%B1%D0%B8%D0%BB%D0%B5%D1%82%D1%8B&amp;etext=2202.wBaB7RlytlP_PRaU6jPhHD2nHBNT_4gSF6009OyJEfpWjUPoA5WrSJAqCfap0m9ReXhoaGRlaWhmYmllemF2ZA.f04b1271668949ea17ffcafcb11c72c2ab6454c5 - <b>Koop</b> <b>vliegticket</b> online op Tutu.ru! Officiële site! - Vliegtickets voor een lage prijs! Voordelige vluchten over de hele wereld! <b>Koop</b> ticket online!
http://yabs.yandex.ru/count/WcOejI_zO3C2vH80P1zY-_ryBtnaD0K0CmCnZYWCO000000u109mhiMfd8qUW07CkUOvY07Kyz3GCP01vCcQhIwO0PgqhFigk06qZQ3m6C01NDW1gkAR5E01kAZK4-W1y06W0kYCvAl-Wue5-0Bmwl7WeSQurUK1c0FRc3lkh0Ju1Bpr48W5lFKGa0MxjssW1Qxa1QW5hkG5i0Mkv0Mu1OYr9S05eTt90SW5aFn4YkWqZwuhO8VP1W00012H0000gGVlTvJIyeiV0R07W82O3BW7W0Nn1tjIyvgFUtz-X8A0WSIqXdB92j4AXC7wM-4_u3nZJEzt003CKjw5aRa50DaBw0kyzRAxthu1gGn-j62AsN3cl-WCemBW3OE0W4293eDHIPs09kwAqTFvwFMAi8VO3WAX3zaFW13WszlG4DcTXo9ZI0HkD3-n4YxXl0bOc-q2u1E8jIMW58Yr9QWKkxTjl9wVx0Ne58m2q1Mydf_i1TWLmOhsxAEFlFnZyA0Mq92TW0R95l0_q1Qokzw-0O4N0F0_c1UwdvGKg1S9m1Uq0jWNm8GzcHYW60wm68UTi806q1WX-1Yf-9keZlxncYM06R3qkEBGlP6v890P0Q0PmWEm6RWP____0T8P4dbXOdDVSsLoTcLoBt8qEJSjCkWPWC83y1c0mWE16l__WxZFMxv27W2GPM2khLr2HGBSgKCU4fSjR_apLy29ToVZBSaX0K10aLK2xDc6HsxyWlx3mqOzRTCnV7G7IDvEXnY4YqauFXdHmHcIWrcJNGT1NfMC_8eB8q1m1-WEYbKFtWBTZHwcD4A80G00~1?from=yandex.ru%3Bsearch%26%23x2F%3B%3Bweb%3B%3B0%3B&amp;q=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%B0%D0%B2%D0%B8%D0%B0%D0%B1%D0%B8%D0%BB%D0%B5%D1%82%D1%8B&amp;etext=2202.wBaB7RlytlP_PRaU6jPhHD2nHBNT_4gSF6009OyJEfpWjUPoA5WrSJAqCfap0m9ReXhoaGRlaWhmYmllemF2ZA.f04b1271668949ea17ffcafcb11c72c2ab6454c5 - <b>Koop</b> <b>vliegticket</b> naar / aviasales.ru - Wij bieden: <b>Koop</b> <b>vliegticket</b> naar hier. Superaanbieding! Haast u!
...

Resultaatformaat:

$related.format('$key\n')

Voorbeeld van resultaat:

<b>test</b> tanki online
tanki online
alle <b>tests</b> punt ru
i exam ru testen
<b>test</b> internetsnelheid
<b>tests</b>24.ru
speedtest
online <b>test</b> pc-prestaties
online testen
my <b>test</b> student hoe antwoorden te weten komen
...
tip

Om HTML-tags automatisch uit het resultaat te verwijderen, moet u de Resultatenbouwer, gebruiken, de array $related selecteren en Remove HTML tags.

Concurrentie van zoekwoorden

Resultaatformaat:

$query - $totalcount\n

Voorbeeld van resultaat:

vsetesty punt ru - 25000000
online testen - 13000000
tanki online - 7000000
i exam ru testen - 27000000
tests24.ru - 238000000
online pc-prestatietest - 16000000
speedtest - 2000000
internetsnelheidstest - 16000000
test tanki online - 19000000
my test student hoe antwoorden te vinden - 16000000

Identificatie van zoekwoorden met fouten

Resultaatformaat:

$query - $misspell\n

Voorbeeld van resultaat:

online testen - 0
internetsnelheidstest - 0
onlijn tasten - 1
test snolheid intrnet - 1

Controle van link-indexering

Query-formaat:

site:$query

Resultaatformaat:

$query.orig - $totalcount\n

Voorbeeld van resultaat:

https://a-parser.com/pages/buy - 2
https://a-parser.com/wiki/parsers - 16
https://trjkjfkdf.bg.ky - 0
https://a-parser.com/resources - 1000
https://a-parser.com/forum - 499
tip

Om de indexering van links te controleren, vult u de bijbehorende operator in het Query-formaat in: site:.

Het resultaatformaat wordt weergegeven als "oorspronkelijke url - aantal pagina's in index".

Als resultaat krijgt u het adres van de pagina's en hun aantal in de index van de zoekmachine.

Als de pagina ontbreekt, is het resultaat: 0.

Opslaan in SQL-formaat

Resultaatformaat:

[%  FOREACH serp;   "INSERT INTO serp VALUES('" _ query _ "', '";   link _ "', '";  anchor _ "')\n"; END  %]

Voorbeeld van resultaat:

INSERT INTO serp VALUES('test', 'https://konstruktortestov.ru/popular', 'Populaire online <b>tests</b>')
INSERT INTO serp VALUES('test', 'https://TestoMetrika.com/tests/', 'Online <b>tests</b> c met nauwkeurig resultaat van psychologische...')
INSERT INTO serp VALUES('test', 'https://ustaliy.ru/testi/', '<b>Tests</b> online: de beste, interessante en populaire')
INSERT INTO serp VALUES('test', 'https://www.SunHome.ru/tests/Interesting_tests', 'Interessante <b>tests</b>. Doe psychologische interessante...')
INSERT INTO serp VALUES('test', 'https://onlinetestpad.com/ru/tests', '<b>Tests</b> online | Online Test Pad')
...

Resultaten dumpen naar JSON

Algemeen resultaatformaat:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.totalcount = p1.totalcount;
obj.links = [];

FOREACH item IN p1.serp;
obj.links.push(item.link);
END;

obj.json %]

Begintekst:

[

Eindtekst:

]

Voorbeeld van resultaat:

[{"totalcount":113000000,"links":["https://TestoMetrika.com/tests/","https://konstruktortestov.ru/popular","https://ustaliy.ru/testi/","https://www.SunHome.ru/tests/Interesting_tests","https://GadalkinDom.ru/test","https://zen.yandex.ru/tes","https://onlinetestpad.com/ru/tests","https://kto-chto-gde.ru/category/tests/","https://psytests.org/top.html","https://MixTests.com/new/","https://TestEdu.ru/test/","https://testserver.pro/index","https://onedio.ru/tests","https://BankTestov.ru/","https://weekend.rambler.ru/tests/","https://edieta.org/testi","https://trikky.ru/?%21","https://BBF.ru/tests/","https://dropi.ru/c/tests/raznie","https://cadelta.ru/tests","https://www.Elle.ru/tests/","https://www.adme.ru/svoboda-psihologiya/polnyj-spisok-psihologicheskih-testov-dlya-poznaniya-sebya-kotorye-mozhno-projti-onlajn-2071715/","https://www.ellegirl.ru/tests/","https://test.tankionline.com/","https://vraki.net/onlajn-testy/","https://Lifehacker.ru/psixologicheskie-testy/","https://iq2u.ru/tests","https://www.b17.ru/tests/","https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D1%81%D1%82","https://gurutest.ru/test/","https://www.psychologies.ru/tests/","https://peopletalk.ru/category/tests/","https://obrazovaka.ru/testy","https://likeyou.io/category/test/","https://ProfTest.me/tests","https://TayniyMir.com/testy","https://psi-technology.net/psytest/","https://www.kp.ru/putevoditel/online-test/","https://tvoytest.ru/","https://twizz.ru/tests/","https://lunanews.net/testy/","https://www.ivi.ru/titr/tests","https://sntch.com/tests/","https://testy.online/","https://videouroki.net/tests/","https://www.speedtest.net/ru","https://rb.ru/tests/","https://aznaetelivy.ru/tests/","https://woman-psy.com/psihologicheskie-testy/testy_na_eruditsiyu_i_znaniya/interesnye_testy/","https://mamochka-club.com/psihologicheskie-testy/interesnye-testy/"]}]
tip

Om de opties "Begintekst" en "Eindtekst" beschikbaar te maken in de Taakeditor, moet u "Meer opties" activeren.

Verwerking van resultaten

A-Parser maakt het mogelijk om resultaten direct tijdens het scrapen te verwerken. In deze sectie hebben we de meest populaire cases voor de Yandex-scraper opgenomen.

Voeg deduplicatie toe en kies in de vervolgkeuzelijst voor $serp.$i.link - Link.

Voorbeeld downloaden

Hoe een voorbeeld in A-Parser te importeren

eJx9VE2P2jAQ/SurEYdWQqvQLpfcWFSqVnTZLuyhohy8ZIJcHNu1HQqK+O+dCUkc
ttVeoszze/NtVxCE3/tHhx6Dh3Rdga3/IYXlpzT9IXSGx5u51Ht/86zl7xJhCFY4
j47p6x6LDjLMRakCDCsIJ4vkxBzQOZmxSmZkW2eOJ4fBSfSEHYQqmTZKkgTOb8jE
Drem1CFqRm/QFedr0bEsKsZJT1K2xVC5nHK6BqrJEsBi2AwbxupC95Sx3kGLflbm
RShIgyvxvNm0XvzMuEJw8wZ2dNt0sjtcigOuDB3mUsXIfkbWgyg4yiATAfn0Nq8d
vXt/G47sQWSZDNJooS4RuPcxajOYFLQhLv1yd2fOFAQFrB0weGqzW8OgtmOV3y8a
SHOhPA7BU6ozQYlkr09kQCeCcQvL+RBegdETpeZ4QBVptf/7UqqMFmWSk+hLI/w/
ZfGPj3NXXj8UDfqPoxw6L7V1v/gWVZmZmx1Vnr3UwyxkINtP6+1JISFwj2i7nj1w
zwrjsAvTeG6i092wqHmr4sgmNkJXZVyN5RrcGp3L3aLZ1JZZ6hVdwIWemsIq5Lp0
qRSNxeNTXI+Jb8bARkzwtXhah+DS23sIwRjlvy4vqVonaf3GnGBBnexHbVxuhVLP
T/P+CcSVIuNnmdzdfeDvx3H9P7ogwNqAO0NbRZWdN90r0b0tVf+tSKszjeqXf7yQ
uC6mEEYN8jQHvuB/AYBymo0=

Voeg deduplicatie toe en kies in de vervolgkeuzelijst voor $serp.$i.link - Link. Kies het type deduplicatie: Domein.

Voorbeeld downloaden

Hoe een voorbeeld in A-Parser te importeren

eJx9VE2P2jAQ/SvI4tBKCIV2ueTG0lK1ost2YQ8V5WDIBLk4tms7FBTx33fGCXHY
VnuxPG/mzbddMc/dwT1acOAdS9cVM+HOUrb8nKY/ucrg1JsLdXC9ZyX+lNDbnnuf
dMGFYgNmuHVgibju2KMig5yX0rNBxfzZALrTR7BWZIBKkaFsrD6dLXgrwCF25LIk
s1GSJOzyBo3vYadL5SNn9Ia5pMwNWKJFxjjpUMpQFiqxcEo5XTOsySBAZLYZNBar
2jy71l6jX6TecslSb0u4bDZXL26mbcGpjX0zGjY9bZVLfoSVRmUuZIzsZig98IKi
9DPugbTDPDh6937oT+SBZ5nwQisu6wjU+xi1HhHylUZbvFJ3Z1YXCHkIDgg8X7Nb
s36QY5U/ag5Lcy4dDJjDVGccE8lea4QHy722C0P5IF4xrSZSzuEIMpoF//elkBku
yiRH0teG+H+TxT8+Lm153VA46L8Wc2i9BOl+8T2yMj3XexrZNgyzEB5lNw3bk7IE
wQOAaXv2QD0rtIU2TOO5iY6vxICirYojm5gI3ZRxM5ZbcKdVLvaLZlOvlqVa4VNc
qKkujASqS5VS4lgcPMX1mLhmDCTEBF+TpyEElX59h8xrLd23ZZ2qsQLXb0wJFtjJ
btTG5Y5L+fw072pYXCkUfpXJ3d0HOj+Ow31UI4y4HvYatworu2zaX6L9ZaruX5FW
FxzVb/dYG1FdZIIYNsjhHOiBvwAa7J3h

Domeinen extraheren

Voeg de Resultatenbouwer toe en kies in de vervolgkeuzelijst de bron: $p1.serp.$i.link - Link. Kies type: Extract Domain.

Voorbeeld downloaden

Hoe een voorbeeld in A-Parser te importeren

eJx9VEtv2zAM/isFkcMGBIGzNRff0qwBNmRN17SHIetBi+lAiyxpkpwlMPzfR8qO
7XZDL4b5+Eh+fKiCIPzB3zv0GDyk2wps/IcUNrdp+l3oDE9Xt6fgxC5cfTKFkNrD
GKxwHh0jtgNHMmSYi1IFGFcQzhYpjjmiczJDMsqMZOvM6ewwOIkc6ShUyW7TJEmg
fgMm9rgzpQ49ZvqGu5L64C06hvWIWVI/P4+BKFKNfmlcIZjqyE4nLe/OuBFHfDRk
zKXCXr0k6U4UnHKUiYBsneQx0Lv3k3DiCCLLZJBGC9Vk4Db1WZ+0/B0Za0O+9MuN
WDpTkCpgDMDK86W6LYyiDBSijNhvDQbSXCiPY/BU6lJQIdlriwzoRDBubbke0ldg
9FypFR5R9W4x/k0pVUYznecE+twC/++y/idG3dEbpqKZ/HFUQxclSjfrrz0qMyuz
J+bZT+KtZCEDyX4RB51CQsoDou16dsc9K4zDLk0buc1Om2xR8wL0I5vbXvWCxoux
DJQVeFO6HeXbJuMt0KLbWJw+AG9Pu3HYHEVzEzx158SZ9K17MO0WQk2YndG53K/b
Jb1kLvUjnd9aL0xhFXKfdKkUjdnjQ79uc9+OlYWe8GvwIqbgVl5OkGowyn/ZNNSt
k1TSjAkXNJlh1jbkTij19LAaWqBfURJ+lMn19Qf+fpzF/2mjAcYG3BvaUmLGhNsH
ontZquEzkVY1jf6Xv2+cmBe7kI4a5GmufNt/AaiMmIc=
tip

Tags verwijderen uit ankers en snippets

Voeg de Resultatenbouwer toe en kies in de vervolgkeuzelijst de bron: $p1.serp.$i.anchor - Anchor. Kies type: Remove HTML tags.

Voeg opnieuw de Resultatenbouwer toe en kies in de vervolgkeuzelijst de bron: $p1.serp.$i.snippet - Snippet. Kies type: Remove HTML tags.

Voorbeeld downloaden

Hoe een voorbeeld in A-Parser te importeren

eJyVVN9v2jAQ/lcii4dNQihs5SVvFA11Ey0dtA8T64NHLszDsT3bYaCI/313jknS
rqq0lyi+u++7X59dM8/d3t1bcOAdyzY1M+GfZWz9Kcu+cZXDMVlBqQ+Q3DzcLhLP
dy4prC6Tqdr+1NYlGJOslTCGKIbMcOvAEtmmx4GOHApeSc+GNfMnA5gCSa0VOaBT
5Hg2Vh9PFrwVQEwHLisKG6dpys5vwPgOtrpSvsOM3wiXQu2dAUuwDjFJz09PQ4bd
Y41urm3JaQoDMx7FkbTONT/Ag0ZnISR05jme7nhJKQc590DeURGI3r0f+SMx8DwX
XmjFZZOBxtRlfVTid+hYaYzFXxrEHGeNJg+BgIynS3UbNghnhhRVwH5tMCwruHQw
ZA5LnXMsJH/pER4s99ouDdWD9pppNZVyAQeQXVjgv66EzHGn0wJBnyPw9ZDlPxzn
tr1+KtzJH4s1tCzhdL287VC5Xugddp7/wL6lKIXHs5uFRWcsReMewLQzu6OZldpC
myYyx+wocgOKBNCtbGo607M2nq2lZ6yZ05XdYr5NOtwwFLqhrYabwEg/UXM23Jgb
X0pyW8tPaIzRnqQTISTT1xhdc5/+i/KCOSNmq1Uhdsuo/Es7lXrA675UM10aCTR8
VUmJ2nGw6jQ8dVErdOim+BI8CyloP5d7jWVo6b6sm3kaK7CqyTAW3s8aKbdcysfV
ou9hne7x8L1Kr64+0PfjJPyPGwsjrIedRuljZ9RwfHXal6zuvz1ZfUY9/XL3TRD1
RSFowwE5FAs9GH8BhLW+Jg==
tip

De Resultatenbouwer kan zo vaak worden toegevoegd als u nodig heeft.

Zie ook: Resultatenbouwer

Voeg een filter toe en kies in de vervolgkeuzelijst: $serp.$i.link - Link. Kies type: Bevat tekenreeks. Vervolgens moet u bij Tekenreeks het filterkenmerk invullen, bijvoorbeeld als u wilt dat alleen links met .com, worden opgeslagen, dan typt u dat in "Tekenreeks".

Voorbeeld downloaden

Hoe een voorbeeld in A-Parser te importeren

eJx9VE2P2jAQ/SvI4tBKCMFhL7mxqEit6LJd2EOFOHjxJHJxbNd2KCjKf++ME+Kw
rfaW+Xhv3nw4NQvcn/yzAw/Bs2xfMxu/Wca2X7LsJ9cCLqOVVAGc1MXo7TryIX5J
PVJSn9iEWe48OELvByAMCMh5pQKb1CxcLSCnOYNzUgAGpUDbOnO5OkBG8Og7c1VR
2nw2m7HmAxgv4GgqHRJm/kE66fQWHMES4mE2gOSxQwxi9yQ52zPsyaIjNnmYdBm7
Nv1odOBSDyRPj6ZE09ggjUbbg/asORxujH5lXMlprmM7n3ZD7oNbfoadaXVAcuPc
4YmXxD8WPABFp3kk+vR5Gi7EwIWQVJOrtgLtIVV91fJ31KcN5uInTXrlUGvGAkQC
cl5v6vZsHG3quIrYHy2GZTlXHibMo9QVRyHifUTifHgwbhNngP6aGb1Qag1nUCkt
8j9WUgk8mkWOoK8d8P8pm384mr69YSlc+h+HGnqWaD1uvieUMGtTYOfiLS62lAFt
v4yXlLEZOk8Atp/ZE82sNA76Mh1zVx2fjQVNF5ZWtrDJddfG3VrunXhNuSw23dXe
Miu9w7e50UtTWgXUl66UwrV4eEnnsfDdGshIAt+Dl7EEtX57kywYo/y3bSvVOonn
90ACS5zksGpHeeRKvb6shxGWTiqekyfaI95pYfCCsIvm0P8d+l9MPfxHZHWDa/nl
n9sk6oFS0IfD8PElzZu/Z6ed/A==
tip

Mogelijke instellingen

Naam parameterStandaardwaardeBeschrijving
AntiGate presetdefaultKeuze van preset Util::AntiGateUtil::AntiGate, meer details over de instelling hier
AntiGate preset for old captchadefaultVergelijkbaar met AntiGate preset, maar wordt alleen gebruikt voor gewone (oude, in de vorm van één afbeelding) captcha's. Als hier geen preset is geselecteerd, wordt de preset gebruikt die is geselecteerd in AntiGate preset.
Experimental img captcha max count5Maximaal aantal herhaalde captcha-afbeeldingen per poging
Preffered captcha typeClickKeuze van het voorkeurstype captcha: Click of Puzzle
EngineHTTP (Fast, JavaScript Disabled)Maakt het mogelijk om de engine te kiezen: HTTP (sneller, maar meer kans op captcha's) of browser (langzamer, maar minder kans op captcha's)
DeviceModern desktop computer (Windows 10, Chrome 84)Keuze van type resultaten (Desktop computer / Mobile device)
Pages count5Aantal pagina's om te scrapen (van 1 tot 25)
Sort serp by dateSortering van resultaten op datum
Serp timeAll timeZoekperiode
Yandex domainwww.yandex.ruYandex-domein voor het scrapen, alle domeinen worden ondersteund (.ru, .ua, .by, .kz, .com.tr, .com). Vanaf versie 1.1.345 wordt dit automatisch geselecteerd op basis van de gekozen regio.
Region of serp (lr=)MoskouKeuze van de zoekregio (parameter lr=)
Custom region IDMogelijkheid om een regio-id op te geven dat niet in het selectieveld staat. Deze optie heeft voorrang op de optie Region of serp (lr=). Er moet een bijbehorend domein worden ingesteld in Yandex domain.
Search sites from (rstr=)Not setKeuze van regionale binding van sites (parameter rstr=)
LanguageAnyTaal van de zoekresultaten (Russian, English, Belorussian, French, German, Indonesian, Kazakh, Tatar, Turkish, Ukrainian)
Parse not foundBepaalt of de resultaten moeten worden gescraapt als er voor de zoekopdracht nul resultaten zijn gevonden en er resultaten voor een andere zoekopdracht worden voorgesteld
Not personalizedPersonalisatie van de zoekopdracht. Meer details hier
Filter pagesModerate filterFilteren van resultaten op ongewenste inhoud (Family search / Moderate filter / Do not filter)
Use AccountsWerken met bestaande accounts in bestand files/SE-Yandex/accounts.txt. SE::Yandex::RegisterSE::Yandex::Register - Maakt het mogelijk om accounts te registreren bij Yandex
Remove bad accountsVerwijderen van ongeldige accounts
Quick answers count0Maximaal aantal vraag-antwoorden (Quick answers) per query dat de scraper moet verzamelen
Parse generative answerOf het generatieve antwoord moet worden gescraapt (dit voegt een extra sub-query toe en vertraagt dus de algemene werking)
AccountsOnly from "accounts.txt"Keuze van de methode voor het werken met accounts: Always auto register - altijd automatisch accounts "on the fly" registreren, hiervoor moet een geconfigureerde preset worden geselecteerd in de parameter SE::Yandex::Register preset. Auto register if no more in "accounts.txt" - eerst worden bestaande accounts uit accounts.txt gebruikt, en als deze op zijn, wordt automatische registratie "on the fly" gebruikt, waarvoor een geconfigureerde preset moet worden geselecteerd in de parameter SE::Yandex::Register preset. Only from "accounts.txt" - alleen bestaande accounts uit accounts.txt gebruiken, en als deze op zijn - de opgegeven tijd wachten (parameter Wait new accounts in "accounts.txt") op nieuwe accounts. Only by session_id from "accounts.txt" - autorisatie via cookies.
Remove bad accountsAlways, except wrong login/passwordAutomatisch verwijderen van "slechte" accounts: Always - altijd verwijderen. Always, except wrong login/password - altijd verwijderen, behalve wanneer Yandex meldt dat een onjuiste login/wachtwoord is opgegeven. Het feit is dat Yandex een dergelijke melding kan geven bij een IP-ban voor een volledig werkend account, daarom kunnen dergelijke accounts optioneel worden behouden voor hergebruik. Never - nooit verwijderen. Ongeacht de gekozen optie worden accounts niet verwijderd bij proxy-/browserfouten
Use sessionsGebruik van sessies
Wait new accounts in "accounts.txt"0Wachttijd voor het verschijnen van nieuwe accounts in accounts.txt
SE::Yandex::Register presetdefaultKeuze van preset voor SE::Yandex::RegisterSE::Yandex::Register
Force neuroGeforceerd inschakelen van het neuro-antwoord, vergelijkbaar met het handmatig schakelen tussen "Zoeken" and "Zoeken met Alice"