SE::Yandex - Scraper voor Yandex zoekresultaten

Overzicht van de scraper
De scraper voor de zoekresultaten van Yandex behoort met recht tot de top 5 van meest gevraagde scrapers. Een van de belangrijkste concurrentievoordelen van onze scraper is de enorme prestatie. Dankzij de multithreading van A-Parser kan de verwerkingssnelheid oplopen tot 3000-7000 verzoeken per minuut, wat gemiddeld tot 5.000.000 links per minuut oplevert, terwijl het verbruik van resources minimaal is; elke kantoor- of thuiscomputer, evenals elke instap-VDS, is geschikt voor gebruik. Onze scraper ondersteunt alle zoekoperators van Yandex, wat de mogelijkheden voor gegevensextractie aanzienlijk uitbreidt. De stabiliteit en continuïteit van de gegevensextractie uit de zoekresultaten wordt gewaarborgd door captcha-herkenning via AntiCaptcha of elke andere ondersteunde API (Anti-Captcha, RuCaptcha, CapMonster.cloud, 2captcha en andere).
De flexibiliteit in instellingen maakt het mogelijk om het type resultaten (mobiel/desktop), regio, taal, sortering op datum en nog veel meer op te geven. De functionaliteit van A-Parser maakt het mogelijk om scraper-instellingen op te slaan voor toekomstig gebruik (presets), schema's voor gegevensextractie in te stellen en nog veel meer. U kunt automatische query-vermenigvuldiging gebruiken, sub-query's uit bestanden invoegen, alfanumerieke combinaties en lijsten doorlopen om het maximaal mogelijke aantal resultaten te verkrijgen.
Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit, waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt exporteren, waaronder JSON, SQL en CSV.
Toepassingen van de scraper
🔗 Yandex-zoekresultaten en positienummer
Verkrijg Yandex-zoekresultaten en het positienummer van het resultaat. Het resultaat wordt opgeslagen in een csv-bestand.
🔗 Gegevensextractie van Yandex lite-zoekresultaten
In dit artikel wordt een voorbeeld behandeld van het maken van een scraper voor het verzamelen van informatie uit de lite-versie van de Yandex-zoekmachine.
🔗 Gegevensextractie van advertenties uit Yandex
De preset analyseert het advertentieblok in de Yandex-zoekresultaten en slaat het resultaat op in json-formaat.
🔗 Concurrentieanalyse in Yandex
De preset bepaalt de concurrentie in de Yandex-zoekmachine op basis van trefwoorden.
🔗 Yandex cache scraper
In de preset is de mogelijkheid geïmplementeerd om links naar de cache van de Yandex-zoekmachine te verkrijgen.
🔗 Gegevensextractie van alleen snippets uit Yandex
Deze preset accepteert een woord of woordgroep als parameter voor het zoeken in Yandex.
Verzamelde gegevens

- Aantal resultaten per query
- Links, ankers en snippets uit de zoekresultaten
- Er wordt ook informatie verzameld over vlaggen van elk resultaat; momenteel worden vlaggen ondersteund zoals: Date, Image Preview, Video, Rich snippet, Featured snippet
- Tijdstip van eerste en laatste caching (alleen voor desktop-resultaten)
- Lijst met gerelateerde zoekwoorden (Related keywords)
- Bepaalt of Yandex de query als een typefout heeft beschouwd of niet
- Scrapen van de link naar de cache van de pagina (alleen voor desktop-resultaten)
- Lijst met namen van site-pictogrammen en hun typen, indien aanwezig (waaronder Turbo)
- Bovenste, middelste en onderste advertentieblokken van alle pagina's
- Link, zichtbare link, anker, snippet en domein
- Extra links en ankers
- Metrostation
- Ontbrekende woorden (woorden die onder elk resultaat in de zoekresultaten kunnen verschijnen met de melding "Niet gevonden")
- Lijst met snelle antwoorden (Quick answers): vragen, antwoorden, links naar bronnen (wordt ingeschakeld met een aparte optie Parse Quick answers)
- AI-antwoord (Zoeken met Alice), het type en de lijst met bronnen
Mogelijkheden
- Keuze van type resultaten: mobiel/desktop
- Ondersteuning voor alle Yandex zoekoperators (site:, lang:, enz.)
- Scraapt het maximale aantal resultaten dat Yandex geeft - 25 pagina's van 50 elementen per resultatenpagina
- Mogelijkheid om naar gerelateerde zoekwoorden te zoeken
- Ondersteunt keuze van zoekregio en domein
- Mogelijkheid tot sorteren van resultaten op datum
- Scraapt de indexeringstijd van de pagina, met de mogelijkheid om resultaten op deze parameter te filteren
- Optie voor browser-emulatie (maakt hoge scrapingsnelheid en laag verbruik van captcha's mogelijk)
- Mogelijkheid om captcha te omzeilen met behulp van de AntiCaptcha-service of een andere ondersteunde API (het wordt aanbevolen om de parameter is_russian in de antigate-instellingen in te schakelen)
- Mogelijkheid om het aantal snelle antwoorden (Quick answers) op te geven dat de scraper moet verzamelen door diep op elke vraag te klikken
De volgende scrapers werken op basis van de Yandex-scraper:
SE::Yandex::Position - controle van websiteposities op trefwoorden in Yandex
Gebruiksscenario's
- Verzamelen van linkdatabases - voor A-Poster, XRumer, AllSubmitter, enz.
- Beoordeling van concurrentie voor zoekwoorden
- Zoeken naar backlinks (vermeldingen) van websites
- Controleren van website-indexering
- Zoeken naar kwetsbare websites
- Alle andere varianten die het scrapen van Yandex in een of andere vorm inhouden
Query's
Als query's moeten zoektermen worden opgegeven, op precies dezelfde manier als wanneer u ze rechtstreeks in het zoekformulier van Yandex zou invoeren, bijvoorbeeld:
ramen Moskou
lang:en windows Moscow
url:a-parser.com
site:a-parser.com
"a-parser.com"
Query-substituties
U kunt ingebouwde macro's gebruiken voor query-vermenigvuldiging. Stel dat we een zeer grote database met forums willen verkrijgen, dan geven we enkele basisquery's in verschillende talen op:
forum
forum
foro
论坛
In het query-formaat geven we een bereik aan van a tot zzzz; deze methode maakt het mogelijk om de zoekresultaten maximaal te roteren en veel nieuwe unieke resultaten te verkrijgen:
$query {az:a:zzzz}
Deze macro zal 475254 extra query's maken voor elke oorspronkelijke zoekopdracht, wat in totaal 4 x 475254 = 1901016 zoekopdrachten oplevert. Dit is een indrukwekkend getal, maar geen enkel probleem voor A-Parser. Bij een snelheid van 2000 verzoeken per minuut wordt een dergelijke taak in slechts 16 uur verwerkt.
Gebruik van operators
U kunt zoekoperators in het query-formaat gebruiken, zodat deze automatisch aan elke query uit uw lijst worden toegevoegd:
site:$query
Accounts
Voor de werking van de scraper
SE::Yandex kunnen Yandex-accounts nodig zijn. Accounts kunnen worden geregistreerd met de scraper
SE::Yandex::Register of voeg simpelweg bestaande accounts toe aan het bestand files/SE-Yandex/accounts.txt in het ondersteunde formaat.
Of u kunt accountregistratie "on the fly" inschakelen.
Om te werken met autorisatie via sessie, moet de gegevensregel in dit formaat zijn:
[email protected];MAQT78Z31Rinx4H;{"answer":"qmfhsxdcrk","proxy":"185.104.120.45:3128","session_id":"3:1748440908.5.0.1748440867459:ZXBxpg:47e4.1.2:1|2191075974.41.2.2:41.3:1748440908|3:10308131.797655.5pfkoRZWgLJGntKTlcUhYdysNfk"}
Voorbeelden van resultaatuitvoer
A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden uitgevoerd, evenals in gestructureerde formaten zoals CSV of JSON
Export van een lijst met links
Resultaatformaat:
$serp.format('$link\n')
Voorbeeld van resultaat:
https://TestoMetrika.com/tests/
https://onlinetestpad.com/ru/tests
https://www.speedtest.net/
https://ustaliy.ru/testi/
https://yandex.ru/internet/
https://konstruktortestov.ru/popular
https://TestEdu.ru/test/
https://kto-chto-gde.ru/category/tests/
https://weekend.rambler.ru/tests/
https://GadalkinDom.ru/test
...
Links + ankers + snippets met positiewergave
Resultaatformaat:
[% FOREACH item IN serp; loop.count _ ' - ' _ item.link _ ' - ' _ item.anchor _ ' - ' _ item.snippet _ "\n"; END %]
Voorbeeld van resultaat:
1 - http://forum.r-rp.ru/ - <b>forum</b>.r-rp.ru -
2 - https://forum.arizona-rp.com/ - <div class=a11y-hidden>Webresultaat met extra links</div><b>Forum</b> – Arizona Role Play - Menu. Home. <b>Forums</b>. Nieuwe berichten. Wat is er nieuw? Nieuwe berichten. Gebruikers. Huidige bezoekers. <b>Forums</b>. Inloggen. ... Statistieken van het <b>forum</b>. Thema's. 1,247,176. Berichten. 5,225,340. Gebruikers. 623,675.
3 - https://ru.wikipedia.org/wiki/%D0%A4%D0%BE%D1%80%D1%83%D0%BC - <b>Forum</b> — Wikipedia - <b>Fórum</b> (lat. <b>forum</b> — arch. voorportaal van een graf; platform in een pers voor te verwerken druiven; marktplein, stadsmarkt; marktplaats, centraal plein):
4 - https://zen.yandex.ru/media/propromotion/chto-takoe-forum-i-vse-chto-s-nim-sviazano-5d65164c1d656a00ad52ba30 - Wat is een <b>forum</b> en alles wat ermee te maken heeft | Creatief... - Vandaag gaan we het hebben over wat een <b>forum</b> is en alles wat ermee te maken heeft in begrijpelijke en eenvoudige woorden. Ieder van ons streeft ernaar iemand te vinden met wie men kan communiceren over gemeenschappelijke interesses, ervaringen kan delen, advies kan geven. In de moderne wereld is dit allemaal mogelijk geworden zonder het huis te verlaten. Juist een van de vormen van zo'n virtueel contact is een web-<b>forum</b>.
5 - https://forum.vimeworld.ru/ - VimeWorld - <b>Forum</b> - <b>Forum</b> van het project van ideale Minecraft-gameservers - VimeWorld...
...
Uitvoer van links, ankers en snippets naar een CSV-tabel
De ingebouwde utility $tools.CSVLine maakt het mogelijk om correcte tabeldocumenten te maken, klaar voor import in Excel of Google Sheets.
Algemeen resultaatformaat:
[% FOREACH i IN p1.serp; tools.CSVline(i.link, i.anchor, i.snippet); END %]
Bestandsnaam:
$datefile.format().csv
Begintekst:
Link,Anker,Snippet
In het Algemeen resultaatformaat wordt de sjabloon-engine Template Toolkit toegepast om de array $serp in een lus uit te voeren FOREACH.
In de bestandsnaam van de resultaten hoeft u alleen de bestandsextensie te wijzigen naar csv.
Om de optie "Begintekst" beschikbaar te maken in de Taakeditor, moet u "Meer opties" activeren. In "Begintekst" schrijft u de kolomnamen gescheiden door een komma en maakt u de tweede regel leeg.
Uitvoer van advertentieblokken
Resultaatformaat:
$ads.format('$link - $anchor - $snippet\n')
Voorbeeld van resultaat:
http://yabs.yandex.ru/count/WcOejI_zO3C2vH80P1zY-_ryBtnaD0K0CmCnZYWCO000000u109mhiMfd8qUW07CkUOvY07Kyz3GCP01vCcQhIwO0PgqhFigk06qZQ3m6C01NDW1gkAR5E01kAZK4-W1y06W0kYCvAl-Wue5-0Bmwl7WeSQurUK1c0FRc3lkh0Ju1Bpr48W5lFKGa0MxjssW1Qxa1QW5hkG5i0Mkv0Mu1OYr9S05eTt90SW5aFn4YkWqZwuhO8VP1W00012H0000gGVlTvJIyeiV0R07W82O3BW7W0Nn1tjIyvgFUtz-X8A0WSIqXdB92j4AXC7wM-4_u3nZJEzt003CKjw5aRa50DaBw0kyzRAxthu1gGn-j62AsN3cl-WCemBW3OE0W4293eDHIPs09kwAqTFvwFMAi8VO3WAX3zaFW13WszlG4DcTXo9ZI0HkD3-n4YxXl0bOc-q2u1E8jIMW58Yr9QWKkxTjl9wVx0Ne58m2q1Mydf_i1TWLmOhsxAEFlFnZyA0Mq92TW0R95l0_q1Qokzw-0O4N0F0_c1UwdvGKg1S9m1Uq0jWNm8GzcHYW60wm68UTi806q1WX-1Yf-9keZlxncYM06R3qkEBGlP6v890P0Q0PmWEm6RWP____0T8P4dbXOdDVSsLoTcLoBt8qEJSjCkWPWC83y1c0mWE16l__WxZFMxv27W2GPM2khLr2HGBSgKCU4fSjR_apLy29ToVZBSaX0K10aLK2xDc6HsxyWlx3mqOzRTCnV7G7IDvEXnY4YqauFXdHmHcIWrcJNGT1NfMC_8eB8q1m1-WEYbKFtWBTZHwcD4A80G00~1?from=yandex.ru%3Bsearch%26%23x2F%3B%3Bweb%3B%3B0%3B&q=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%B0%D0%B2%D0%B8%D0%B0%D0%B1%D0%B8%D0%BB%D0%B5%D1%82%D1%8B&etext=2202.wBaB7RlytlP_PRaU6jPhHD2nHBNT_4gSF6009OyJEfpWjUPoA5WrSJAqCfap0m9ReXhoaGRlaWhmYmllemF2ZA.f04b1271668949ea17ffcafcb11c72c2ab6454c5 - <b>Koop</b> <b>vliegticket</b> naar / aviasales.ru - Wij bieden: <b>Koop</b> <b>vliegticket</b> naar hier. Superaanbieding! Haast u!
http://yabs.yandex.ru/count/WgGejI_zO5e2rHG092HY-_ryhkYFF0K0MWCnZYWCO000000u109mhDZpa8WGW07ZZm680U2f-wrQa07AywxRoe20W0AO0ShphjjAk06oWAxe8C01NDW1e8MobW7W0TJCXm_e0O01c0BImFq2e0BuQjW20l02g_w3YWNu0l3gyU2XnhZLvG600vF6eiSFY0FStR-O39W3cyKxYga3-0JJpWI81TFE1905Z-zGe0MPj06e1PMM0R05bPO1k0NInnJ01TF1ZG781PNz8uheD8-kAs27sGO0000GaG000Aa7xtUKqlAB7m6m1u20c0ou1u05yGTxKlEQZtj_VeI2l3M02W712l_aZtPQIU8_oGeJ5NRdMhxJFweB4E0yOqplTm00p5BUXP6v1G3P2-WBqyu4y0i6Y0ookzw-0QaCu_jL-Yu3zB_e3AC2u0s3W810YGwgO5HI9w3dYj7J-UZrYh27s0u2-0x7dPAe2Q4FFGhNet0zzZ_P3_0_W13GmC4Rm92GPpgqxC9xJZC_iHAuM7p6uhZj0k0JqiSKe1JInnIe58_lKB0KYw381hWKmAo0jQI04TWK-FpP_WNe58m2q1Nu_Dd-1TWLmOhsxAEFlFnZyA0Mq92TW0R95j0MihlUlW615vWNfwZz3wWN2S0Nj0BO5y24FPaOe1WAi1Z9fB201j0O8VWOgVYRg8x-yPebW1cmzBZYqBsHkI2G6G6W6S83i1cu6V___m7I6H9vOM9pNtDbSdPbSYzoD3atBJBe6O320_0PWC83WHh__oD2TTsApne0jsLWrgrT_2INXiZt8r8kcvWxe0SCE37tPBmjEYG0203ecjreFlD0AY-khXXjgcFZa190IXd9BOrkl3guMzzraExES_xHXH4WwWDq1xIoUlHJ6Y74~1?from=yandex.ru%3Bsearch%26%23x2F%3B%3Bweb%3B%3B0%3B&q=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%B0%D0%B2%D0%B8%D0%B0%D0%B1%D0%B8%D0%BB%D0%B5%D1%82%D1%8B&etext=2202.wBaB7RlytlP_PRaU6jPhHD2nHBNT_4gSF6009OyJEfpWjUPoA5WrSJAqCfap0m9ReXhoaGRlaWhmYmllemF2ZA.f04b1271668949ea17ffcafcb11c72c2ab6454c5 - <b>Koop</b> <b>vliegticket</b> online op Tutu.ru! Officiële site! - Vliegtickets voor een lage prijs! Voordelige vluchten over de hele wereld! <b>Koop</b> ticket online!
http://yabs.yandex.ru/count/WcOejI_zO3C2vH80P1zY-_ryBtnaD0K0CmCnZYWCO000000u109mhiMfd8qUW07CkUOvY07Kyz3GCP01vCcQhIwO0PgqhFigk06qZQ3m6C01NDW1gkAR5E01kAZK4-W1y06W0kYCvAl-Wue5-0Bmwl7WeSQurUK1c0FRc3lkh0Ju1Bpr48W5lFKGa0MxjssW1Qxa1QW5hkG5i0Mkv0Mu1OYr9S05eTt90SW5aFn4YkWqZwuhO8VP1W00012H0000gGVlTvJIyeiV0R07W82O3BW7W0Nn1tjIyvgFUtz-X8A0WSIqXdB92j4AXC7wM-4_u3nZJEzt003CKjw5aRa50DaBw0kyzRAxthu1gGn-j62AsN3cl-WCemBW3OE0W4293eDHIPs09kwAqTFvwFMAi8VO3WAX3zaFW13WszlG4DcTXo9ZI0HkD3-n4YxXl0bOc-q2u1E8jIMW58Yr9QWKkxTjl9wVx0Ne58m2q1Mydf_i1TWLmOhsxAEFlFnZyA0Mq92TW0R95l0_q1Qokzw-0O4N0F0_c1UwdvGKg1S9m1Uq0jWNm8GzcHYW60wm68UTi806q1WX-1Yf-9keZlxncYM06R3qkEBGlP6v890P0Q0PmWEm6RWP____0T8P4dbXOdDVSsLoTcLoBt8qEJSjCkWPWC83y1c0mWE16l__WxZFMxv27W2GPM2khLr2HGBSgKCU4fSjR_apLy29ToVZBSaX0K10aLK2xDc6HsxyWlx3mqOzRTCnV7G7IDvEXnY4YqauFXdHmHcIWrcJNGT1NfMC_8eB8q1m1-WEYbKFtWBTZHwcD4A80G00~1?from=yandex.ru%3Bsearch%26%23x2F%3B%3Bweb%3B%3B0%3B&q=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%B0%D0%B2%D0%B8%D0%B0%D0%B1%D0%B8%D0%BB%D0%B5%D1%82%D1%8B&etext=2202.wBaB7RlytlP_PRaU6jPhHD2nHBNT_4gSF6009OyJEfpWjUPoA5WrSJAqCfap0m9ReXhoaGRlaWhmYmllemF2ZA.f04b1271668949ea17ffcafcb11c72c2ab6454c5 - <b>Koop</b> <b>vliegticket</b> naar / aviasales.ru - Wij bieden: <b>Koop</b> <b>vliegticket</b> naar hier. Superaanbieding! Haast u!
...
Opslaan van gerelateerde zoekwoorden
Resultaatformaat:
$related.format('$key\n')
Voorbeeld van resultaat:
<b>test</b> tanki online
tanki online
alle <b>tests</b> punt ru
i exam ru testen
<b>test</b> internetsnelheid
<b>tests</b>24.ru
speedtest
online <b>test</b> pc-prestaties
online testen
my <b>test</b> student hoe antwoorden te weten komen
...
Om HTML-tags automatisch uit het resultaat te verwijderen, moet u de Resultatenbouwer, gebruiken, de array $related selecteren en Remove HTML tags.
Concurrentie van zoekwoorden
Resultaatformaat:
$query - $totalcount\n
Voorbeeld van resultaat:
vsetesty punt ru - 25000000
online testen - 13000000
tanki online - 7000000
i exam ru testen - 27000000
tests24.ru - 238000000
online pc-prestatietest - 16000000
speedtest - 2000000
internetsnelheidstest - 16000000
test tanki online - 19000000
my test student hoe antwoorden te vinden - 16000000
Identificatie van zoekwoorden met fouten
Resultaatformaat:
$query - $misspell\n
Voorbeeld van resultaat:
online testen - 0
internetsnelheidstest - 0
onlijn tasten - 1
test snolheid intrnet - 1
Controle van link-indexering
Query-formaat:
site:$query
Resultaatformaat:
$query.orig - $totalcount\n
Voorbeeld van resultaat:
https://a-parser.com/pages/buy - 2
https://a-parser.com/wiki/parsers - 16
https://trjkjfkdf.bg.ky - 0
https://a-parser.com/resources - 1000
https://a-parser.com/forum - 499
Om de indexering van links te controleren, vult u de bijbehorende operator in het Query-formaat in: site:.
Het resultaatformaat wordt weergegeven als "oorspronkelijke url - aantal pagina's in index".
Als resultaat krijgt u het adres van de pagina's en hun aantal in de index van de zoekmachine.
Als de pagina ontbreekt, is het resultaat: 0.
Opslaan in SQL-formaat
Resultaatformaat:
[% FOREACH serp; "INSERT INTO serp VALUES('" _ query _ "', '"; link _ "', '"; anchor _ "')\n"; END %]
Voorbeeld van resultaat:
INSERT INTO serp VALUES('test', 'https://konstruktortestov.ru/popular', 'Populaire online <b>tests</b>')
INSERT INTO serp VALUES('test', 'https://TestoMetrika.com/tests/', 'Online <b>tests</b> c met nauwkeurig resultaat van psychologische...')
INSERT INTO serp VALUES('test', 'https://ustaliy.ru/testi/', '<b>Tests</b> online: de beste, interessante en populaire')
INSERT INTO serp VALUES('test', 'https://www.SunHome.ru/tests/Interesting_tests', 'Interessante <b>tests</b>. Doe psychologische interessante...')
INSERT INTO serp VALUES('test', 'https://onlinetestpad.com/ru/tests', '<b>Tests</b> online | Online Test Pad')
...
Resultaten dumpen naar JSON
Algemeen resultaatformaat:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.totalcount = p1.totalcount;
obj.links = [];
FOREACH item IN p1.serp;
obj.links.push(item.link);
END;
obj.json %]
Begintekst:
[
Eindtekst:
]
Voorbeeld van resultaat:
[{"totalcount":113000000,"links":["https://TestoMetrika.com/tests/","https://konstruktortestov.ru/popular","https://ustaliy.ru/testi/","https://www.SunHome.ru/tests/Interesting_tests","https://GadalkinDom.ru/test","https://zen.yandex.ru/tes","https://onlinetestpad.com/ru/tests","https://kto-chto-gde.ru/category/tests/","https://psytests.org/top.html","https://MixTests.com/new/","https://TestEdu.ru/test/","https://testserver.pro/index","https://onedio.ru/tests","https://BankTestov.ru/","https://weekend.rambler.ru/tests/","https://edieta.org/testi","https://trikky.ru/?%21","https://BBF.ru/tests/","https://dropi.ru/c/tests/raznie","https://cadelta.ru/tests","https://www.Elle.ru/tests/","https://www.adme.ru/svoboda-psihologiya/polnyj-spisok-psihologicheskih-testov-dlya-poznaniya-sebya-kotorye-mozhno-projti-onlajn-2071715/","https://www.ellegirl.ru/tests/","https://test.tankionline.com/","https://vraki.net/onlajn-testy/","https://Lifehacker.ru/psixologicheskie-testy/","https://iq2u.ru/tests","https://www.b17.ru/tests/","https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D1%81%D1%82","https://gurutest.ru/test/","https://www.psychologies.ru/tests/","https://peopletalk.ru/category/tests/","https://obrazovaka.ru/testy","https://likeyou.io/category/test/","https://ProfTest.me/tests","https://TayniyMir.com/testy","https://psi-technology.net/psytest/","https://www.kp.ru/putevoditel/online-test/","https://tvoytest.ru/","https://twizz.ru/tests/","https://lunanews.net/testy/","https://www.ivi.ru/titr/tests","https://sntch.com/tests/","https://testy.online/","https://videouroki.net/tests/","https://www.speedtest.net/ru","https://rb.ru/tests/","https://aznaetelivy.ru/tests/","https://woman-psy.com/psihologicheskie-testy/testy_na_eruditsiyu_i_znaniya/interesnye_testy/","https://mamochka-club.com/psihologicheskie-testy/interesnye-testy/"]}]
Om de opties "Begintekst" en "Eindtekst" beschikbaar te maken in de Taakeditor, moet u "Meer opties" activeren.
Verwerking van resultaten
A-Parser maakt het mogelijk om resultaten direct tijdens het scrapen te verwerken. In deze sectie hebben we de meest populaire cases voor de Yandex-scraper opgenomen.
Deduplicatie van links
Voeg deduplicatie toe en kies in de vervolgkeuzelijst voor $serp.$i.link - Link.
Voorbeeld downloaden
Hoe een voorbeeld in A-Parser te importeren
eJx9VE2P2jAQ/SurEYdWQqvQLpfcWFSqVnTZLuyhohy8ZIJcHNu1HQqK+O+dCUkc
ttVeoszze/NtVxCE3/tHhx6Dh3Rdga3/IYXlpzT9IXSGx5u51Ht/86zl7xJhCFY4
j47p6x6LDjLMRakCDCsIJ4vkxBzQOZmxSmZkW2eOJ4fBSfSEHYQqmTZKkgTOb8jE
Drem1CFqRm/QFedr0bEsKsZJT1K2xVC5nHK6BqrJEsBi2AwbxupC95Sx3kGLflbm
RShIgyvxvNm0XvzMuEJw8wZ2dNt0sjtcigOuDB3mUsXIfkbWgyg4yiATAfn0Nq8d
vXt/G47sQWSZDNJooS4RuPcxajOYFLQhLv1yd2fOFAQFrB0weGqzW8OgtmOV3y8a
SHOhPA7BU6ozQYlkr09kQCeCcQvL+RBegdETpeZ4QBVptf/7UqqMFmWSk+hLI/w/
ZfGPj3NXXj8UDfqPoxw6L7V1v/gWVZmZmx1Vnr3UwyxkINtP6+1JISFwj2i7nj1w
zwrjsAvTeG6i092wqHmr4sgmNkJXZVyN5RrcGp3L3aLZ1JZZ6hVdwIWemsIq5Lp0
qRSNxeNTXI+Jb8bARkzwtXhah+DS23sIwRjlvy4vqVonaf3GnGBBnexHbVxuhVLP
T/P+CcSVIuNnmdzdfeDvx3H9P7ogwNqAO0NbRZWdN90r0b0tVf+tSKszjeqXf7yQ
uC6mEEYN8jQHvuB/AYBymo0=
Zie ook: Resultaatdeduplicatie
Deduplicatie van links per domein
Voeg deduplicatie toe en kies in de vervolgkeuzelijst voor $serp.$i.link - Link. Kies het type deduplicatie: Domein.
Voorbeeld downloaden
Hoe een voorbeeld in A-Parser te importeren
eJx9VE2P2jAQ/SvI4tBKCIV2ueTG0lK1ost2YQ8V5WDIBLk4tms7FBTx33fGCXHY
VnuxPG/mzbddMc/dwT1acOAdS9cVM+HOUrb8nKY/ucrg1JsLdXC9ZyX+lNDbnnuf
dMGFYgNmuHVgibju2KMig5yX0rNBxfzZALrTR7BWZIBKkaFsrD6dLXgrwCF25LIk
s1GSJOzyBo3vYadL5SNn9Ia5pMwNWKJFxjjpUMpQFiqxcEo5XTOsySBAZLYZNBar
2jy71l6jX6TecslSb0u4bDZXL26mbcGpjX0zGjY9bZVLfoSVRmUuZIzsZig98IKi
9DPugbTDPDh6937oT+SBZ5nwQisu6wjU+xi1HhHylUZbvFJ3Z1YXCHkIDgg8X7Nb
s36QY5U/ag5Lcy4dDJjDVGccE8lea4QHy722C0P5IF4xrSZSzuEIMpoF//elkBku
yiRH0teG+H+TxT8+Lm153VA46L8Wc2i9BOl+8T2yMj3XexrZNgyzEB5lNw3bk7IE
wQOAaXv2QD0rtIU2TOO5iY6vxICirYojm5gI3ZRxM5ZbcKdVLvaLZlOvlqVa4VNc
qKkujASqS5VS4lgcPMX1mLhmDCTEBF+TpyEElX59h8xrLd23ZZ2qsQLXb0wJFtjJ
btTG5Y5L+fw072pYXCkUfpXJ3d0HOj+Ow31UI4y4HvYatworu2zaX6L9ZaruX5FW
FxzVb/dYG1FdZIIYNsjhHOiBvwAa7J3h
Zie ook: Resultaatdeduplicatie
Domeinen extraheren
Voeg de Resultatenbouwer toe en kies in de vervolgkeuzelijst de bron: $p1.serp.$i.link - Link. Kies type: Extract Domain.
Voorbeeld downloaden
Hoe een voorbeeld in A-Parser te importeren
eJx9VEtv2zAM/isFkcMGBIGzNRff0qwBNmRN17SHIetBi+lAiyxpkpwlMPzfR8qO
7XZDL4b5+Eh+fKiCIPzB3zv0GDyk2wps/IcUNrdp+l3oDE9Xt6fgxC5cfTKFkNrD
GKxwHh0jtgNHMmSYi1IFGFcQzhYpjjmiczJDMsqMZOvM6ewwOIkc6ShUyW7TJEmg
fgMm9rgzpQ49ZvqGu5L64C06hvWIWVI/P4+BKFKNfmlcIZjqyE4nLe/OuBFHfDRk
zKXCXr0k6U4UnHKUiYBsneQx0Lv3k3DiCCLLZJBGC9Vk4Db1WZ+0/B0Za0O+9MuN
WDpTkCpgDMDK86W6LYyiDBSijNhvDQbSXCiPY/BU6lJQIdlriwzoRDBubbke0ldg
9FypFR5R9W4x/k0pVUYznecE+twC/++y/idG3dEbpqKZ/HFUQxclSjfrrz0qMyuz
J+bZT+KtZCEDyX4RB51CQsoDou16dsc9K4zDLk0buc1Om2xR8wL0I5vbXvWCxoux
DJQVeFO6HeXbJuMt0KLbWJw+AG9Pu3HYHEVzEzx158SZ9K17MO0WQk2YndG53K/b
Jb1kLvUjnd9aL0xhFXKfdKkUjdnjQ79uc9+OlYWe8GvwIqbgVl5OkGowyn/ZNNSt
k1TSjAkXNJlh1jbkTij19LAaWqBfURJ+lMn19Qf+fpzF/2mjAcYG3BvaUmLGhNsH
ontZquEzkVY1jf6Xv2+cmBe7kI4a5GmufNt/AaiMmIc=
Zie ook: Resultatenbouwer
Tags verwijderen uit ankers en snippets
Voeg de Resultatenbouwer toe en kies in de vervolgkeuzelijst de bron: $p1.serp.$i.anchor - Anchor. Kies type: Remove HTML tags.
Voeg opnieuw de Resultatenbouwer toe en kies in de vervolgkeuzelijst de bron: $p1.serp.$i.snippet - Snippet. Kies type: Remove HTML tags.
Voorbeeld downloaden
Hoe een voorbeeld in A-Parser te importeren
eJyVVN9v2jAQ/lcii4dNQihs5SVvFA11Ey0dtA8T64NHLszDsT3bYaCI/313jknS
rqq0lyi+u++7X59dM8/d3t1bcOAdyzY1M+GfZWz9Kcu+cZXDMVlBqQ+Q3DzcLhLP
dy4prC6Tqdr+1NYlGJOslTCGKIbMcOvAEtmmx4GOHApeSc+GNfMnA5gCSa0VOaBT
5Hg2Vh9PFrwVQEwHLisKG6dpys5vwPgOtrpSvsOM3wiXQu2dAUuwDjFJz09PQ4bd
Y41urm3JaQoDMx7FkbTONT/Ag0ZnISR05jme7nhJKQc590DeURGI3r0f+SMx8DwX
XmjFZZOBxtRlfVTid+hYaYzFXxrEHGeNJg+BgIynS3UbNghnhhRVwH5tMCwruHQw
ZA5LnXMsJH/pER4s99ouDdWD9pppNZVyAQeQXVjgv66EzHGn0wJBnyPw9ZDlPxzn
tr1+KtzJH4s1tCzhdL287VC5Xugddp7/wL6lKIXHs5uFRWcsReMewLQzu6OZldpC
myYyx+wocgOKBNCtbGo607M2nq2lZ6yZ05XdYr5NOtwwFLqhrYabwEg/UXM23Jgb
X0pyW8tPaIzRnqQTISTT1xhdc5/+i/KCOSNmq1Uhdsuo/Es7lXrA675UM10aCTR8
VUmJ2nGw6jQ8dVErdOim+BI8CyloP5d7jWVo6b6sm3kaK7CqyTAW3s8aKbdcysfV
ou9hne7x8L1Kr64+0PfjJPyPGwsjrIedRuljZ9RwfHXal6zuvz1ZfUY9/XL3TRD1
RSFowwE5FAs9GH8BhLW+Jg==
De Resultatenbouwer kan zo vaak worden toegevoegd als u nodig heeft.
Zie ook: Resultatenbouwer
Filteren van links op voorkomen
Voeg een filter toe en kies in de vervolgkeuzelijst: $serp.$i.link - Link. Kies type: Bevat tekenreeks. Vervolgens moet u bij Tekenreeks het filterkenmerk invullen, bijvoorbeeld als u wilt dat alleen links met .com, worden opgeslagen, dan typt u dat in "Tekenreeks".
Voorbeeld downloaden
Hoe een voorbeeld in A-Parser te importeren
eJx9VE2P2jAQ/SvI4tBKCMFhL7mxqEit6LJd2EOFOHjxJHJxbNd2KCjKf++ME+Kw
rfaW+Xhv3nw4NQvcn/yzAw/Bs2xfMxu/Wca2X7LsJ9cCLqOVVAGc1MXo7TryIX5J
PVJSn9iEWe48OELvByAMCMh5pQKb1CxcLSCnOYNzUgAGpUDbOnO5OkBG8Og7c1VR
2nw2m7HmAxgv4GgqHRJm/kE66fQWHMES4mE2gOSxQwxi9yQ52zPsyaIjNnmYdBm7
Nv1odOBSDyRPj6ZE09ggjUbbg/asORxujH5lXMlprmM7n3ZD7oNbfoadaXVAcuPc
4YmXxD8WPABFp3kk+vR5Gi7EwIWQVJOrtgLtIVV91fJ31KcN5uInTXrlUGvGAkQC
cl5v6vZsHG3quIrYHy2GZTlXHibMo9QVRyHifUTifHgwbhNngP6aGb1Qag1nUCkt
8j9WUgk8mkWOoK8d8P8pm384mr69YSlc+h+HGnqWaD1uvieUMGtTYOfiLS62lAFt
v4yXlLEZOk8Atp/ZE82sNA76Mh1zVx2fjQVNF5ZWtrDJddfG3VrunXhNuSw23dXe
Miu9w7e50UtTWgXUl66UwrV4eEnnsfDdGshIAt+Dl7EEtX57kywYo/y3bSvVOonn
90ACS5zksGpHeeRKvb6shxGWTiqekyfaI95pYfCCsIvm0P8d+l9MPfxHZHWDa/nl
n9sk6oFS0IfD8PElzZu/Z6ed/A==
Zie ook: Resultaatfilters
Mogelijke instellingen
| Naam parameter | Standaardwaarde | Beschrijving |
|---|---|---|
| AntiGate preset | default | Keuze van preset Util::AntiGate, meer details over de instelling hier |
| AntiGate preset for old captcha | default | Vergelijkbaar met AntiGate preset, maar wordt alleen gebruikt voor gewone (oude, in de vorm van één afbeelding) captcha's. Als hier geen preset is geselecteerd, wordt de preset gebruikt die is geselecteerd in AntiGate preset. |
| Experimental img captcha max count | 5 | Maximaal aantal herhaalde captcha-afbeeldingen per poging |
| Preffered captcha type | Click | Keuze van het voorkeurstype captcha: Click of Puzzle |
| Engine | HTTP (Fast, JavaScript Disabled) | Maakt het mogelijk om de engine te kiezen: HTTP (sneller, maar meer kans op captcha's) of browser (langzamer, maar minder kans op captcha's) |
| Device | Modern desktop computer (Windows 10, Chrome 84) | Keuze van type resultaten (Desktop computer / Mobile device) |
| Pages count | 5 | Aantal pagina's om te scrapen (van 1 tot 25) |
| Sort serp by date | ☐ | Sortering van resultaten op datum |
| Serp time | All time | Zoekperiode |
| Yandex domain | www.yandex.ru | Yandex-domein voor het scrapen, alle domeinen worden ondersteund (.ru, .ua, .by, .kz, .com.tr, .com). Vanaf versie 1.1.345 wordt dit automatisch geselecteerd op basis van de gekozen regio. |
| Region of serp (lr=) | Moskou | Keuze van de zoekregio (parameter lr=) |
| Custom region ID | Mogelijkheid om een regio-id op te geven dat niet in het selectieveld staat. Deze optie heeft voorrang op de optie Region of serp (lr=). Er moet een bijbehorend domein worden ingesteld in Yandex domain. | |
| Search sites from (rstr=) | Not set | Keuze van regionale binding van sites (parameter rstr=) |
| Language | Any | Taal van de zoekresultaten (Russian, English, Belorussian, French, German, Indonesian, Kazakh, Tatar, Turkish, Ukrainian) |
| Parse not found | ☑ | Bepaalt of de resultaten moeten worden gescraapt als er voor de zoekopdracht nul resultaten zijn gevonden en er resultaten voor een andere zoekopdracht worden voorgesteld |
| Not personalized | ☐ | Personalisatie van de zoekopdracht. Meer details hier |
| Filter pages | Moderate filter | Filteren van resultaten op ongewenste inhoud (Family search / Moderate filter / Do not filter) |
| Use Accounts | ☐ | Werken met bestaande accounts in bestand files/SE-Yandex/accounts.txt. SE::Yandex::Register - Maakt het mogelijk om accounts te registreren bij Yandex |
| Remove bad accounts | ☑ | Verwijderen van ongeldige accounts |
| Quick answers count | 0 | Maximaal aantal vraag-antwoorden (Quick answers) per query dat de scraper moet verzamelen |
| Parse generative answer | ☐ | Of het generatieve antwoord moet worden gescraapt (dit voegt een extra sub-query toe en vertraagt dus de algemene werking) |
| Accounts | Only from "accounts.txt" | Keuze van de methode voor het werken met accounts: Always auto register - altijd automatisch accounts "on the fly" registreren, hiervoor moet een geconfigureerde preset worden geselecteerd in de parameter SE::Yandex::Register preset. Auto register if no more in "accounts.txt" - eerst worden bestaande accounts uit accounts.txt gebruikt, en als deze op zijn, wordt automatische registratie "on the fly" gebruikt, waarvoor een geconfigureerde preset moet worden geselecteerd in de parameter SE::Yandex::Register preset. Only from "accounts.txt" - alleen bestaande accounts uit accounts.txt gebruiken, en als deze op zijn - de opgegeven tijd wachten (parameter Wait new accounts in "accounts.txt") op nieuwe accounts. Only by session_id from "accounts.txt" - autorisatie via cookies. |
| Remove bad accounts | Always, except wrong login/password | Automatisch verwijderen van "slechte" accounts: Always - altijd verwijderen. Always, except wrong login/password - altijd verwijderen, behalve wanneer Yandex meldt dat een onjuiste login/wachtwoord is opgegeven. Het feit is dat Yandex een dergelijke melding kan geven bij een IP-ban voor een volledig werkend account, daarom kunnen dergelijke accounts optioneel worden behouden voor hergebruik. Never - nooit verwijderen. Ongeacht de gekozen optie worden accounts niet verwijderd bij proxy-/browserfouten |
| Use sessions | ☑ | Gebruik van sessies |
| Wait new accounts in "accounts.txt" | 0 | Wachttijd voor het verschijnen van nieuwe accounts in accounts.txt |
| SE::Yandex::Register preset | default | Keuze van preset voor SE::Yandex::Register |
| Force neuro | ☐ | Geforceerd inschakelen van het neuro-antwoord, vergelijkbaar met het handmatig schakelen tussen "Zoeken" and "Zoeken met Alice" |
