Passer au contenu principal

SE::Yandex - Scraper de résultats de recherche Yandex

Yandex

Présentation du scraper

Le scraper de la page de résultats de recherche Yandex fait légitimement partie du TOP 5 des scrapers les plus demandés. L'un des principaux avantages concurrentiels de notre scraper est sa productivité colossale. Grâce au traitement multithread d'A-Parser, la vitesse de traitement des requêtes peut atteindre 3000-7000 requêtes par minute, ce qui permet en moyenne d'obtenir jusqu'à 5 000 000 de liens par minute, tout en ayant une consommation de ressources minimale ; n'importe quel ordinateur de bureau ou personnel, ainsi que n'importe quel VDS d'entrée de gamme, convient pour le travail. Notre scraper prend en charge tous les opérateurs de recherche Yandex, ce qui permet d'élargir considérablement les possibilités de collecte de données. La stabilité et la continuité de la collecte de données des résultats sont assurées par la reconnaissance des captchas via AntiCaptcha ou toute autre API les prenant en charge (Anti-Captcha, RuCaptcha, CapMonster.cloud, 2captcha et autres).

La flexibilité des paramètres permet de spécifier le type de résultats (mobile/desktop), la région, la langue, le tri des résultats par date et bien plus encore. La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte de données pour une utilisation ultérieure (présélections), de définir un calendrier de collecte et bien plus encore. Vous pouvez utiliser la multiplication automatique des requêtes, la substitution de sous-requêtes à partir de fichiers, l'itération de combinaisons alphanumériques et de listes pour obtenir le maximum de résultats possible.

La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarit intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'exporter les données dans divers formats, y compris JSON, SQL et CSV.

Cas d'utilisation du scraper

Données collectées

Données collectées
  • Nombre de résultats par requête
  • Liens, ancres et snippets des résultats
    • Des informations sur les drapeaux de chaque résultat sont également collectées, actuellement les drapeaux suivants sont pris en charge : Date, Aperçu d'image, Vidéo, Rich snippet, Featured snippet
  • Heure de la première et de la dernière mise en cache (uniquement pour les résultats desktop)
  • Liste des mots-clés associés (Related keywords)
  • Détermine si Yandex a considéré la requête comme une faute de frappe ou non
  • Collecte du lien vers le cache de la page (uniquement pour les résultats desktop)
  • Liste des noms des icônes du site, ainsi que leurs types, s'ils sont présents (y compris Turbo)
  • Blocs publicitaires supérieur, moyen et inférieur de toutes les pages
    • Lien, lien visible, ancre, snippet et domaine
    • Liens et ancres supplémentaires
    • Station de métro
  • Mots manquants (mots qui peuvent s'afficher sous chaque résultat dans les résultats avec la mention "Non trouvé")
  • Liste des réponses rapides (Quick answers) : questions, réponses, liens vers les sources (activé par l'option séparée Parse Quick answers)
  • Réponse IA (Recherche avec Alice), son type et la liste des sources

Fonctionnalités

  • Choix du type de résultats : mobile/desktop
  • Prise en charge de tous les opérateurs de recherche Yandex (site:, lang:, etc.)
  • Scrape le nombre maximal de résultats fournis par Yandex - 25 pages de 50 éléments par résultat
  • Possibilité de rechercher des mots-clés associés
  • Prend en charge le choix de la région de recherche, du domaine
  • Possibilité de trier les résultats par date
  • Scrape l'heure d'indexation de la page, avec possibilité de filtrer les résultats selon ce paramètre
  • Option d'émulation de navigateur (permet d'atteindre une vitesse de collecte élevée et une faible consommation de captchas)
  • Possibilité de contourner les captchas à l'aide du service AntiCaptcha ou de tout autre service prenant en charge leur API (il est recommandé d'activer le paramètre is_russian dans les paramètres de l'anti-captcha)
  • Possibilité de définir le nombre de réponses rapides (Quick answers) que le scraper doit collecter en cliquant en profondeur sur chaque question

img

Les scrapers suivants fonctionnent sur la base du scraper Yandex :

Variantes d'utilisation

  • Collecte de bases de liens - pour A-Poster, XRumer, AllSubmitter, etc.
  • Évaluation de la concurrence pour les mots-clés
  • Recherche de backlinks (mentions) de sites
  • Vérification de l'indexation des sites
  • Recherche de sites vulnérables
  • Toutes autres variantes impliquant la collecte de données Yandex sous une forme ou une autre

Requêtes

En tant que requêtes, il est nécessaire d'indiquer des phrases de recherche, exactement comme si vous les saisissiez directement dans le formulaire de recherche Yandex, par exemple :

fenêtres Paris
lang:en windows Moscow
url:a-parser.com
site:a-parser.com
"a-parser.com"

Substitutions de requêtes

Vous pouvez utiliser les macros intégrées pour multiplier les requêtes, par exemple nous voulons obtenir une très grande base de forums, indiquons quelques requêtes de base dans différentes langues :

forum
forum
foro
论坛

Dans le format des requêtes, indiquons une itération de caractères de a à zzzz, cette méthode permet de faire pivoter au maximum les résultats de recherche et d'obtenir de nombreux nouveaux résultats uniques :

$query {az:a:zzzz}

Cette macro créera 475254 requêtes supplémentaires pour chaque requête de recherche initiale, ce qui donnera au total 4 x 475254 = 1901016 requêtes de recherche, un chiffre impressionnant, mais ce n'est pas du tout un problème pour A-Parser. À une vitesse de 2000 requêtes par minute, une telle tâche sera traitée en seulement 16 heures.

Utilisation des opérateurs

Vous pouvez utiliser des opérateurs de recherche dans le format de la requête, ainsi il sera automatiquement ajouté à chaque requête de votre liste :

site:$query

Comptes

Pour le fonctionnement du scraper SE::YandexSE::Yandex, des comptes Yandex peuvent être nécessaires. Les comptes peuvent être enregistrés à l'aide du scraper SE::Yandex::RegisterSE::Yandex::Register ou simplement en ajoutant des comptes existants au fichier files/SE-Yandex/accounts.txt au format supporté.

Ou vous pouvez activer l'enregistrement des comptes "à la volée".

Pour travailler en utilisant l'autorisation par session, il est nécessaire que la chaîne de données soit dans ce format : [email protected];MAQT78Z31Rinx4H;{"answer":"qmfhsxdcrk","proxy":"185.104.120.45:3128","session_id":"3:1748440908.5.0.1748440867459:ZXBxpg:47e4.1.2:1|2191075974.41.2.2:41.3:1748440908|3:10308131.797655.5pfkoRZWgLJGntKTlcUhYdysNfk"}

Variantes d'affichage des résultats

A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarit intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme arbitraire, ainsi que sous une forme structurée, par exemple CSV ou JSON

Exportation d'une liste de liens

Format du résultat :

$serp.format('$link\n')

Exemple de résultat :

https://TestoMetrika.com/tests/
https://onlinetestpad.com/ru/tests
https://www.speedtest.net/
https://ustaliy.ru/testi/
https://yandex.ru/internet/
https://konstruktortestov.ru/popular
https://TestEdu.ru/test/
https://kto-chto-gde.ru/category/tests/
https://weekend.rambler.ru/tests/
https://GadalkinDom.ru/test
...

Format du résultat :

[% FOREACH item IN serp;    loop.count _ ' - ' _ item.link _ ' - ' _ item.anchor _ ' - ' _ item.snippet _ "\n"; END %]

Exemple de résultat :

1 - http://forum.r-rp.ru/ - <b>forum</b>.r-rp.ru - 
2 - https://forum.arizona-rp.com/ - <div class=a11y-hidden>Résultat Web avec liens supplémentaires</div><b>Forum</b> – Arizona Role Play - Menu. Accueil. <b>Forums</b>. Nouveaux messages. Quoi de neuf ? Nouveaux messages. Utilisateurs. Visiteurs actuels. <b>Forums</b>. Connexion. ... Statistiques du <b>forum</b>. Sujets. 1,247,176. Messages. 5,225,340. Utilisateurs. 623,675.
3 - https://ru.wikipedia.org/wiki/%D0%A4%D0%BE%D1%80%D1%83%D0%BC - <b>Forum</b> — Wikipédia - <b>Fórum</b> (lat. <b>forum</b> — arch. parvis d'un tombeau ; aire dans un pressoir pour le raisin à traiter ; place du marché, marché de la ville ; place centrale) :
4 - https://zen.yandex.ru/media/propromotion/chto-takoe-forum-i-vse-chto-s-nim-sviazano-5d65164c1d656a00ad52ba30 - Qu'est-ce qu'un <b>forum</b> et tout ce qui s'y rapporte | Créative... - Aujourd'hui nous allons parler de ce qu'est un <b>forum</b> et de tout ce qui s'y rapporte avec des mots simples et accessibles. Chacun de nous cherche à trouver une personne avec qui construire une communication sur des intérêts communs, partager son expérience, donner des conseils. Dans le monde moderne, tout cela est devenu possible sans quitter la maison. Justement, l'une des formes d'un tel contact virtuel est le web-<b>forum</b>.
5 - https://forum.vimeworld.ru/ - VimeWorld - <b>Forum</b> - <b>Forum</b> du projet de serveurs de jeux Minecraft idéaux - VimeWorld...
...

L'utilitaire intégré $tools.CSVLine permet de créer des documents tabulaires corrects, prêts pour l'importation dans Excel ou Google Sheets.

Format général du résultat :

[%  FOREACH i IN p1.serp;    tools.CSVline(i.link, i.anchor, i.snippet); END  %]

Nom du fichier :

$datefile.format().csv

Texte initial :

Lien,Ancre,Snippet

astuce

Dans le Format général des résultats est utilisé le moteur de gabarit Template Toolkit pour afficher le tableau $serp dans une boucle FOREACH.

Dans le nom du fichier de résultats, il suffit de changer l'extension du fichier en csv.

Pour que l'option "Texte initial" soit disponible dans l'Éditeur de tâches, vous devez activer "Plus d'options". Dans "Texte initial", nous inscrivons les noms des colonnes séparés par des virgules et nous laissons la deuxième ligne vide.

Affichage des blocs publicitaires

Format du résultat :

$ads.format('$link - $anchor - $snippet\n')

Exemple de résultat :

http://yabs.yandex.ru/count/WcOejI_zO3C2vH80P1zY-_ryBtnaD0K0CmCnZYWCO000000u109mhiMfd8qUW07CkUOvY07Kyz3GCP01vCcQhIwO0PgqhFigk06qZQ3m6C01NDW1gkAR5E01kAZK4-W1y06W0kYCvAl-Wue5-0Bmwl7WeSQurUK1c0FRc3lkh0Ju1Bpr48W5lFKGa0MxjssW1Qxa1QW5hkG5i0Mkv0Mu1OYr9S05eTt90SW5aFn4YkWqZwuhO8VP1W00012H0000gGVlTvJIyeiV0R07W82O3BW7W0Nn1tjIyvgFUtz-X8A0WSIqXdB92j4AXC7wM-4_u3nZJEzt003CKjw5aRa50DaBw0kyzRAxthu1gGn-j62AsN3cl-WCemBW3OE0W4293eDHIPs09kwAqTFvwFMAi8VO3WAX3zaFW13WszlG4DcTXo9ZI0HkD3-n4YxXl0bOc-q2u1E8jIMW58Yr9QWKkxTjl9wVx0Ne58m2q1Mydf_i1TWLmOhsxAEFlFnZyA0Mq92TW0R95l0_q1Qokzw-0O4N0F0_c1UwdvGKg1S9m1Uq0jWNm8GzcHYW60wm68UTi806q1WX-1Yf-9keZlxncYM06R3qkEBGlP6v890P0Q0PmWEm6RWP____0T8P4dbXOdDVSsLoTcLoBt8qEJSjCkWPWC83y1c0mWE16l__WxZFMxv27W2GPM2khLr2HGBSgKCU4fSjR_apLy29ToVZBSaX0K10aLK2xDc6HsxyWlx3mqOzRTCnV7G7IDvEXnY4YqauFXdHmHcIWrcJNGT1NfMC_8eB8q1m1-WEYbKFtWBTZHwcD4A80G00~1?from=yandex.ru%3Bsearch%26%23x2F%3B%3Bweb%3B%3B0%3B&amp;q=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%B0%D0%B2%D0%B8%D0%B0%D0%B1%D0%B8%D0%BB%D0%B5%D1%82%D1%8B&amp;etext=2202.wBaB7RlytlP_PRaU6jPhHD2nHBNT_4gSF6009OyJEfpWjUPoA5WrSJAqCfap0m9ReXhoaGRlaWhmYmllemF2ZA.f04b1271668949ea17ffcafcb11c72c2ab6454c5 - <b>Acheter</b> <b>billet d'avion</b> vers / aviasales.ru - Nous proposons : <b>Acheter</b> <b>billet d'avion</b> vers ici. Super offre ! Dépêchez-vous !
http://yabs.yandex.ru/count/WgGejI_zO5e2rHG092HY-_ryhkYFF0K0MWCnZYWCO000000u109mhDZpa8WGW07ZZm680U2f-wrQa07AywxRoe20W0AO0ShphjjAk06oWAxe8C01NDW1e8MobW7W0TJCXm_e0O01c0BImFq2e0BuQjW20l02g_w3YWNu0l3gyU2XnhZLvG600vF6eiSFY0FStR-O39W3cyKxYga3-0JJpWI81TFE1905Z-zGe0MPj06e1PMM0R05bPO1k0NInnJ01TF1ZG781PNz8uheD8-kAs27sGO0000GaG000Aa7xtUKqlAB7m6m1u20c0ou1u05yGTxKlEQZtj_VeI2l3M02W712l_aZtPQIU8_oGeJ5NRdMhxJFweB4E0yOqplTm00p5BUXP6v1G3P2-WBqyu4y0i6Y0ookzw-0QaCu_jL-Yu3zB_e3AC2u0s3W810YGwgO5HI9w3dYj7J-UZrYh27s0u2-0x7dPAe2Q4FFGhNet0zzZ_P3_0_W13GmC4Rm92GPpgqxC9xJZC_iHAuM7p6uhZj0k0JqiSKe1JInnIe58_lKB0KYw381hWKmAo0jQI04TWK-FpP_WNe58m2q1Nu_Dd-1TWLmOhsxAEFlFnZyA0Mq92TW0R95j0MihlUlW615vWNfwZz3wWN2S0Nj0BO5y24FPaOe1WAi1Z9fB201j0O8VWOgVYRg8x-yPebW1cmzBZYqBsHkI2G6G6W6S83i1cu6V___m7I6H9vOM9pNtDbSdPbSYzoD3atBJBe6O320_0PWC83WHh__oD2TTsApne0jsLWrgrT_2INXiZt8r8kcvWxe0SCE37tPBmjEYG0203ecjreFlD0AY-khXXjgcFZa190IXd9BOrkl3guMzzraExES_xHXH4WwWDq1xIoUlHJ6Y74~1?from=yandex.ru%3Bsearch%26%23x2F%3B%3Bweb%3B%3B0%3B&amp;q=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%B0%D0%B2%D0%B8%D0%B0%D0%B1%D0%B8%D0%BB%D0%B5%D1%82%D1%8B&amp;etext=2202.wBaB7RlytlP_PRaU6jPhHD2nHBNT_4gSF6009OyJEfpWjUPoA5WrSJAqCfap0m9ReXhoaGRlaWhmYmllemF2ZA.f04b1271668949ea17ffcafcb11c72c2ab6454c5 - <b>Acheter</b> <b>billet d'avion</b> en ligne sur Tutu.ru ! Site officiel ! - Billets d'avion à bas prix ! Vols avantageux dans le monde entier ! <b>Acheter</b> billet en ligne !
http://yabs.yandex.ru/count/WcOejI_zO3C2vH80P1zY-_ryBtnaD0K0CmCnZYWCO000000u109mhiMfd8qUW07CkUOvY07Kyz3GCP01vCcQhIwO0PgqhFigk06qZQ3m6C01NDW1gkAR5E01kAZK4-W1y06W0kYCvAl-Wue5-0Bmwl7WeSQurUK1c0FRc3lkh0Ju1Bpr48W5lFKGa0MxjssW1Qxa1QW5hkG5i0Mkv0Mu1OYr9S05eTt90SW5aFn4YkWqZwuhO8VP1W00012H0000gGVlTvJIyeiV0R07W82O3BW7W0Nn1tjIyvgFUtz-X8A0WSIqXdB92j4AXC7wM-4_u3nZJEzt003CKjw5aRa50DaBw0kyzRAxthu1gGn-j62AsN3cl-WCemBW3OE0W4293eDHIPs09kwAqTFvwFMAi8VO3WAX3zaFW13WszlG4DcTXo9ZI0HkD3-n4YxXl0bOc-q2u1E8jIMW58Yr9QWKkxTjl9wVx0Ne58m2q1Mydf_i1TWLmOhsxAEFlFnZyA0Mq92TW0R95l0_q1Qokzw-0O4N0F0_c1UwdvGKg1S9m1Uq0jWNm8GzcHYW60wm68UTi806q1WX-1Yf-9keZlxncYM06R3qkEBGlP6v890P0Q0PmWEm6RWP____0T8P4dbXOdDVSsLoTcLoBt8qEJSjCkWPWC83y1c0mWE16l__WxZFMxv27W2GPM2khLr2HGBSgKCU4fSjR_apLy29ToVZBSaX0K10aLK2xDc6HsxyWlx3mqOzRTCnV7G7IDvEXnY4YqauFXdHmHcIWrcJNGT1NfMC_8eB8q1m1-WEYbKFtWBTZHwcD4A80G00~1?from=yandex.ru%3Bsearch%26%23x2F%3B%3Bweb%3B%3B0%3B&amp;q=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%B0%D0%B2%D0%B8%D0%B0%D0%B1%D0%B8%D0%BB%D0%B5%D1%82%D1%8B&amp;etext=2202.wBaB7RlytlP_PRaU6jPhHD2nHBNT_4gSF6009OyJEfpWjUPoA5WrSJAqCfap0m9ReXhoaGRlaWhmYmllemF2ZA.f04b1271668949ea17ffcafcb11c72c2ab6454c5 - <b>Acheter</b> <b>billet d'avion</b> vers / aviasales.ru - Nous proposons : <b>Acheter</b> <b>billet d'avion</b> vers ici. Super offre ! Dépêchez-vous !
...

Format du résultat :

$related.format('$key\n')

Exemple de résultat :

<b>test</b> tanki online
tanki online
tous les <b>tests</b> point ru
i exam ru test
<b>test</b> de vitesse internet
<b>tests</b>24.ru
speedtest
test<b>de performance pc</b> en ligne
test en ligne
my <b>test</b> student comment connaître les réponses
...
astuce

Pour que les balises HTML soient automatiquement supprimées du résultat, vous devez utiliser le Constructeur de résultats, choisir le tableau $related et appliquer Remove HTML tags.

Concurrence des mots-clés

Format du résultat :

$query - $totalcount\n

Exemple de résultat :

tous les tests point ru - 25000000
test en ligne - 13000000
tanki online - 7000000
i exam ru test - 27000000
tests24.ru - 238000000
test de performance pc en ligne - 16000000
speedtest - 2000000
test de vitesse internet - 16000000
test tanki online - 19000000
my test student comment connaître les réponses - 16000000

Détermination des mots-clés avec des erreurs

Format du résultat :

$query - $misspell\n

Exemple de résultat :

test en ligne - 0
test de vitesse internet - 0
test en ligne (faute de frappe) - 1
test de vitesse internet (faute de frappe) - 1

Vérification de l'indexation des liens

Format de la requête :

site:$query

Format du résultat :

$query.orig - $totalcount\n

Exemple de résultat :

https://a-parser.com/pages/buy - 2
https://a-parser.com/wiki/parsers - 16
https://trjkjfkdf.bg.ky - 0
https://a-parser.com/resources - 1000
https://a-parser.com/forum - 499
astuce

Pour vérifier l'indexation des liens, nous insérons l'opérateur correspondant dans le Format de la requête : site:.

Le format du résultat est affiché sous la forme "url source - nombre de pages dans l'index".

En résultat, nous obtenons l'adresse des pages et leur nombre dans l'index du moteur de recherche.

Si la page est absente, alors le résultat sera : 0.

Sauvegarde au format SQL

Format du résultat :

[%  FOREACH serp;   "INSERT INTO serp VALUES('" _ query _ "', '";   link _ "', '";  anchor _ "')\n"; END  %]

Exemple de résultat :

INSERT INTO serp VALUES('test', 'https://konstruktortestov.ru/popular', 'Populaires <b>tests</b>')
INSERT INTO serp VALUES('test', 'https://TestoMetrika.com/tests/', '<b>Tests</b> c en ligne avec résultat précis psychologique...')
INSERT INTO serp VALUES('test', 'https://ustaliy.ru/testi/', '<b>Tests</b> en ligne : les meilleurs, intéressants et populaires')
INSERT INTO serp VALUES('test', 'https://www.SunHome.ru/tests/Interesting_tests', '<b>Tests</b>. intéressants. Passer des tests psychologiques intéressants...')
INSERT INTO serp VALUES('test', 'https://onlinetestpad.com/ru/tests', '<b>Tests</b> en ligne | Online Test Pad')
...

Dump des résultats en JSON

Format de sortie general:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.totalcount = p1.totalcount;
obj.links = [];

FOREACH item IN p1.serp;
obj.links.push(item.link);
END;

obj.json %]

Texte initial:

[

Texte final:

]

Exemple de résultat :

[{"totalcount":113000000,"links":["https://TestoMetrika.com/tests/","https://konstruktortestov.ru/popular","https://ustaliy.ru/testi/","https://www.SunHome.ru/tests/Interesting_tests","https://GadalkinDom.ru/test","https://zen.yandex.ru/tes","https://onlinetestpad.com/ru/tests","https://kto-chto-gde.ru/category/tests/","https://psytests.org/top.html","https://MixTests.com/new/","https://TestEdu.ru/test/","https://testserver.pro/index","https://onedio.ru/tests","https://BankTestov.ru/","https://weekend.rambler.ru/tests/","https://edieta.org/testi","https://trikky.ru/?%21","https://BBF.ru/tests/","https://dropi.ru/c/tests/raznie","https://cadelta.ru/tests","https://www.Elle.ru/tests/","https://www.adme.ru/svoboda-psihologiya/polnyj-spisok-psihologicheskih-testov-dlya-poznaniya-sebya-kotorye-mozhno-projti-onlajn-2071715/","https://www.ellegirl.ru/tests/","https://test.tankionline.com/","https://vraki.net/onlajn-testy/","https://Lifehacker.ru/psixologicheskie-testy/","https://iq2u.ru/tests","https://www.b17.ru/tests/","https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D1%81%D1%82","https://gurutest.ru/test/","https://www.psychologies.ru/tests/","https://peopletalk.ru/category/tests/","https://obrazovaka.ru/testy","https://likeyou.io/category/test/","https://ProfTest.me/tests","https://TayniyMir.com/testy","https://psi-technology.net/psytest/","https://www.kp.ru/putevoditel/online-test/","https://tvoytest.ru/","https://twizz.ru/tests/","https://lunanews.net/testy/","https://www.ivi.ru/titr/tests","https://sntch.com/tests/","https://testy.online/","https://videouroki.net/tests/","https://www.speedtest.net/ru","https://rb.ru/tests/","https://aznaetelivy.ru/tests/","https://woman-psy.com/psihologicheskie-testy/testy_na_eruditsiyu_i_znaniya/interesnye_testy/","https://mamochka-club.com/psihologicheskie-testy/interesnye-testy/"]}]
astuce

Pour que les options "Texte initial" et "Texte final" soient disponibles dans l'Éditeur de tâches, vous devez activer "Plus d'options".

Traitement des résultats

A-Parser permet de traiter les résultats directement pendant la collecte de données, dans cette section nous avons présenté les cas les plus populaires pour le scraper Yandex

Ajouter la déduplication et dans la liste déroulante choisir $serp.$i.link - Link.

Télécharger l'exemple

Comment importer un exemple dans A-Parser

eJx9VE2P2jAQ/SurEYdWQqvQLpfcWFSqVnTZLuyhohy8ZIJcHNu1HQqK+O+dCUkc
ttVeoszze/NtVxCE3/tHhx6Dh3Rdga3/IYXlpzT9IXSGx5u51Ht/86zl7xJhCFY4
j47p6x6LDjLMRakCDCsIJ4vkxBzQOZmxSmZkW2eOJ4fBSfSEHYQqmTZKkgTOb8jE
Drem1CFqRm/QFedr0bEsKsZJT1K2xVC5nHK6BqrJEsBi2AwbxupC95Sx3kGLflbm
RShIgyvxvNm0XvzMuEJw8wZ2dNt0sjtcigOuDB3mUsXIfkbWgyg4yiATAfn0Nq8d
vXt/G47sQWSZDNJooS4RuPcxajOYFLQhLv1yd2fOFAQFrB0weGqzW8OgtmOV3y8a
SHOhPA7BU6ozQYlkr09kQCeCcQvL+RBegdETpeZ4QBVptf/7UqqMFmWSk+hLI/w/
ZfGPj3NXXj8UDfqPoxw6L7V1v/gWVZmZmx1Vnr3UwyxkINtP6+1JISFwj2i7nj1w
zwrjsAvTeG6i092wqHmr4sgmNkJXZVyN5RrcGp3L3aLZ1JZZ6hVdwIWemsIq5Lp0
qRSNxeNTXI+Jb8bARkzwtXhah+DS23sIwRjlvy4vqVonaf3GnGBBnexHbVxuhVLP
T/P+CcSVIuNnmdzdfeDvx3H9P7ogwNqAO0NbRZWdN90r0b0tVf+tSKszjeqXf7yQ
uC6mEEYN8jQHvuB/AYBymo0=
astuce

Ajouter la déduplication et dans la liste déroulante choisir $serp.$i.link - Link. Choisir le type de déduplication : Domaine.

Télécharger l'exemple

Comment importer un exemple dans A-Parser

eJx9VE2P2jAQ/SvI4tBKCIV2ueTG0lK1ost2YQ8V5WDIBLk4tms7FBTx33fGCXHY
VnuxPG/mzbddMc/dwT1acOAdS9cVM+HOUrb8nKY/ucrg1JsLdXC9ZyX+lNDbnnuf
dMGFYgNmuHVgibju2KMig5yX0rNBxfzZALrTR7BWZIBKkaFsrD6dLXgrwCF25LIk
s1GSJOzyBo3vYadL5SNn9Ia5pMwNWKJFxjjpUMpQFiqxcEo5XTOsySBAZLYZNBar
2jy71l6jX6TecslSb0u4bDZXL26mbcGpjX0zGjY9bZVLfoSVRmUuZIzsZig98IKi
9DPugbTDPDh6937oT+SBZ5nwQisu6wjU+xi1HhHylUZbvFJ3Z1YXCHkIDgg8X7Nb
s36QY5U/ag5Lcy4dDJjDVGccE8lea4QHy722C0P5IF4xrSZSzuEIMpoF//elkBku
yiRH0teG+H+TxT8+Lm153VA46L8Wc2i9BOl+8T2yMj3XexrZNgyzEB5lNw3bk7IE
wQOAaXv2QD0rtIU2TOO5iY6vxICirYojm5gI3ZRxM5ZbcKdVLvaLZlOvlqVa4VNc
qKkujASqS5VS4lgcPMX1mLhmDCTEBF+TpyEElX59h8xrLd23ZZ2qsQLXb0wJFtjJ
btTG5Y5L+fw072pYXCkUfpXJ3d0HOj+Ow31UI4y4HvYatworu2zaX6L9ZaruX5FW
FxzVb/dYG1FdZIIYNsjhHOiBvwAa7J3h
astuce

Extraction de domaines

Ajouter le Constructeur de résultats et dans la liste déroulante choisir la source : $p1.serp.$i.link - Link. Choisir le type : Extract Domain.

Télécharger l'exemple

Comment importer un exemple dans A-Parser

eJx9VEtv2zAM/isFkcMGBIGzNRff0qwBNmRN17SHIetBi+lAiyxpkpwlMPzfR8qO
7XZDL4b5+Eh+fKiCIPzB3zv0GDyk2wps/IcUNrdp+l3oDE9Xt6fgxC5cfTKFkNrD
GKxwHh0jtgNHMmSYi1IFGFcQzhYpjjmiczJDMsqMZOvM6ewwOIkc6ShUyW7TJEmg
fgMm9rgzpQ49ZvqGu5L64C06hvWIWVI/P4+BKFKNfmlcIZjqyE4nLe/OuBFHfDRk
zKXCXr0k6U4UnHKUiYBsneQx0Lv3k3DiCCLLZJBGC9Vk4Db1WZ+0/B0Za0O+9MuN
WDpTkCpgDMDK86W6LYyiDBSijNhvDQbSXCiPY/BU6lJQIdlriwzoRDBubbke0ldg
9FypFR5R9W4x/k0pVUYznecE+twC/++y/idG3dEbpqKZ/HFUQxclSjfrrz0qMyuz
J+bZT+KtZCEDyX4RB51CQsoDou16dsc9K4zDLk0buc1Om2xR8wL0I5vbXvWCxoux
DJQVeFO6HeXbJuMt0KLbWJw+AG9Pu3HYHEVzEzx158SZ9K17MO0WQk2YndG53K/b
Jb1kLvUjnd9aL0xhFXKfdKkUjdnjQ79uc9+OlYWe8GvwIqbgVl5OkGowyn/ZNNSt
k1TSjAkXNJlh1jbkTij19LAaWqBfURJ+lMn19Qf+fpzF/2mjAcYG3BvaUmLGhNsH
ontZquEzkVY1jf6Xv2+cmBe7kI4a5GmufNt/AaiMmIc=
astuce

Suppression des balises des ancres et des snippets

Ajouter le Constructeur de résultats et dans la liste déroulante choisir la source : $p1.serp.$i.anchor - Anchor. Choisir le type : Remove HTML tags.

Ajouter à nouveau le Constructeur de résultats et dans la liste déroulante choisir la source : $p1.serp.$i.snippet - Snippet. Choisir le type : Remove HTML tags.

Télécharger l'exemple

Comment importer un exemple dans A-Parser

eJyVVN9v2jAQ/lcii4dNQihs5SVvFA11Ey0dtA8T64NHLszDsT3bYaCI/313jknS
rqq0lyi+u++7X59dM8/d3t1bcOAdyzY1M+GfZWz9Kcu+cZXDMVlBqQ+Q3DzcLhLP
dy4prC6Tqdr+1NYlGJOslTCGKIbMcOvAEtmmx4GOHApeSc+GNfMnA5gCSa0VOaBT
5Hg2Vh9PFrwVQEwHLisKG6dpys5vwPgOtrpSvsOM3wiXQu2dAUuwDjFJz09PQ4bd
Y41urm3JaQoDMx7FkbTONT/Ag0ZnISR05jme7nhJKQc590DeURGI3r0f+SMx8DwX
XmjFZZOBxtRlfVTid+hYaYzFXxrEHGeNJg+BgIynS3UbNghnhhRVwH5tMCwruHQw
ZA5LnXMsJH/pER4s99ouDdWD9pppNZVyAQeQXVjgv66EzHGn0wJBnyPw9ZDlPxzn
tr1+KtzJH4s1tCzhdL287VC5Xugddp7/wL6lKIXHs5uFRWcsReMewLQzu6OZldpC
myYyx+wocgOKBNCtbGo607M2nq2lZ6yZ05XdYr5NOtwwFLqhrYabwEg/UXM23Jgb
X0pyW8tPaIzRnqQTISTT1xhdc5/+i/KCOSNmq1Uhdsuo/Es7lXrA675UM10aCTR8
VUmJ2nGw6jQ8dVErdOim+BI8CyloP5d7jWVo6b6sm3kaK7CqyTAW3s8aKbdcysfV
ou9hne7x8L1Kr64+0PfjJPyPGwsjrIedRuljZ9RwfHXal6zuvz1ZfUY9/XL3TRD1
RSFowwE5FAs9GH8BhLW+Jg==
astuce

Le Constructeur de résultats peut être ajouté autant de fois que vous le souhaitez.

Voir aussi : Constructeur de résultats

Ajouter un filtre et dans la liste déroulante choisir : $serp.$i.link - Link. Choisir le type : Contient la chaîne. Ensuite, dans Chaîne inscrire le critère de filtrage, par exemple, si nous voulons que seuls les liens contenant .com, soient sauvegardés, c'est ce que nous écrivons dans "Chaîne".

Télécharger l'exemple

Comment importer un exemple dans A-Parser

eJx9VE2P2jAQ/SvI4tBKCMFhL7mxqEit6LJd2EOFOHjxJHJxbNd2KCjKf++ME+Kw
rfaW+Xhv3nw4NQvcn/yzAw/Bs2xfMxu/Wca2X7LsJ9cCLqOVVAGc1MXo7TryIX5J
PVJSn9iEWe48OELvByAMCMh5pQKb1CxcLSCnOYNzUgAGpUDbOnO5OkBG8Og7c1VR
2nw2m7HmAxgv4GgqHRJm/kE66fQWHMES4mE2gOSxQwxi9yQ52zPsyaIjNnmYdBm7
Nv1odOBSDyRPj6ZE09ggjUbbg/asORxujH5lXMlprmM7n3ZD7oNbfoadaXVAcuPc
4YmXxD8WPABFp3kk+vR5Gi7EwIWQVJOrtgLtIVV91fJ31KcN5uInTXrlUGvGAkQC
cl5v6vZsHG3quIrYHy2GZTlXHibMo9QVRyHifUTifHgwbhNngP6aGb1Qag1nUCkt
8j9WUgk8mkWOoK8d8P8pm384mr69YSlc+h+HGnqWaD1uvieUMGtTYOfiLS62lAFt
v4yXlLEZOk8Atp/ZE82sNA76Mh1zVx2fjQVNF5ZWtrDJddfG3VrunXhNuSw23dXe
Miu9w7e50UtTWgXUl66UwrV4eEnnsfDdGshIAt+Dl7EEtX57kywYo/y3bSvVOonn
90ACS5zksGpHeeRKvb6shxGWTiqekyfaI95pYfCCsIvm0P8d+l9MPfxHZHWDa/nl
n9sk6oFS0IfD8PElzZu/Z6ed/A==
astuce

Paramètres possibles

Nom du paramètreValeur par défautDescription
AntiGate presetdefaultChoix de la présélection Util::AntiGateUtil::AntiGate, plus de détails sur le paramétrage ici
AntiGate preset for old captchadefaultAnalogue à AntiGate preset, mais utilisé uniquement pour les captchas ordinaires (anciens, sous forme d'une seule image). Si aucune présélection n'est choisie ici, la présélection choisie dans AntiGate preset sera utilisée pour ces captchas.
Experimental img captcha max count5Nombre maximal de tentatives d'images captcha répétées par essai
Preffered captcha typeClickChoix du type de captcha préféré : Click ou Puzzle
EngineHTTP (Fast, JavaScript Disabled)Permet de choisir le moteur : HTTP (plus rapide, mais plus de probabilité de captchas) ou navigateur (plus lent, mais moins de probabilité de captchas)
DeviceModern desktop computer (Windows 10, Chrome 84)Choix du type de résultats (Desktop computer / Mobile device)
Pages count5Nombre de pages à scraper (de 1 à 25)
Sort serp by dateTri des résultats par date
Serp timeAll timePériode de recherche
Yandex domainwww.yandex.ruDomaine Yandex pour le scraping, tous les domaines sont pris en charge (.ru, .ua, .by, .kz, .com.tr, .com). À partir de la version 1.1.345, il est choisi automatiquement en fonction de la région sélectionnée.
Region of serp (lr=)MoscouChoix de la région de recherche (paramètre lr=)
Custom region IDPossibilité de spécifier l'ID d'une région absente du champ de sélection. Cette option a la priorité sur l'option Region of serp (lr=). Il est impératif de définir le domaine correspondant dans Yandex domain.
Search sites from (rstr=)Not setChoix de la liaison régionale des sites (paramètre rstr=)
LanguageAnyLangue des résultats de recherche (Russian, English, Belorussian, French, German, Indonesian, Kazakh, Tatar, Turkish, Ukrainian)
Parse not foundDétermine s'il faut scraper les résultats si zéro résultat est trouvé pour la requête recherchée et que des résultats pour une autre requête sont proposés
Not personalizedPersonnalisation de la recherche. Plus de détails ici
Filter pagesModerate filterFiltrage des résultats contre le contenu indésirable (Family search / Moderate filter / Do not filter)
Use AccountsTravail avec les comptes existants dans le fichier files/SE-Yandex/accounts.txt. SE::Yandex::RegisterSE::Yandex::Register - Permet d'enregistrer des comptes sur Yandex
Remove bad accountsSuppression des comptes invalides
Quick answers count0Nombre maximal de questions-réponses (Réponses rapides) par requête que le scraper doit collecter
Parse generative answerS'il faut scraper la réponse générative (cela ajoute une sous-requête supplémentaire et ralentit donc le travail global)
AccountsOnly from "accounts.txt"Choix de la méthode de travail avec les comptes : Always auto register - toujours enregistrer automatiquement les comptes "à la volée", nécessite de choisir une présélection configurée dans le paramètre SE::Yandex::Register preset. Auto register if no more in "accounts.txt" - les comptes existants de accounts.txt sont utilisés en premier, et s'ils s'épuisent - l'enregistrement automatique "à la volée" est utilisé, pour lequel il faut choisir une présélection configurée dans le paramètre SE::Yandex::Register preset. Only from "accounts.txt" - utiliser uniquement les comptes existants de accounts.txt, et s'ils s'épuisent - attendre le temps défini (paramètre Wait new accounts in "accounts.txt") pour l'apparition de nouveaux. Only by session_id from "accounts.txt" - autorisation par cookies.
Remove bad accountsAlways, except wrong login/passwordSuppression automatique des "mauvais" comptes : Always - toujours supprimer. Always, except wrong login/password - supprimer toujours, sauf dans les cas où Yandex a signalé qu'un identifiant/mot de passe incorrect a été indiqué. Le fait est que Yandex peut donner un tel message lors d'un bannissement d'IP pour un compte tout à fait fonctionnel, c'est pourquoi on peut optionnellement laisser de tels comptes pour une réutilisation. Never - ne jamais supprimer. Indépendamment de l'option choisie, les comptes ne sont pas supprimés en cas d'erreurs de proxy/navigateur
Use sessionsUtilisation des sessions
Wait new accounts in "accounts.txt"0Temps d'attente pour l'apparition de nouveaux comptes dans accounts.txt
SE::Yandex::Register presetdefaultChoix de la présélection de paramètres pour SE::Yandex::RegisterSE::Yandex::Register
Force neuroActivation forcée de la réponse neuronale, analogue au basculement manuel entre "Recherche" et "Recherche avec Alice"