Passer au contenu principal

SE::Yandex::Images - scraper Yandex Images

Yandex Images

Présentation du scraper

Scraper d'images des résultats de recherche Yandex. Grâce au scraper SE::Yandex::Images, vous pourrez obtenir des bases de liens d'images ou des images prêtes pour une utilisation ultérieure. Vous pouvez utiliser des requêtes sous la même forme que celle que vous saisissez dans la barre de recherche Yandex.

La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte de données du scraper Yandex pour une utilisation ultérieure (présélections), de définir un calendrier de collecte et bien plus encore. Vous pouvez utiliser la multiplication automatique des requêtes, la substitution de sous-requêtes à partir de fichiers, l'itération de combinaisons alphanumériques et de listes pour obtenir le maximum de résultats possible.

La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'afficher les données dans divers formats, y compris JSON, SQL et CSV.

Cas d'utilisation du scraper

A-Parser permet d'utiliser une chaîne de tâches : une fois la première terminée, la seconde commence, en utilisant les liens de la première comme requêtes pour la seconde tâche.

Télécharger l'exemple

Comment importer un exemple dans A-Parser

eJyNVktT2zAQ/iuMJofQmsQcevGFCbSZ0qGEQjh0QjqjxmtXIEtGkkMYk//elWT8
SE3ozVrte7/95JIYqh/0lQINRpNoUZLcfZOI/KQihs3BeUZTOPgsnwSXNAZFApJT
pUFZ9QW5+RJFXjOKnKpGhRgSWnBDlsuAoDv81FOpMmrdDvLjURWjvryha5hLvEwY
h0Y8xdMlzcBaxdSAvR0lztHwcGQ21gONY2aYFJT7CDarJuqtYI+FtddGMZGiPh4V
Az1VMkOxAefECp9fM1yQgTsTdFM4+x/ehkQJ5RoCojHdKcVk4t0bZkBRI9Ustzmh
vCRSTDi/gDXwRs35Py0Yx37qSYJG55Vhv8rsHx/busR2qDWoJ4U51F7c6XT2vbGK
5YVMsfL4N9bNWcYMnvWZLIQdTojCB4C87tulREkmFdRhjCqgDo7AyUHEqNhMbZI3
ok4Vncl0hSspEpbOMH/FYnjVLMQc0TkTZzLLOdiyiIdYF46FhusGMBNdDcUe6nR3
XZ25gLYPFVQDYqTk+tuNTzxXDPH4yaabYVvbOVStXVHOb68vOtk1+LKeZQoryQSx
ugZSiZDCurZB2VmgSzBR9HU+v2rtDaooSGGDXrAzBoQ5Ms85RKMPJ8w2YDzMRfpy
n8NJ+pKy5NA1H/XnqIQ2zO6FUvS5Wh5bnL9ZFdrIzHernhjK/wB1w3gVVY4STltb
alfD7osrYU25A4iQAhr/uKHGzUQ6uNjFA6HbkfzCeb0qipAGHgvKybbNF83uu5L1
2G/lSBTZ0aCsvlFhO7KM4t32IEYUnL8B9D4M99LD/6BnLwjDZu+EfJe0dtnwDaS1
QdVPs8iZtGcJS6JloVbWjSc6i307XNtOsgxq7I2Hi1/j5cfDu7vR8CTqQm7Qg7kK
BN58uwyat6RvbXvoYoduwz4yqjezh4XD9v7trnSHxcI3iGj33XDjeo/Vw/2Mvnvd
YfNw28cx4Z43qZ8r9z0GYfshsAHdDLDnx25Inozqf4Cy702PSjRrqAqPeL7XV97W
orzSwajabf7x9i9vweZ7

Données collectées

  • Liens vers l'image
  • Liens vers la page de l'image
  • Snippets
  • Ancres
  • Largeur et hauteur de l'image
  • Liens vers l'aperçu
Données collectées

Fonctionnalités

  • Prise en charge de tous les filtres (taille, orientation, type, couleur, type de fichier...)
  • Possibilité de définir la recherche sécurisée
  • Possibilité d'utiliser Anti-Captcha

Cas d'utilisation

  • Collecte d'images pour alimenter des blogs, des tubes, des doorways...
  • Collecte de bases d'avatars

Requêtes

En tant que requêtes, vous devez spécifier des expressions de recherche, par exemple :

Cats
Football
Waterfall
Speak in english
cars

Substitutions de requêtes

Vous pouvez utiliser les macros intégrées pour multiplier les requêtes, par exemple si nous voulons obtenir une très grande base de forums, nous indiquerons plusieurs requêtes de base dans différentes langues :

forum
forum
foro
论坛

Dans le format de requête, nous indiquerons une itération de caractères de a à zzzz, cette méthode permet de faire pivoter au maximum les résultats de recherche et d'obtenir de nombreux nouveaux résultats uniques :

$query {az:a:zzzz}

Cette macro créera 475254 requêtes supplémentaires pour chaque requête de recherche initiale, ce qui donnera au total 4 x 475254 = 1901016 requêtes de recherche, un chiffre impressionnant, mais ce n'est pas du tout un problème pour A-Parser. À une vitesse de 2000 requêtes par minute, une telle tâche sera traitée en seulement 16 heures.

Variantes d'affichage des résultats

A-Parser prend en charge un formatage flexible des résultats grâce au moteur de templates intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme libre, ainsi que structurée, par exemple CSV ou JSON

Affichage par défaut

Format du résultat :

$serp.format('$link\n')

Exemple de résultat :

https://shkolazhizni.ru/img/content/i155/155642_or.jpg
https://afishanovgorod.ru/wp-content/uploads/2020/01/kinolenta-1-scaled.jpg
https://avatars.mds.yandex.net/get-zen_doc/1616946/pub_5cdfb3f33b662600b29d78c4_5cdfb78b6a5bb500b3d59589/scale_1200
https://avatars.mds.yandex.net/get-zen_doc/3445317/pub_5f24b39c1054270f0a24d074_5f24bd9254d4fa66c07b6925/scale_1200
https://www.touchdynamic.com/wp-content/uploads/2014/04/bigstock-Young-people-sitting-in-multip-46563898.jpg
https://avatars.mds.yandex.net/get-zen_doc/245342/pub_5c89f1b42d1df300b38fec91_5c8a1a5250389e00b37bf9d7/scale_1200
https://www.quirkybyte.com/wp-content/uploads/2015/08/01.jpg
https://avatars.mds.yandex.net/get-zen_doc/40456/pub_5cbc81be1c8e87021bb87d80_5cbc8bfec6be9900b2455a2b/scale_1200
https://avatars.mds.yandex.net/get-zen_doc/235144/pub_5d23d51f31878200adb4e9a4_5d23d65a998ed600aee64e42/scale_1200
https://www.kinobusiness.com/upload/iblock/c5b/DF_04550_R2_novyy-razmer.jpg
https://ovideo.ru/images/gallery/0017/9810/0042.jpg

Affichage dans un tableau CSV

Format du résultat :

[% FOREACH item IN serp;
tools.CSVline(query, item.link, item.width, item.height, item.page, item.thumb);
END %]

Exemple de résultat :

cats,https://pixy.org/src/18/184373.jpg,4751,3984,https://pixy.org/184373/,"Mongrel <b>cat</b> image.",http://im0-tub-ru.yandex.net/i?id=c480a842fb1a5ba2253ee91d07fd90aa&n=13
cats,https://cdn.hipwallpaper.com/i/92/81/b7KSXF.jpg,1024,768,https://hipwallpaper.com/wallpapers-of-cats,"<b>Cats</b> images Kitten Wallpaper (1024x768) wallpaper photos (12251034) .",http://im0-tub-ru.yandex.net/i?id=8b1a9cef01d0a6dedb97b03af8f0ddb1&n=13
cats,http://s1.1zoom.net/big3/434/Cats_Kittens_White_Grass_461681.jpg,5110,3400,http://www.1zoom.net/Animals/wallpaper/461681/z6860/5110x3400,"Images Kittens <b>Cats</b> White Grass Animals 5110x3400 kitty <b>cat</b> <b>cat</b> animal . ",http://im0-tub-ru.yandex.net/i?id=73ddd1e5b0d07eefeffdfde8262c8bf6&n=13
cats,https://get.wallhere.com/photo/cat-grass-whiskers-rest-wild-cat-light-fauna-mammal-collar-vertebrate-cat-like-mammal-small-to-medium-sized-cats-tabby-cat-domestic-short-haired-cat-bengal-european-shorthair-pixie-bob-720415.jpg,2560,1600,https://wallhere.com/en/wallpaper/720415,"Download Wallpaper <b>cat</b>, grass, whiskers, rest, wild <b>cat</b>, light, fauna, mamm...",http://im0-tub-ru.yandex.net/i?id=55bb113936977a5b61509b0daac844c7&n=13
cats,https://i.artfile.ru/2000x1333_437668_[www.ArtFile.ru].jpg,2000,1333,https://www.artfile.ru/i.php?i=437668,"animaux, chats ",http://im0-tub-ru.yandex.net/i?id=51f12adb1d2b751a33de66a5292cf6a6&n=13
cats,http://s1.1zoom.net/big7/481/Cats_Glance_352969.jpg,2560,1706,http://www.1zoom.net/Animals/wallpaper/352969/z4306/%26original=3,"Images <b>Cats</b> Glance animal <b>cat</b> Staring Animals.",http://im0-tub-ru.yandex.net/i?id=651291c9c226b0b476cc3f6da05c089b&n=13
cats,https://cdn.wallpapersafari.com/87/66/macZVd.jpg,1600,1200,https://wallpapersafari.com/kawaii-cat-wallpaper/,"Find more Cute Kittens images Damn cute <b>cats</b> wallpaper photos. ",http://im0-tub-ru.yandex.net/i?id=7301df7db9522b89ed6fe88e4d2e17db&n=13
cats,https://wallup.net/wp-content/uploads/2018/10/07/705-cuddle-cat.jpg,2560,1600,https://wallup.net/?p=709264,"cuddle, <b>Cat</b> Wallpapers HD / Desktop and Mobile Backgrounds.",http://im0-tub-ru.yandex.net/i?id=400a0ce0f68b5c2a7674c5c6ba75b5b5&n=13
cats,https://c.pxhere.com/photos/c2/c4/Animals_Wallpaper_Cat_Closeup_Desktop_Wallpaper_Feline_Kitten_Pet-1612853.jpg!d,1200,797,https://pxhere.com/en/photo/1612853,"<b>cat</b>, whiskers, mammal, small to medium sized <b>cats</b>, felidae, nose, face",http://im0-tub-ru.yandex.net/i?id=0060cbf3f602c21ad2f026892e01001a&n=13
cats,https://i.ebayimg.com/00/s/MTE2MFgxNTYy/z/evQAAOSwImRYXCtO/$_57.JPG?set_id=8800005007,1562,1160,https://sendle.ru/88861-kart-kartochek-s-zametkami/163098755590-4pack-cat-cats-kitten-kittens-spring-stationery-greeting-notecards-envelopes-2.html,"4Pack <b>Cat</b> <b>Cats</b> Kitten Kittens Spring Stationery Greeting Notecards...",http://im0-tub-ru.yandex.net/i?id=117d40eb07ff3953141763b3c736805d&n=13
cats,https://www.wallpaperup.com/uploads/wallpapers/2013/12/19/199466/aa19b19c04da9b48b68b1365c103588d.jpg,1920,1200,https://www.wallpaperup.com/199466/cats_animals_pets.html,"<b>cats</b> animals pets wallpaper.",http://im0-tub-ru.yandex.net/i?id=fdebf609d67809cd910596dd3d6026d9&n=13
cats,https://www.wallpaperup.com/uploads/wallpapers/2017/10/17/1115160/3c78081c04f34444da4dc54f1bcd3a65.jpg,2048,1365,https://www.wallpaperup.com/1115160/kitten_cat_baby_cute.html,"kitten <b>cat</b> baby cute wallpaper.",http://im0-tub-ru.yandex.net/i?id=d9e9dae7b1e4009c7fcfab7bb7548baf&n=13
cats,https://pbs.twimg.com/media/DTa7lXRX4AEm_rB.jpg:large,1600,1200,https://twitter.com/cats_and_you/status/952154716137549825,"<b>Cats</b>_and_you on Twitter.",http://im0-tub-ru.yandex.net/i?id=4d605439d3e7bf5c340b0b357a5f084a&n=13

Sauvegarde au format SQL

Format du résultat :

[%  FOREACH serp;   "INSERT INTO serp VALUES('" _ query _ "', '"; link _ "', '";  pagelink _ "', '";    thumb _ "')\n"; END  %]

Exemple de résultat :

INSERT INTO serp VALUES('cats', 'https://pixy.org/src/18/184373.jpg', 'https://pixy.org/184373/', 'http://im0-tub-ru.yandex.net/i?id=c480a842fb1a5ba2253ee91d07fd90aa&n=13')
INSERT INTO serp VALUES('cats', 'http://s1.1zoom.net/big3/434/Cats_Kittens_White_Grass_461681.jpg', 'http://www.1zoom.net/Animals/wallpaper/461681/z6860/5110x3400', 'http://im0-tub-ru.yandex.net/i?id=73ddd1e5b0d07eefeffdfde8262c8bf6&n=13')
INSERT INTO serp VALUES('cats', 'https://cdn.hipwallpaper.com/i/92/81/b7KSXF.jpg', 'https://hipwallpaper.com/wallpapers-of-cats', 'http://im0-tub-ru.yandex.net/i?id=8b1a9cef01d0a6dedb97b03af8f0ddb1&n=13')
INSERT INTO serp VALUES('cats', 'https://i.artfile.ru/2000x1333_437668_[www.ArtFile.ru].jpg', 'https://www.artfile.ru/i.php?i=437668', 'http://im0-tub-ru.yandex.net/i?id=51f12adb1d2b751a33de66a5292cf6a6&n=13')
INSERT INTO serp VALUES('cats', 'https://get.wallhere.com/photo/cat-grass-whiskers-rest-wild-cat-light-fauna-mammal-collar-vertebrate-cat-like-mammal-small-to-medium-sized-cats-tabby-cat-domestic-short-haired-cat-bengal-european-shorthair-pixie-bob-720415.jpg', 'https://wallhere.com/en/wallpaper/720415', 'http://im0-tub-ru.yandex.net/i?id=55bb113936977a5b61509b0daac844c7&n=13')
INSERT INTO serp VALUES('cats', 'https://cdn.wallpapersafari.com/87/66/macZVd.jpg', 'https://wallpapersafari.com/kawaii-cat-wallpaper/', 'http://im0-tub-ru.yandex.net/i?id=7301df7db9522b89ed6fe88e4d2e17db&n=13

Dump des résultats en JSON

Format de sortie general:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.images = [];

FOREACH item IN p1.serp;
obj.images.push({
width = item.width
height = item.height
link = item.link
pagelink = item.pagelink
thumb = item.thumb
});
END;

obj.json %]

Texte initial:

[

Texte final:

]

Exemple de résultat :

[{
"images": [
{
"link": "https://pixy.org/src/18/184373.jpg",
"width": 4751,
"page": "https://pixy.org/184373/",
"thumb": "http://im0-tub-ru.yandex.net/i?id=c480a842fb1a5ba2253ee91d07fd90aa&n=13",
"height": 3984
},
{
"link": "http://s1.1zoom.net/big3/434/Cats_Kittens_White_Grass_461681.jpg",
"width": 5110,
"page": "http://www.1zoom.net/Animals/wallpaper/461681/z6860/5110x3400",
"thumb": "http://im0-tub-ru.yandex.net/i?id=73ddd1e5b0d07eefeffdfde8262c8bf6&n=13",
"height": 3400
},
{
"link": "https://cdn.hipwallpaper.com/i/92/81/b7KSXF.jpg",
"width": 1024,
"page": "https://hipwallpaper.com/wallpapers-of-cats",
"thumb": "http://im0-tub-ru.yandex.net/i?id=8b1a9cef01d0a6dedb97b03af8f0ddb1&n=13",
"height": 768
},

],
"query": "cats"
}]
astuce

Pour que les options "Texte initial" et "Texte final" soient disponibles dans l'Éditeur de tâches, vous devez activer "Plus d'options".

Paramètres possibles

ParamètreValeur par défautDescription
AntiGate presetdefaultChoix de la présélection Util::AntiGateUtil::AntiGate, plus de détails sur le paramétrage ici
AntiGate preset for old captchadefaultIdentique à AntiGate preset, mais utilisé uniquement pour les captchas classiques (anciens, sous forme d'une seule image). Si aucune présélection n'est choisie ici, la présélection sélectionnée dans AntiGate preset sera utilisée pour ces captchas.
Experimental img captcha max count5Nombre maximum de tentatives de captchas-images répétées par essai
Preffered captcha typeClickChoix du type de captcha préféré : Click ou Puzzle
Pages count10Nombre de pages à scraper
Image sizeAnyTaille des images
OrientationAnyOrientation
Image typeAnyType d'image
Image colorAnyCouleur de l'image
File typeAnyType de fichier de l'image
CommercialAfficher uniquement les images payantes (Produits)
RecentAnyAfficher toutes les images ou seulement les récentes
Security levelModerateNiveau de recherche sécurisée