Перейти к основному содержимому

SE::Yandex::Images - парсер Яндекс Картинок

Yandex Images

Обзор парсера

Парсер изображений поисковой выдачи Yandex. Благодаря парсеру SE::Yandex::Images вы сможете получать базы ссылок изображений или изображений, готовых для дальнейшего использования. Вы можете использовать запросы в том же виде, в котором вы вводите их в поисковую строку Yandex

Функционал A-Parser позволяет сохранять настройки парсинга парсера Yandex для дальнейшего использования (пресеты), задавать расписание парсинга и многое другое. Вы можете использовать автоматическое размножение запросов, подстановку подзапросов из файлов, перебор цифро-буквенных комбинаций и списков для получения максимально возможного количества результатов.

Сохранение результатов возможно в том виде и структуре которая вам необходима, благодаря встроенному мощному шаблонизатору Template Toolkit который позволяет применять дополнительную логику к результатам и выводить данные в различных форматах, включая JSON, SQL и CSV.

Кейсы по применению парсера

A-Parser позволяет использовать цепочку заданий, по завершению первого, начнется выполнение второго, в качестве запросов для второго задания будут ссылки из первого

Скачать пример

Как импортировать пример в А-Парсер

eJyNVktT2zAQ/iuMJofQmsQcevGFCbSZ0qGEQjh0QjqjxmtXIEtGkkMYk//elWT8
SE3ozVrte7/95JIYqh/0lQINRpNoUZLcfZOI/KQihs3BeUZTOPgsnwSXNAZFApJT
pUFZ9QW5+RJFXjOKnKpGhRgSWnBDlsuAoDv81FOpMmrdDvLjURWjvryha5hLvEwY
h0Y8xdMlzcBaxdSAvR0lztHwcGQ21gONY2aYFJT7CDarJuqtYI+FtddGMZGiPh4V
Az1VMkOxAefECp9fM1yQgTsTdFM4+x/ehkQJ5RoCojHdKcVk4t0bZkBRI9Ustzmh
vCRSTDi/gDXwRs35Py0Yx37qSYJG55Vhv8rsHx/busR2qDWoJ4U51F7c6XT2vbGK
5YVMsfL4N9bNWcYMnvWZLIQdTojCB4C87tulREkmFdRhjCqgDo7AyUHEqNhMbZI3
ok4Vncl0hSspEpbOMH/FYnjVLMQc0TkTZzLLOdiyiIdYF46FhusGMBNdDcUe6nR3
XZ25gLYPFVQDYqTk+tuNTzxXDPH4yaabYVvbOVStXVHOb68vOtk1+LKeZQoryQSx
ugZSiZDCurZB2VmgSzBR9HU+v2rtDaooSGGDXrAzBoQ5Ms85RKMPJ8w2YDzMRfpy
n8NJ+pKy5NA1H/XnqIQ2zO6FUvS5Wh5bnL9ZFdrIzHernhjK/wB1w3gVVY4STltb
alfD7osrYU25A4iQAhr/uKHGzUQ6uNjFA6HbkfzCeb0qipAGHgvKybbNF83uu5L1
2G/lSBTZ0aCsvlFhO7KM4t32IEYUnL8B9D4M99LD/6BnLwjDZu+EfJe0dtnwDaS1
QdVPs8iZtGcJS6JloVbWjSc6i307XNtOsgxq7I2Hi1/j5cfDu7vR8CTqQm7Qg7kK
BN58uwyat6RvbXvoYoduwz4yqjezh4XD9v7trnSHxcI3iGj33XDjeo/Vw/2Mvnvd
YfNw28cx4Z43qZ8r9z0GYfshsAHdDLDnx25Inozqf4Cy702PSjRrqAqPeL7XV97W
orzSwajabf7x9i9vweZ7

Собираемые данные

  • Ссылки на изображение
  • Ссылки на страницу изображения
  • Сниппеты
  • Анкоры
  • Ширина и высота изображения
  • Ссылки на превью
Собираемые данные

Возможности

  • Поддержка всех фильтров (размер, ориентация, тип, цвет, тип файла...)
  • Возможность выставить безопасный поиск
  • Возможность использовать Антигейт

Варианты использования

  • Сбор картинок для наполнения своих блогов, тюбов, дорвеев...
  • Сбор баз аватаров

Запросы

В качестве запросов необходимо указывать поисковые фразы, например:

Cats
Football
Waterfall
Speak in english
cars

Подстановки запросов

Вы можете использовать встроенные макросы для разможения запросов, например мы хотим получить очень большую базу форумов, укажем несколько основных запросов на разных языках:

forum
форум
foro
论坛

В формате запросов укажем перебор символов от a до zzzz, данный метод позволяет максимально ротировать поисковую выдачу и получать множество новых уникальных результатов:

$query {az:a:zzzz}

Данный макрос создаст 475254 дополнительных запросов на каждый исходный поисковый запрос, что в сумме даст 4 х 475254 = 1901016 поисковых запроса, цифра впечатляющая, но это совсем не проблема для A-Parser'а. При скорости 2000 запросов в минуту такое задание обработается всего за 16 часов.

Варианты вывода результатов

A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON

Вывод по умолчанию

Формат результата:

$serp.format('$link\n')

Пример результата:

https://shkolazhizni.ru/img/content/i155/155642_or.jpg
https://afishanovgorod.ru/wp-content/uploads/2020/01/kinolenta-1-scaled.jpg
https://avatars.mds.yandex.net/get-zen_doc/1616946/pub_5cdfb3f33b662600b29d78c4_5cdfb78b6a5bb500b3d59589/scale_1200
https://avatars.mds.yandex.net/get-zen_doc/3445317/pub_5f24b39c1054270f0a24d074_5f24bd9254d4fa66c07b6925/scale_1200
https://www.touchdynamic.com/wp-content/uploads/2014/04/bigstock-Young-people-sitting-in-multip-46563898.jpg
https://avatars.mds.yandex.net/get-zen_doc/245342/pub_5c89f1b42d1df300b38fec91_5c8a1a5250389e00b37bf9d7/scale_1200
https://www.quirkybyte.com/wp-content/uploads/2015/08/01.jpg
https://avatars.mds.yandex.net/get-zen_doc/40456/pub_5cbc81be1c8e87021bb87d80_5cbc8bfec6be9900b2455a2b/scale_1200
https://avatars.mds.yandex.net/get-zen_doc/235144/pub_5d23d51f31878200adb4e9a4_5d23d65a998ed600aee64e42/scale_1200
https://www.kinobusiness.com/upload/iblock/c5b/DF_04550_R2_novyy-razmer.jpg
https://ovideo.ru/images/gallery/0017/9810/0042.jpg

Вывод в таблицу CSV

Формат результата:

[% FOREACH item IN serp;
tools.CSVline(query, item.link, item.width, item.height, item.page, item.thumb);
END %]

Пример реузльтата:

cats,https://pixy.org/src/18/184373.jpg,4751,3984,https://pixy.org/184373/,"Mongrel <b>cat</b> image.",http://im0-tub-ru.yandex.net/i?id=c480a842fb1a5ba2253ee91d07fd90aa&n=13
cats,https://cdn.hipwallpaper.com/i/92/81/b7KSXF.jpg,1024,768,https://hipwallpaper.com/wallpapers-of-cats,"<b>Cats</b> images Kitten Wallpaper (1024x768) wallpaper photos (12251034) .",http://im0-tub-ru.yandex.net/i?id=8b1a9cef01d0a6dedb97b03af8f0ddb1&n=13
cats,http://s1.1zoom.net/big3/434/Cats_Kittens_White_Grass_461681.jpg,5110,3400,http://www.1zoom.net/Animals/wallpaper/461681/z6860/5110x3400,"Images Kittens <b>Cats</b> White Grass Animals 5110x3400 kitty <b>cat</b> <b>cat</b> animal . ",http://im0-tub-ru.yandex.net/i?id=73ddd1e5b0d07eefeffdfde8262c8bf6&n=13
cats,https://get.wallhere.com/photo/cat-grass-whiskers-rest-wild-cat-light-fauna-mammal-collar-vertebrate-cat-like-mammal-small-to-medium-sized-cats-tabby-cat-domestic-short-haired-cat-bengal-european-shorthair-pixie-bob-720415.jpg,2560,1600,https://wallhere.com/en/wallpaper/720415,"Download Wallpaper <b>cat</b>, grass, whiskers, rest, wild <b>cat</b>, light, fauna, mamm...",http://im0-tub-ru.yandex.net/i?id=55bb113936977a5b61509b0daac844c7&n=13
cats,https://i.artfile.ru/2000x1333_437668_[www.ArtFile.ru].jpg,2000,1333,https://www.artfile.ru/i.php?i=437668,"животные, коты ",http://im0-tub-ru.yandex.net/i?id=51f12adb1d2b751a33de66a5292cf6a6&n=13
cats,http://s1.1zoom.net/big7/481/Cats_Glance_352969.jpg,2560,1706,http://www.1zoom.net/Animals/wallpaper/352969/z4306/%26original=3,"Images <b>Cats</b> Glance animal <b>cat</b> Staring Animals.",http://im0-tub-ru.yandex.net/i?id=651291c9c226b0b476cc3f6da05c089b&n=13
cats,https://cdn.wallpapersafari.com/87/66/macZVd.jpg,1600,1200,https://wallpapersafari.com/kawaii-cat-wallpaper/,"Find more Cute Kittens images Damn cute <b>cats</b> wallpaper photos. ",http://im0-tub-ru.yandex.net/i?id=7301df7db9522b89ed6fe88e4d2e17db&n=13
cats,https://wallup.net/wp-content/uploads/2018/10/07/705-cuddle-cat.jpg,2560,1600,https://wallup.net/?p=709264,"cuddle, <b>Cat</b> Wallpapers HD / Desktop and Mobile Backgrounds.",http://im0-tub-ru.yandex.net/i?id=400a0ce0f68b5c2a7674c5c6ba75b5b5&n=13
cats,https://c.pxhere.com/photos/c2/c4/Animals_Wallpaper_Cat_Closeup_Desktop_Wallpaper_Feline_Kitten_Pet-1612853.jpg!d,1200,797,https://pxhere.com/en/photo/1612853,"<b>cat</b>, whiskers, mammal, small to medium sized <b>cats</b>, felidae, nose, face",http://im0-tub-ru.yandex.net/i?id=0060cbf3f602c21ad2f026892e01001a&n=13
cats,https://i.ebayimg.com/00/s/MTE2MFgxNTYy/z/evQAAOSwImRYXCtO/$_57.JPG?set_id=8800005007,1562,1160,https://sendle.ru/88861-kart-kartochek-s-zametkami/163098755590-4pack-cat-cats-kitten-kittens-spring-stationery-greeting-notecards-envelopes-2.html,"4Pack <b>Cat</b> <b>Cats</b> Kitten Kittens Spring Stationery Greeting Notecards...",http://im0-tub-ru.yandex.net/i?id=117d40eb07ff3953141763b3c736805d&n=13
cats,https://www.wallpaperup.com/uploads/wallpapers/2013/12/19/199466/aa19b19c04da9b48b68b1365c103588d.jpg,1920,1200,https://www.wallpaperup.com/199466/cats_animals_pets.html,"<b>cats</b> animals pets wallpaper.",http://im0-tub-ru.yandex.net/i?id=fdebf609d67809cd910596dd3d6026d9&n=13
cats,https://www.wallpaperup.com/uploads/wallpapers/2017/10/17/1115160/3c78081c04f34444da4dc54f1bcd3a65.jpg,2048,1365,https://www.wallpaperup.com/1115160/kitten_cat_baby_cute.html,"kitten <b>cat</b> baby cute wallpaper.",http://im0-tub-ru.yandex.net/i?id=d9e9dae7b1e4009c7fcfab7bb7548baf&n=13
cats,https://pbs.twimg.com/media/DTa7lXRX4AEm_rB.jpg:large,1600,1200,https://twitter.com/cats_and_you/status/952154716137549825,"<b>Cats</b>_and_you on Twitter.",http://im0-tub-ru.yandex.net/i?id=4d605439d3e7bf5c340b0b357a5f084a&n=13

Сохранение в формате SQL

Формат результата:

[%  FOREACH serp;   "INSERT INTO serp VALUES('" _ query _ "', '"; link _ "', '";  pagelink _ "', '";    thumb _ "')\n"; END  %]

Пример результата:

INSERT INTO serp VALUES('cats', 'https://pixy.org/src/18/184373.jpg', 'https://pixy.org/184373/', 'http://im0-tub-ru.yandex.net/i?id=c480a842fb1a5ba2253ee91d07fd90aa&n=13')
INSERT INTO serp VALUES('cats', 'http://s1.1zoom.net/big3/434/Cats_Kittens_White_Grass_461681.jpg', 'http://www.1zoom.net/Animals/wallpaper/461681/z6860/5110x3400', 'http://im0-tub-ru.yandex.net/i?id=73ddd1e5b0d07eefeffdfde8262c8bf6&n=13')
INSERT INTO serp VALUES('cats', 'https://cdn.hipwallpaper.com/i/92/81/b7KSXF.jpg', 'https://hipwallpaper.com/wallpapers-of-cats', 'http://im0-tub-ru.yandex.net/i?id=8b1a9cef01d0a6dedb97b03af8f0ddb1&n=13')
INSERT INTO serp VALUES('cats', 'https://i.artfile.ru/2000x1333_437668_[www.ArtFile.ru].jpg', 'https://www.artfile.ru/i.php?i=437668', 'http://im0-tub-ru.yandex.net/i?id=51f12adb1d2b751a33de66a5292cf6a6&n=13')
INSERT INTO serp VALUES('cats', 'https://get.wallhere.com/photo/cat-grass-whiskers-rest-wild-cat-light-fauna-mammal-collar-vertebrate-cat-like-mammal-small-to-medium-sized-cats-tabby-cat-domestic-short-haired-cat-bengal-european-shorthair-pixie-bob-720415.jpg', 'https://wallhere.com/en/wallpaper/720415', 'http://im0-tub-ru.yandex.net/i?id=55bb113936977a5b61509b0daac844c7&n=13')
INSERT INTO serp VALUES('cats', 'https://cdn.wallpapersafari.com/87/66/macZVd.jpg', 'https://wallpapersafari.com/kawaii-cat-wallpaper/', 'http://im0-tub-ru.yandex.net/i?id=7301df7db9522b89ed6fe88e4d2e17db&n=13

Дамп результатов в JSON

Общий формат результата:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.images = [];

FOREACH item IN p1.serp;
obj.images.push({
width = item.width
height = item.height
link = item.link
pagelink = item.pagelink
thumb = item.thumb
});
END;

obj.json %]

Начальный текст:

[

Конечный текст:

]

Пример результата:

[{
"images": [
{
"link": "https://pixy.org/src/18/184373.jpg",
"width": 4751,
"page": "https://pixy.org/184373/",
"thumb": "http://im0-tub-ru.yandex.net/i?id=c480a842fb1a5ba2253ee91d07fd90aa&n=13",
"height": 3984
},
{
"link": "http://s1.1zoom.net/big3/434/Cats_Kittens_White_Grass_461681.jpg",
"width": 5110,
"page": "http://www.1zoom.net/Animals/wallpaper/461681/z6860/5110x3400",
"thumb": "http://im0-tub-ru.yandex.net/i?id=73ddd1e5b0d07eefeffdfde8262c8bf6&n=13",
"height": 3400
},
{
"link": "https://cdn.hipwallpaper.com/i/92/81/b7KSXF.jpg",
"width": 1024,
"page": "https://hipwallpaper.com/wallpapers-of-cats",
"thumb": "http://im0-tub-ru.yandex.net/i?id=8b1a9cef01d0a6dedb97b03af8f0ddb1&n=13",
"height": 768
},

],
"query": "cats"
}]
подсказка

Чтобы опции "Начальный текст" и "Конечный текст" были доступны в Редакторе заданий, нужно активировать "Больше опций".

Возможные настройки

ПараметрЗначение по умолчаниюОписание
AntiGate presetdefaultВыбор пресета Util::AntiGateUtil::AntiGate, детальнее о настройке тут
AntiGate preset for old captchadefaultАналогично AntiGate preset, но используется только для обычных (старых, в виде одной картинки) каптч. Если здесь не выбран пресет, то для таких каптч будет использоваться пресет, выбраный в AntiGate preset.
Experimental img captcha max count5Максимальное количество повторных капч-картинок на попытку
Preffered captcha typeClickВыбор предпочтительного вида каптчи: Click или Puzzle
Pages count10Количество страниц для парсинга
Image sizeAnyРазмер изображений
OrientationAnyОриентация
Image typeAnyТип картинки
Image colorAnyЦвет картинки
File typeAnyТип файла картинки
CommercialПоказывать только платные картинки (Товары)
RecentAnyПоказывать все или только свежие картинки
Security levelModerateУровень Безопасного поиска