跳转到主要内容

SE::Yandex::Video - Yandex 视频爬虫工具

Yandex 图片

Yandex 视频搜索爬虫工具概览

Yandex 视频搜索爬虫工具。得益于 SE::Yandex::Video 爬虫工具,您可以获取视频链接库。您可以直接使用在 Yandex 搜索栏中输入的查询语句。

A-Parser 的功能允许保存 Yandex 爬虫工具的数据抓取设置以供将来使用(预设),设置数据抓取计划等等。您可以使用自动查询扩展、从文件替换子查询、遍历数字字母组合和列表,以获取尽可能多的结果。

由于内置了强大的 Template Toolkit 模板引擎,可以将结果保存为您需要的任何形式和结构,它允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON、SQL 和 CSV

采集数据

  • 视频链接
  • 锚点文本
  • 代码片段 (Snippets)
  • 视频所在的平台名称
  • 时长、观看次数和发布日期
  • 海报和视频预览链接
  • 视频内容摘要
  • 视频章节列表
  • 网站嵌入代码
采集的数据

功能

  • 支持过滤器(短视频、最新视频)
  • 选择搜索结果页数
  • 支持会话 (Sessions)

应用场景

  • 采集视频用于填充博客、视频站、门页站 (doorways)...
  • 采集文本数据

查询

在查询中需要指定搜索词,例如:

Cats
Football
Waterfall
Speak in english
cars

查询占位符

您可以使用 内置宏 来扩展查询,例如我们想要获取一个非常大的论坛数据库,指定几个不同语言的核心查询:

forum
论坛
foro
论坛

在查询格式中指定从 a 到 zzzz 的字符遍历,此方法可以最大限度地轮换搜索结果并获取大量新的唯一结果:

$query {az:a:zzzz}

该宏将为每个原始搜索查询创建 475254 个附加查询,总计将产生 4 x 475254 = 1901016 个搜索查询,这个数字令人印象深刻,但对于 A-Parser 来说完全不是问题。在每分钟 2000 个查询的速度下,此类任务仅需 16 小时即可处理完毕。

结果输出选项

得益于内置的模板引擎 Template Toolkit,A-Parser 支持灵活的结果格式化,这使其能够以任意形式以及结构化形式(如 CSV 或 JSON)输出结果。

默认输出

结果格式:

$serp.format('$link\n')

结果示例:

http://www.youtube.com/v/lcYzh7IjJj0
http://www.youtube.com/watch?v=VD2h2YUY_WQ
http://www.youtube.com/watch?v=UPOUE8ObCy8
http://www.youtube.com/watch?v=Ha9Q1kHqCHA
http://www.youtube.com/watch?v=P5rlifhgewY
https://zen.yandex.ru/video/watch/61099fa859eaef364db8b3cd?f=video
http://www.youtube.com/v/-cvEA8897Fc?fs=0
https://zen.yandex.ru/video/watch/625ed4e3099b9b7b81b17e3b?f=video
http://rutube.ru/video/016773a106036e9d3cd619ace97011e0/
http://rutube.ru/video/e54b2392b7dd3fe57fed6002aba5f833/
http://rutube.ru/video/8fe868740089c3557d6d54e86ceca6a1/
http://www.youtube.com/v/OuOK2fEPdMU
http://www.youtube.com/watch?v=UcbmVFYp4Lg
http://www.youtube.com/watch?v=JgJE4oQf-Gs
http://www.youtube.com/watch?v=ektN1-ptnDE

输出到 CSV 表格

结果格式:

[% FOREACH item IN serp;
tools.CSVline(query, item.link, item.anchor, item.prevPoster, item.duration, item.views);
END %]

结果示例:

test,http://www.youtube.com/v/lcYzh7IjJj0,"<b>测试</b> 通过 10 张照片进行 IQ 测试",https://avatars.mds.yandex.net/get-vthumb/4322300/5f649751351f727400bfd1be494fd6b4/564x318_1,07:09,"250 万次观看"
test,http://www.youtube.com/watch?v=VD2h2YUY_WQ,"Online <b>Test</b> Pad -如何自己创建 <b>测试</b>",https://avatars.mds.yandex.net/get-vthumb/1023253/fffa43fb9402c436d6881537bb9aee9a/564x318_1,05:38,"16,6 千次观看"
test,http://www.youtube.com/watch?v=UPOUE8ObCy8,"简单的教育性 <b>测试</b>. Online <b>Test</b> Pad",https://avatars.mds.yandex.net/get-vthumb/3435353/fa94c2b60d9bb0fa8cda2d469b6dcf0a/564x318_1,04:16,"76,5 千次观看"
test,http://www.youtube.com/watch?v=Ha9Q1kHqCHA,"使用 Online 创建 <b>测试</b> Test <b>Test</b> Pad #2",https://avatars.mds.yandex.net/get-vthumb/2032788/4ffd2b149fbfc3de17b67ef92290028e/564x318_1,07:00,"1704 次观看"
test,http://www.youtube.com/watch?v=P5rlifhgewY,"这个 IQ-<b>测试</b> 包含 5 个问题,将展示您的智力水平",https://avatars.mds.yandex.net/get-vthumb/4507451/f3475d744f7841b40912dd933dce65c1/564x318_1,08:01,"60.6 万次观看"
test,https://zen.yandex.ru/video/watch/61099fa859eaef364db8b3cd?f=video,"Spotlight 4 年级。最终 <b>测试</b>. Exit <b>test</b>",https://avatars.mds.yandex.net/get-vthumb/3304426/beaeeaba5bfc6c00bcae50c4fa7cf236/564x318_1,09:39,
test,http://www.youtube.com/v/-cvEA8897Fc?fs=0,"English grammar <b>test</b>",https://avatars.mds.yandex.net/get-vthumb/2428342/b5b8a32f0260ce4ac785b6a4f1a8b006/564x318_1,12:35,"597 千次观看"
test,https://zen.yandex.ru/video/watch/625ed4e3099b9b7b81b17e3b?f=video,"这些答案只有少数人知道 ""Brain <b>Test</b>"" #1",https://avatars.mds.yandex.net/get-vh/5811343/2a00000180429688a113593b8944b066f53d/564x318_1,17:07,
test,http://rutube.ru/video/016773a106036e9d3cd619ace97011e0/,"如何通过游戏 Brain <b>Test</b> 2? 所有关卡答案",https://avatars.mds.yandex.net/get-vthumb/4407993/aa07260f286afde40d15abad02f816af/564x318_1,1:29:03,
test,http://rutube.ru/video/e54b2392b7dd3fe57fed6002aba5f833/,"Brain <b>Test</b> 完整通关 № 4 沉浸在解谜世界中",https://avatars.mds.yandex.net/get-vthumb/467972/c078458de66e698c5680527352261b9d/564x318_1,26:23,
test,http://rutube.ru/video/8fe868740089c3557d6d54e86ceca6a1/,"SpeedTest - SpeedTest - 互联网连接速度测试",https://avatars.mds.yandex.net/get-vthumb/3446066/7cca0b8914479dcfe294b06246ea6df8/564x318_1,05:16,"总计 22.3 万次观看"

保存为 SQL 格式

结果格式:

[%  FOREACH serp;
"INSERT INTO serp VALUES('" _ query _ "', '";
link _ "', '";
snippet.replace("\n", '\n') _ "', '";
summary.replace("\n", '\n') _ "')\n";
END %]

结果示例:

INSERT INTO serp VALUES('test', 'http://www.youtube.com/v/lcYzh7IjJj0', '', '00:25 木板谜题\n问题:这里有多少块木板?\n答案:一块也没有,因为木板上画了多余的线条,一块木板平滑地过渡到另一块\n01:10 大象腿谜题\n问题:大象有多少条腿?\n答案:大象只有一条位于后面的腿,其他所有的腿都不是真的\n02:00 窗边女人谜题\n问题:这两幅图有什么区别?\n答案:右下角有一个老鼠洞')
INSERT INTO serp VALUES('test', 'http://www.youtube.com/watch?v=VD2h2YUY_WQ', '', '00:01 简介\n视频介绍了 Online Test Pad 网站,可以在那里创建测试、问卷、填字游戏和逻辑游戏。\n首先需要使用邮箱注册。\n00:35 创建测试\n注册后可以创建自己的测试、问卷、填字游戏和逻辑游戏。\n视频演示了从零开始创建测试。\n01:06 问题选项\n视频展示了如何创建不同的问题选项:单选、输入文本、填空等。\n演示了每个选项的问题和答案示例。')
INSERT INTO serp VALUES('test', 'http://www.youtube.com/watch?v=P5rlifhgewY', '', '00:00 简介\n视频是一个 IQ 测试,由五个问题组成,将帮助确定智力水平。\n04:00 测试结果\n如果选择了第一种答案选项,则幸福感水平高,智力水平中等。\n如果选择了第二种答案选项,则智力水平高,幸福感水平中等。\n如果选择了不同的答案选项,则智力和幸福感水平处于黄金平衡点。\n07:08 结论\n视频呼吁与朋友分享测试结果并订阅频道。\n如果获得 5 万个赞,将准备另一个测试。')
INSERT INTO serp VALUES('test', 'https://zen.yandex.ru/video/watch/625ed4e3099b9b7b81b17e3b?f=video', '"Brain <b>Test</b>" ► 通关 祝大家观看愉快 :) 链接:视频中的音乐:https://www.youtube.com/watch?v=5qap5aO4i9A Discord 服务器 ► https://discord.gg/4JWEu9URwB YouTube ►...', '')
INSERT INTO serp VALUES('test', 'http://rutube.ru/video/016773a106036e9d3cd619ace97011e0/', '通过了游戏 Brain <b>Test</b> 2. 分享所有关卡的答案。游戏 Brain 通关 <b>Test</b> 2 所有章节:和纳斯佳一起减肥 越狱 特工詹姆斯·邦德 全知家族 怪物猎人 瓦尼亚...', '')
INSERT INTO serp VALUES('test', 'http://rutube.ru/video/e54b2392b7dd3fe57fed6002aba5f833/', 'https://www.youtube.com/channel/UCgpWRYOfFZ0whXZ8F26KbUg YouTube 频道 https://t.me/DimaDaimont Telegram 频道 https://www.donationalerts.com/r/dimadaimont2 助力发展...', '')

将结果转储为 JSON

通用结果格式:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.videos = [];

FOREACH item IN p1.serp;
obj.videos.push({
link = item.link
anchor = item.anchor
snippet = item.snippet
service = item.service
embed = item.embed
});
END;

obj.json %]

起始文本:

[

结束文本:

]

结果示例:

[{
"videos": [
{
"embed": "<iframe src=\"//www.youtube.com/embed/lcYzh7IjJj0?enablejsapi=1&amp;wmode=opaque\" frameborder=\"0\" scrolling=\"no\" allowfullscreen=\"1\" allow=\"autoplay; fullscreen; accelerometer; gyroscope; picture-in-picture\" aria-label=\"Video\"></iframe>",
"link": "http://www.youtube.com/v/lcYzh7IjJj0",
"snippet": "",
"anchor": "<b>测试</b> 通过 10 张照片进行 IQ 测试",
"service": "YouTube"
},
{
"embed": "<iframe src=\"//www.youtube.com/embed/VD2h2YUY_WQ?enablejsapi=1&amp;wmode=opaque\" frameborder=\"0\" scrolling=\"no\" allowfullscreen=\"1\" allow=\"autoplay; fullscreen; accelerometer; gyroscope; picture-in-picture\" aria-label=\"Video\"></iframe>",
"link": "http://www.youtube.com/watch?v=VD2h2YUY_WQ",
"snippet": "",
"anchor": "Online <b>Test</b> Pad -如何自己创建 <b>测试</b>",
"service": "YouTube"
},
{
"embed": "<iframe src=\"//www.youtube.com/embed/UPOUE8ObCy8?enablejsapi=1&amp;wmode=opaque\" frameborder=\"0\" scrolling=\"no\" allowfullscreen=\"1\" allow=\"autoplay; fullscreen; accelerometer; gyroscope; picture-in-picture\" aria-label=\"Video\"></iframe>",
"link": "http://www.youtube.com/watch?v=UPOUE8ObCy8",
"snippet": "",
"anchor": "简单的教育性 <b>测试</b>. Online <b>Test</b> Pad",
"service": "YouTube"
},
{
"embed": "<iframe src=\"//www.youtube.com/embed/Ha9Q1kHqCHA?enablejsapi=1&amp;wmode=opaque\" frameborder=\"0\" scrolling=\"no\" allowfullscreen=\"1\" allow=\"autoplay; fullscreen; accelerometer; gyroscope; picture-in-picture\" aria-label=\"Video\"></iframe>",
"link": "http://www.youtube.com/watch?v=Ha9Q1kHqCHA",
"snippet": "",
"anchor": "创建 <b>测试</b> 使用 Online <b>Test</b> Pad #2",
"service": "YouTube"
}
],
"query": "test"
}]
提示

要在任务编辑器中使“Prepend text”和“Append text”选项可用,需要激活“More options”。

可能的设置

参数默认值描述
Pages count5要抓取的页数
New videos最新视频
Short videos短视频