SE::YouTube - 功能完善的 YouTube 爬虫工具

爬虫工具概览
YouTube 搜索结果爬虫工具。借助 YouTube 爬虫工具,您可以获取海量的视频链接库,供后续使用。您可以直接使用在 YouTube 搜索栏中输入的查询词。使用 YouTube 爬虫工具可以多线程模式采集视频的主要数据。而要获取每个视频的完整数据,可以使用
SE::YouTube::Video
A-Parser 的功能允许保存 YouTube 爬虫工具的设置以供将来使用(预设),设置数据抓取计划等等。您可以使用自动查询扩展、从文件替换子查询、遍历数字字母组合和列表,以获取尽可能多的结果。
由于内置了强大的 Template Toolkit 模板引擎,可以将结果保存为您需要的任何形式和结构,这允许对结果应用额外的逻辑并以各种格式输出数据,包括 JSON、SQL 和 CSV。
采集的数据
数据从 http://www.youtube.com/ 服务采集。
- 主要搜索结果
- 视频链接
- 视频标题 (title)
- 视频描述
- 用户名
- 预览图链接
- 观看次数
- 视频长度
- 视频添加日期
- 频道订阅者数量
- AI 摘要 (summary),如果可用

- “相关查询”数组
- 关键词
- 预览链接
功能
- Youtube 抓取的最大页数为 50 页
- 选择国家 进行搜索
- 按添加日期 搜索
- 选择 结果类型(视频、频道、播放列表)
- 选择视频 时长
- 高级搜索参数设置(字幕、3D、HD、直播、知识共享许可)
- 按相关性、添加日期、评分、观看次数进行 Sort (排序)
- 额外抓取 视频预览链接
- 可选择 界面语言
- 可开启 安全搜索模式
应用场景
- 在 Youtube 中搜索、采集和分析信息
查询
应指定搜索短语作为查询,例如:
足球
尼亚加拉大瀑布
Speak in english
Cats and dogs
汽车
查询替换
您可以使用 内置宏 来扩展查询,例如我们想获取一个非常大的论坛数据库,指定几个不同语言的主要查询:
forum
论坛
foro
在查询格式中指定从 a 到 zzzz 的字符遍历,此方法可以最大限度地轮换搜索结果并获得许多新的唯一结果:
$query {az:a:zzzz}
该宏将为每个原始搜索查询创建 475254 个额外查询,总计将产生 4 x 475254 = 1901016 个搜索查询,这个数字令人印象深刻,但对于 A-Parser 来说完全不是问题。在每分钟 2000 个查询的速度下,此类任务仅需 16 小时即可处理完毕。
结果输出选项
得益于内置的 Template Toolkit 模板引擎,A-Parser 支持灵活的结果格式化,这使其能够以任意形式以及结构化形式(例如 CSV 或 JSON)输出结果。
导出链接列表
链接 + 视频标题 + 带位置输出的描述
结果格式:
[% FOREACH item IN p1.serp; loop.count _ ' - ' _ item.link _ ' - ' _ item.title _ ' - ' _ item.desc _ "\n"; END %]
结果示例:
1 - https://www.youtube.com/watch?v=dm_T7H6J2U8 - 你有多聪明?许多成年人无法通过的简单测试 - 在这个视频中,你可以检查你有多聪明。等待你的是 <b>测试</b>, ,由简单的学校问题组成 ...
2 - https://www.youtube.com/watch?v=iDAYNEV9Kxg - 独特的日本大脑老化测试!一定要检查一下自己! - 独特的日本 <b>测试</b> 大脑老化!一定要检查一下自己!该 <b>测试</b> 在日本开发。如何 ...
3 - https://www.youtube.com/watch?v=0PEy2_sSy6A - 这个简单的测试将揭示你最深层的恐惧 - 我们的潜意识 — 是一个相当黑暗的地方,理解它需要多年的心理分析。而这个 ...
4 - https://www.youtube.com/watch?v=j6K9nIugzAY - India vs England 2nd Test Day 4 Highlights 2021| Royal Sports Tv - India vs England 2nd <b>Test</b> Day 4 Highlights 2021 India vs England 2nd <b>Test</b> Day 4 Highlights 2021 | ind vs eng <b>test</b> series India vs ...
5 - https://www.youtube.com/watch?v=ALDqwSMVYKQ - 心理测试/ 929 秒的笑声/ 2021 年 2 月最佳笑话 哈哈/试着不要笑!最佳 COUB - Telegram 频道:https://t.me/CrazyHumor129k 在频道上你会发现 929 秒的极佳笑声和最佳 ...
6 - https://www.youtube.com/watch?v=6X1puBtvc_s - 电视剧 怀孕测试 第 1 集 - 2015 俄罗斯电视剧 HD - 电视剧首映 - <b>测试</b> 怀孕 第 1 集 - 2015 俄罗斯电视剧 在病人去世后,妇科医生娜塔莉亚 ...
7 - https://www.youtube.com/watch?v=hXuhVD7Dwp0 - 测试!光学错觉,将向你揭示关于你的意想不到的真相! - <b>测试</b>! 光学错觉,将向你揭示关于你的意想不到的真相!存在许多不同类型的 ...
8 - https://www.youtube.com/watch?v=BYA8lY4o33A - 测试!哪种动物是你的护身符?你的灵魂中隐藏着哪种捕食者?准确的性格测试 - <b>测试</b>! 你是哪种神兽?你的灵魂中隐藏着哪种捕食者?准确的 <b>测试</b> 性格 为了 ...
9 - https://www.youtube.com/watch?v=V-kqty2vAm4 - 测试!有人暗恋你!找出是谁! - <b>测试</b>! 有人暗恋你!找出是谁!你经常感到孤独并梦想找到真正的 ...
10 - https://www.youtube.com/watch?v=9HtbSe_oJto - 通过这个测试并检查你的注意力 - 在这个视频中,我们将检查你的注意力发展程度。不同类型的任务和多个级别在等着你 ...
...
将链接、标题和描述输出到 CSV 表格
内置工具 tools.CSVLine 允许创建正确的表格文档,以便导入 Excel 或 Google 表格。
通用结果格式:
[% FOREACH i IN p1.serp; tools.CSVline(i.link, i.title, i.desc); END %]
文件名:
$datefile.format().csv
初始文本:
链接,锚点,片段
在 通用结果格式 中,使用 Template Toolkit 模板引擎 在 FOREACH 循环中输出 $serp 数组。
在结果文件名中,只需将文件扩展名更改为 csv。
为了使“Prepend text”选项在 任务编辑器 中可用,需要激活“More options”。 在“Prepend text”中,用逗号分隔记录列名,并将第二行留空。
关键词竞争度
以 SQL 格式保存
结果格式:
[% FOREACH serp; "INSERT INTO serp VALUES('" _ query _ "', '"; link _ "', '"; title _ "')\n"; END %]
结果示例:
INSERT INTO serp VALUES('测试', 'https://www.youtube.com/watch?v=dm_T7H6J2U8', '你有多聪明?许多成年人无法通过的简单测试')
INSERT INTO serp VALUES('测试', 'https://www.youtube.com/watch?v=iDAYNEV9Kxg', '独特的日本大脑老化测试!一定要检查一下自己!')
INSERT INTO serp VALUES('测试', 'https://www.youtube.com/watch?v=0PEy2_sSy6A', '这个简单的测试将揭示你最深层的恐惧')
INSERT INTO serp VALUES('测试', 'https://www.youtube.com/watch?v=BYA8lY4o33A', '测试!哪种动物是你的护身符?你的灵魂中隐藏着哪种捕食者?准确的性格测试')
INSERT INTO serp VALUES('测试', 'https://www.youtube.com/watch?v=5Se6w0lOkyY', '新雷诺 Duster。试驾。Anton Avtoman.')
INSERT INTO serp VALUES('测试', 'https://www.youtube.com/watch?v=Ko8cFdoOV6U', '测试!你到底是什么样的女孩?你身上更多的是淑女还是假小子?')
INSERT INTO serp VALUES('测试', 'https://www.youtube.com/watch?v=j6K9nIugzAY', 'India vs England 2nd Test Day 4 Highlights 2021| Royal Sports Tv')
INSERT INTO serp VALUES('测试', 'https://www.youtube.com/watch?v=9HtbSe_oJto', '通过这个测试并检查你的注意力')
INSERT INTO serp VALUES('测试', 'https://www.youtube.com/watch?v=V-kqty2vAm4', '测试!有人暗恋你!找出是谁!')
...
将结果转储为 JSON
结果处理
A-Parser 允许在数据抓取过程中直接处理结果,在本节中,我们列出了 YouTube 爬虫工具最常用的案例
链接去重
按域名进行链接去重
提取域名
从视频标题和描述中删除标签
添加 Result Builders (结果构造器) 并在下拉列表中选择源:$p1.serp.$i.title - Title。选择类型:Remove HTML tags。
再次添加 Result Builders (结果构造器) 并在下拉列表中选择源:$p1.serp.$i.desc - Description。选择类型:Remove HTML tags。
下载示例
eJyVVMtu2zAQ/BWBMJAGUI3k0ItujlsjLZw4tZ1D4fjASCuBDUWyJOXGEPTv3aVo
y07TQ2/kPmb2MWTLPHcv7sGCA+9YtmmZCWeWsdWXLPuhm3XzDMkSar2D5HZ9N088
r1xSWl0na+EluISrIvkMLrfCeKGVYykz3DqwBLg5xUFPASVvpGdpy/zeAPIgsLWi
IKco8G54BbluFMawHZcNxlx3/w4vta25x6ID6iGDjZDfjHvnh4uRp1KTj8mowEKf
ntTFJeu225T1eW4W4ijNXI/jBI7OFd/BWhOVkDCYZ3i753UgK7gH8h4IL8f+lRB4
UQiaCZc9A01kYH1U4lcoVmmMxaMV4GY4WTR5CABk3B+q27BRuDOEaELu9z6HZSWX
DlLmsNQZx0KKtx7hwXKv7SLuKGuZVhMp57ADOYQF/JtGyALXNykx6WtMfD9k8RdG
d2zvlAqX9ttiDUeUcLtZ3A1ZhZ7rCjsvnrFvKWrh8e6mQQkZu0LjC4A5zuyeZlZr
C0eaiBzZUdMGFClkWNnEDKazNs7WcmJsmdONzZFvc5VuGGkKU4OYGMknatKG53Hr
a0k7t5bv0XgIJuX0GaTi9/BIk/8FFxI6TMi1KkW1iE/i0Eaj1viqF2qqayOBhq4a
KVEzDpaDdicuaoQuw/TeJk8DRSCNLxdr0NJ9W/VzNFZgSZ/SWPUpa4TMuZSPy/mp
hw16D1p3BJvjI6o0ypvmHvSfsUrrKjw6eDX4zwAuz9sGui11H3+Z4+/Vnv01Wduh
qn66hz6KuqQYtOG4HEqG/pU/xum9JQ==
结果构造器可以根据需要添加多次。
另请参阅:结果构造器
按包含情况过滤链接
可用设置
| 参数名称 | 默认值 | 描述 |
|---|---|---|
| Device | Desktop | 选择搜索结果类型 (Desktop/Mobile) |
| Pages count | 10 | 抓取页数(1 到 50) |
| Search from country | Auto (Based on IP) | 选择发起搜索的国家 |
| Interface language | English | 选择界面语言 |
| Restricted mode | ☐ | 开启/关闭“安全搜索”模式 |
| Uploaded time | All time | 按添加日期搜索 |
| Result type | Video | 选择结果类型 |
| Duration | All | 选择视频时长 |
| Features | All | 高级搜索参数设置 |
| Sort by | Relevancy | 结果排序 |
| Advanced filters (param sp=) | 允许指定复杂的过滤器组合。为此,需要获取浏览器 URL 中的 sp 参数值并将其粘贴到此字段中。此值优先于爬虫工具设置中指定的过滤器。 |