SE::Yandex::Video - công cụ cào dữ liệu Yandex Video

Tổng quan về công cụ cào dữ liệu
Công cụ cào dữ liệu tìm kiếm video Yandex. Nhờ công cụ cào dữ liệu SE::Yandex::Video, bạn có thể nhận được cơ sở dữ liệu các liên kết video. Bạn có thể sử dụng các truy vấn ở cùng định dạng mà bạn nhập vào thanh tìm kiếm của Yandex.
Tính năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của công cụ cào dữ liệu Yandex để sử dụng sau này (mẫu thiết lập sẵn), đặt lịch trình cào dữ liệu và nhiều tính năng khác. Bạn có thể sử dụng tính năng tự động nhân bản truy vấn, thay thế các truy vấn phụ từ tệp, lặp qua các tổ hợp chữ cái-số và danh sách để nhận được số lượng kết quả tối đa có thể.
Việc lưu kết quả có thể thực hiện ở bất kỳ định dạng và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ được tích hợp sẵn Template Toolkit, cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.
Dữ liệu thu thập được
- Liên kết đến video
- Anchor text
- Snippet
- Tên dịch vụ lưu trữ video
- Thời lượng, số lượt xem và ngày đăng
- Liên kết đến ảnh bìa (poster) và xem trước video
- Tóm tắt nội dung video
- Danh sách các chương trong video
- Mã nhúng để chèn vào trang web

Tính năng
- Hỗ trợ các bộ lọc (ngắn, mới nhất)
- Chọn số lượng trang kết quả
- Hỗ trợ phiên làm việc (sessions)
Trường hợp sử dụng
- Thu thập video để làm nội dung cho blog, trang video, doorway...
- Thu thập dữ liệu văn bản
Truy vấn
Trong phần truy vấn, bạn cần chỉ định các cụm từ tìm kiếm, ví dụ:
Cats
Football
Waterfall
Speak in english
cars
Thay thế truy vấn
Bạn có thể sử dụng các macro tích hợp sẵn để nhân bản truy vấn, ví dụ: chúng ta muốn có một cơ sở dữ liệu diễn đàn rất lớn, hãy chỉ định một vài truy vấn chính bằng các ngôn ngữ khác nhau:
forum
diễn đàn
foro
论坛
Trong định dạng truy vấn, chúng ta sẽ chỉ định việc lặp qua các ký tự từ a đến zzzz, phương pháp này cho phép xoay vòng kết quả tìm kiếm tối đa và nhận được nhiều kết quả mới duy nhất:
$query {az:a:zzzz}
Macro này sẽ tạo ra 475254 truy vấn bổ sung cho mỗi truy vấn tìm kiếm gốc, tổng cộng sẽ cho ra 4 x 475254 = 1901016 truy vấn tìm kiếm, một con số ấn tượng nhưng hoàn toàn không phải là vấn đề đối với A-Parser. Với tốc độ 2000 truy vấn mỗi phút, tác vụ này sẽ được xử lý chỉ trong 16 giờ.
Các ví dụ về định dạng đầu ra
A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu Template Toolkit tích hợp sẵn, cho phép xuất kết quả ở dạng tùy ý cũng như dạng có cấu trúc như CSV hoặc JSON.
Đầu ra mặc định
Định dạng kết quả:
$serp.format('$link\n')
Ví dụ kết quả:
http://www.youtube.com/v/lcYzh7IjJj0
http://www.youtube.com/watch?v=VD2h2YUY_WQ
http://www.youtube.com/watch?v=UPOUE8ObCy8
http://www.youtube.com/watch?v=Ha9Q1kHqCHA
http://www.youtube.com/watch?v=P5rlifhgewY
https://zen.yandex.ru/video/watch/61099fa859eaef364db8b3cd?f=video
http://www.youtube.com/v/-cvEA8897Fc?fs=0
https://zen.yandex.ru/video/watch/625ed4e3099b9b7b81b17e3b?f=video
http://rutube.ru/video/016773a106036e9d3cd619ace97011e0/
http://rutube.ru/video/e54b2392b7dd3fe57fed6002aba5f833/
http://rutube.ru/video/8fe868740089c3557d6d54e86ceca6a1/
http://www.youtube.com/v/OuOK2fEPdMU
http://www.youtube.com/watch?v=UcbmVFYp4Lg
http://www.youtube.com/watch?v=JgJE4oQf-Gs
http://www.youtube.com/watch?v=ektN1-ptnDE
Xuất ra bảng CSV
Định dạng kết quả:
[% FOREACH item IN serp;
tools.CSVline(query, item.link, item.anchor, item.prevPoster, item.duration, item.views);
END %]
Ví dụ kết quả:
test,http://www.youtube.com/v/lcYzh7IjJj0,"<b>Kiểm tra</b> IQ bằng 10 ảnh",https://avatars.mds.yandex.net/get-vthumb/4322300/5f649751351f727400bfd1be494fd6b4/564x318_1,07:09,"2,5 triệu lượt xem"
test,http://www.youtube.com/watch?v=VD2h2YUY_WQ,"Online <b>Test</b> Pad -cách tự tạo <b>bài kiểm tra</b>",https://avatars.mds.yandex.net/get-vthumb/1023253/fffa43fb9402c436d6881537bb9aee9a/564x318_1,05:38,"16,6 nghìn lượt xem"
test,http://www.youtube.com/watch?v=UPOUE8ObCy8,"Bài kiểm tra giáo dục đơn giản <b>kiểm tra</b>. Online <b>Test</b> Pad",https://avatars.mds.yandex.net/get-vthumb/3435353/fa94c2b60d9bb0fa8cda2d469b6dcf0a/564x318_1,04:16,"76,5 nghìn lượt xem"
test,http://www.youtube.com/watch?v=Ha9Q1kHqCHA,"Tạo <b>các bài kiểm tra</b> với Online <b>Test</b> Pad #2",https://avatars.mds.yandex.net/get-vthumb/2032788/4ffd2b149fbfc3de17b67ef92290028e/564x318_1,07:00,"1704 lượt xem"
test,http://www.youtube.com/watch?v=P5rlifhgewY,"Bài IQ-<b>test</b> này gồm 5 câu hỏi sẽ cho biết mức độ trí tuệ của bạn",https://avatars.mds.yandex.net/get-vthumb/4507451/f3475d744f7841b40912dd933dce65c1/564x318_1,08:01,"606 nghìn lượt xem"
test,https://zen.yandex.ru/video/watch/61099fa859eaef364db8b3cd?f=video,"Spotlight 4 lớp 4. Bài <b>kiểm tra</b>. Exit <b>test</b>",https://avatars.mds.yandex.net/get-vthumb/3304426/beaeeaba5bfc6c00bcae50c4fa7cf236/564x318_1,09:39,
test,http://www.youtube.com/v/-cvEA8897Fc?fs=0,"English grammar <b>test</b>",https://avatars.mds.yandex.net/get-vthumb/2428342/b5b8a32f0260ce4ac785b6a4f1a8b006/564x318_1,12:35,"597 nghìn lượt xem"
test,https://zen.yandex.ru/video/watch/625ed4e3099b9b7b81b17e3b?f=video,"NHỮNG câu trả lời này rất ít người biết ""Brain <b>Test</b>"" #1",https://avatars.mds.yandex.net/get-vh/5811343/2a00000180429688a113593b8944b066f53d/564x318_1,17:07,
test,http://rutube.ru/video/016773a106036e9d3cd619ace97011e0/,"Cách vượt qua trò chơi Brain <b>Test</b> 2? Câu trả lời cho tất cả các cấp độ",https://avatars.mds.yandex.net/get-vthumb/4407993/aa07260f286afde40d15abad02f816af/564x318_1,1:29:03,
test,http://rutube.ru/video/e54b2392b7dd3fe57fed6002aba5f833/,"Brain <b>Test</b> Hoàn thành màn chơi № 4 Đắm chìm vào thế giới câu đố",https://avatars.mds.yandex.net/get-vthumb/467972/c078458de66e698c5680527352261b9d/564x318_1,26:23,
test,http://rutube.ru/video/8fe868740089c3557d6d54e86ceca6a1/,"SpeedTest - SpeedTest - Kiểm tra tốc độ kết nối internet",https://avatars.mds.yandex.net/get-vthumb/3446066/7cca0b8914479dcfe294b06246ea6df8/564x318_1,05:16,"tổng cộng 223 nghìn lượt xem"
Lưu dưới định dạng SQL
Định dạng kết quả:
[% FOREACH serp;
"INSERT INTO serp VALUES('" _ query _ "', '";
link _ "', '";
snippet.replace("\n", '\n') _ "', '";
summary.replace("\n", '\n') _ "')\n";
END %]
Ví dụ kết quả:
INSERT INTO serp VALUES('test', 'http://www.youtube.com/v/lcYzh7IjJj0', '', '00:25 Câu đố với những tấm ván\nCâu hỏi: có bao nhiêu tấm ván ở đây?\nTrả lời: không có tấm nào, vì các đường vẽ thêm vào các tấm ván làm cho tấm này chuyển mượt sang tấm kia\n01:10 Câu đố với chân voi\nCâu hỏi: con voi có bao nhiêu chân?\nTrả lời: con voi có một chân nằm ở phía sau, còn tất cả các chân khác không phải là thật\n02:00 Câu đố với người phụ nữ bên cửa sổ\nCâu hỏi: hai hình ảnh này khác nhau ở điểm nào?\nTrả lời: ở góc dưới bên phải có một hang chuột')
INSERT INTO serp VALUES('test', 'http://www.youtube.com/watch?v=VD2h2YUY_WQ', '', '00:01 Giới thiệu\nVideo nói về trang web online test pad, nơi bạn có thể tạo các bài kiểm tra, khảo sát, trò chơi ô chữ và trò chơi logic.\nTrước tiên bạn cần đăng ký bằng email.\n00:35 Tạo bài kiểm tra\nSau khi đăng ký, bạn có thể tạo các bài kiểm tra, khảo sát, trò chơi ô chữ và trò chơi logic của riêng mình.\nVideo trình bày cách tạo một bài kiểm tra từ đầu.\n01:06 Các loại câu hỏi\nVideo hướng dẫn cách tạo các loại câu hỏi khác nhau: chọn một đáp án, nhập văn bản, điền vào chỗ trống và các loại khác.\nTrình bày các ví dụ về câu hỏi và câu trả lời cho mỗi loại.')
INSERT INTO serp VALUES('test', 'http://www.youtube.com/watch?v=P5rlifhgewY', '', '00:00 Giới thiệu\nVideo là một bài kiểm tra IQ gồm năm câu hỏi giúp xác định mức độ trí tuệ.\n04:00 Kết quả kiểm tra\nNếu chọn các phương án trả lời đầu tiên, mức độ hạnh phúc cao nhưng trí tuệ ở mức trung bình.\nNếu chọn các phương án trả lời thứ hai, mức độ trí tuệ cao nhưng mức độ hạnh phúc ở mức trung bình.\nNếu chọn các phương án trả lời khác nhau, mức độ trí tuệ và hạnh phúc nằm ở điểm cân bằng vàng.\n07:08 Kết luận\nVideo kêu gọi chia sẻ kết quả kiểm tra với bạn bè và đăng ký kênh.\nNếu đạt được 50 nghìn lượt thích, họ sẽ chuẩn bị một bài kiểm tra khác.')
INSERT INTO serp VALUES('test', 'https://zen.yandex.ru/video/watch/625ed4e3099b9b7b81b17e3b?f=video', '"Brain <b>Test</b>" ► Vượt màn CHÚC MỌI NGƯỜI XEM VUI VẺ :) Liên kết: Nhạc trong Video: https://www.youtube.com/watch?v=5qap5aO4i9A Discord Máy chủ ► https://discord.gg/4JWEu9URwB YouTube ►...', '')
INSERT INTO serp VALUES('test', 'http://rutube.ru/video/016773a106036e9d3cd619ace97011e0/', 'Đã vượt qua trò chơi Brain <b>Test</b> 2. Chia sẻ câu trả lời cho tất cả các cấp độ. Vượt màn trò chơi Brain <b>Test</b> 2 tất cả các phần: Cùng Nastya giảm cân, Vượt ngục, Đặc vụ James Blond, Gia đình Vạn Năng, Thợ săn quái vật, Vanya...', '')
INSERT INTO serp VALUES('test', 'http://rutube.ru/video/e54b2392b7dd3fe57fed6002aba5f833/', 'https://www.youtube.com/channel/UCgpWRYOfFZ0whXZ8F26KbUg Kênh YouTube https://t.me/DimaDaimont kênh Telegram https://www.donationalerts.com/r/dimadaimont2 giúp đỡ phát triển...', '')
Kết xuất kết quả sang JSON
Định dạng kết quả chung:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.videos = [];
FOREACH item IN p1.serp;
obj.videos.push({
link = item.link
anchor = item.anchor
snippet = item.snippet
service = item.service
embed = item.embed
});
END;
obj.json %]
Văn bản bắt đầu:
[
Văn bản kết thúc:
]
Ví dụ kết quả:
[{
"videos": [
{
"embed": "<iframe src=\"//www.youtube.com/embed/lcYzh7IjJj0?enablejsapi=1&wmode=opaque\" frameborder=\"0\" scrolling=\"no\" allowfullscreen=\"1\" allow=\"autoplay; fullscreen; accelerometer; gyroscope; picture-in-picture\" aria-label=\"Video\"></iframe>",
"link": "http://www.youtube.com/v/lcYzh7IjJj0",
"snippet": "",
"anchor": "<b>Kiểm tra</b> IQ bằng 10 ảnh",
"service": "YouTube"
},
{
"embed": "<iframe src=\"//www.youtube.com/embed/VD2h2YUY_WQ?enablejsapi=1&wmode=opaque\" frameborder=\"0\" scrolling=\"no\" allowfullscreen=\"1\" allow=\"autoplay; fullscreen; accelerometer; gyroscope; picture-in-picture\" aria-label=\"Video\"></iframe>",
"link": "http://www.youtube.com/watch?v=VD2h2YUY_WQ",
"snippet": "",
"anchor": "Online <b>Test</b> Pad -cách tự tạo <b>bài kiểm tra</b>",
"service": "YouTube"
},
{
"embed": "<iframe src=\"//www.youtube.com/embed/UPOUE8ObCy8?enablejsapi=1&wmode=opaque\" frameborder=\"0\" scrolling=\"no\" allowfullscreen=\"1\" allow=\"autoplay; fullscreen; accelerometer; gyroscope; picture-in-picture\" aria-label=\"Video\"></iframe>",
"link": "http://www.youtube.com/watch?v=UPOUE8ObCy8",
"snippet": "",
"anchor": "Bài kiểm tra giáo dục đơn giản <b>kiểm tra</b>. Online <b>Test</b> Pad",
"service": "YouTube"
},
{
"embed": "<iframe src=\"//www.youtube.com/embed/Ha9Q1kHqCHA?enablejsapi=1&wmode=opaque\" frameborder=\"0\" scrolling=\"no\" allowfullscreen=\"1\" allow=\"autoplay; fullscreen; accelerometer; gyroscope; picture-in-picture\" aria-label=\"Video\"></iframe>",
"link": "http://www.youtube.com/watch?v=Ha9Q1kHqCHA",
"snippet": "",
"anchor": "Tạo <b>các bài kiểm tra</b> với Online <b>Test</b> Pad #2",
"service": "YouTube"
}
],
"query": "test"
}]
Để các tùy chọn "Prepend text" và "Append text" hiển thị trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "More options".
Các cài đặt khả dụng
| Tham số | Giá trị mặc định | Mô tả |
|---|---|---|
| Pages count | 5 | Số lượng trang để cào dữ liệu |
| New videos | ☐ | Video mới nhất |
| Short videos | ☐ | Video ngắn |