SE::YouTube::Video - công cụ cào dữ liệu video trên YouTube
Tổng quan về công cụ cào dữ liệu
Công cụ cào dữ liệu thông tin video trên YouTube. Nhờ công cụ cào dữ liệu này, bạn có thể cào tất cả dữ liệu cơ bản về video, cũng như phụ đề và bình luận. Đối với các truy vấn, bạn cần sử dụng liên kết đến các trang video trên Youtube. Có thể thu thập liên kết video bằng cách sử dụng
SE::YouTube. Sử dụng công cụ cào dữ liệu video youtube, bạn có thể thu thập tất cả dữ liệu video ở chế độ đa luồng.
Tính năng của A-Parser cho phép lưu các thiết lập cào dữ liệu của công cụ SE::YouTube::Video để sử dụng sau này (mẫu thiết lập), đặt lịch trình cào dữ liệu và nhiều tính năng khác.
Việc lưu kết quả có thể thực hiện dưới bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ tích hợp Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở các định dạng khác nhau, bao gồm JSON, SQL và CSV.
Dữ liệu thu thập được
- Tên và mô tả video
- Thời lượng video
- Số lượng lượt xem, lượt thích và bình luận
- Liên kết đến ảnh xem trước (preview)
- Tên tác giả, liên kết đến ảnh đại diện và kênh của họ, cũng như số lượng người đăng ký
- Phụ đề video (bao gồm thông tin về thời gian hiển thị)
- Danh sách thẻ (tags)
- Danh sách bình luận (bao gồm cả các câu trả lời cho bình luận)
- Id của bình luận và bình luận cha (đối với các câu trả lời)
- Tên tác giả, liên kết đến hồ sơ và ảnh đại diện
- Nội dung bình luận và thời gian đăng tải
- Danh sách video tương tự
- Liên kết và tên video
- Tác giả và ngày đăng
- Số lượt xem và thời lượng video
- Thông tin về các phần của video ($chapters)
- Tiêu đề, thời gian bắt đầu tính bằng giây và liên kết đến ảnh xem trước
Tính năng
- Chọn ngôn ngữ giao diện
- Chọn ngôn ngữ phụ đề
- Chỉ định số lượng trang bình luận (mỗi trang có khoảng 20 bình luận)
- Chỉ định số lượng trang câu trả lời tối đa cho mỗi bình luận (trang đầu tiên khoảng 10 câu trả lời, các trang tiếp theo khoảng 50)
- Chỉ định số lượng trang video tương tự (mỗi trang có khoảng 20 video)
- Hỗ trợ Shorts
Ứng dụng
- Thu thập dữ liệu thống kê về video trên Youtube
- Cào dữ liệu phụ đề và bình luận để làm nguồn nội dung văn bản
- Tìm kiếm các video tương tự
Đặc điểm hoạt động
Logic chọn ngôn ngữ phụ đề
Công cụ cào dữ liệu sử dụng mức ưu tiên sau (theo thứ tự giảm dần): của tác giả, của tác giả được dịch, tự động tạo, tự động tạo được dịch.
Ví dụ, nếu thiết lập cào phụ đề tiếng Anh, thì:
- nếu video có phụ đề tiếng Anh của tác giả - phụ đề của tác giả sẽ được cào
- nếu video có phụ đề của tác giả nhưng bằng ngôn ngữ khác - phụ đề của tác giả được dịch sang tiếng Anh sẽ được cào
- nếu video không có phụ đề của tác giả nhưng có phụ đề tự động tạo bằng tiếng Anh - phụ đề tự động tạo sẽ được cào
- nếu video không có phụ đề của tác giả và phụ đề tự động tạo bằng ngôn ngữ khác (do video bằng ngôn ngữ khác) - phụ đề tự động tạo được dịch sẽ được cào
Cào dữ liệu bình luận
Các bình luận được thu thập trong một luồng duy nhất, vì vậy việc cào dữ liệu có thể mất khá nhiều thời gian, đặc biệt là khi cào số lượng lớn trang và cào các câu trả lời. Không nên thiết lập số lượng trang câu trả lời quá lớn, thông thường 1-3 trang là đủ, hoặc có thể tắt hoàn toàn việc cào câu trả lời - điều này sẽ tăng tốc độ làm việc đáng kể.
Truy vấn
Trong phần truy vấn, bạn cần chỉ định các liên kết đến video, ví dụ:
https://www.youtube.com/watch?v=lWA2pjMjpBs
https://www.youtube.com/watch?v=EDwb9jOVRtU
https://www.youtube.com/watch?v=5NPBIwQyPWE
Các tùy chọn xuất kết quả
A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả dưới dạng tùy ý cũng như dạng cấu trúc như CSV hoặc JSON
Xuất mặc định
Định dạng kết quả:
$query - $title\nViews: $viewsCount, likes: $likesCount, comments: $commentsCount\n
Kết quả sẽ hiển thị liên kết đến video, tiêu đề, số lượng lượt thích, lượt xem và bình luận:
https://www.youtube.com/watch?v=5NPBIwQyPWE - Avril Lavigne - Complicated (Official Video)
Views: 571331713, likes: 3959948, comments: 143597
https://www.youtube.com/watch?v=EDwb9jOVRtU - Madonna - Hung Up (Official Video) [HD]
Views: 414662791, likes: 2153344, comments: 91895
https://www.youtube.com/watch?v=lWA2pjMjpBs - Rihanna - Diamonds
Views: 2104207258, likes: 10235971, comments: 394622
Xuất phụ đề
Định dạng kết quả:
$query\n$subtitles.format('$text ')\n\n
Kết quả sẽ hiển thị liên kết đến video và phụ đề bằng ngôn ngữ đã chọn.
Xuất ra bảng CSV
Công cụ tích hợp tools.CSVLine cho phép tạo các tài liệu bảng chính xác, sẵn sàng để nhập vào Excel hoặc Google Sheets.
Định dạng kết quả chung:
[% tools.CSVline(query, p1.author, p1.date, p1.duration, p1.title, p1.viewsCount, p1.likesCount, p1.commentsCount, p1.tags.format('$tag,')) %]
Tên tệp:
$datefile.format().csv
Văn bản bắt đầu:
Link,Author,"Publish date",Duration,Title,"Views count","Likes count","Comments count",Tags
Trong Định dạng kết quả chung, bộ tạo mẫu Template Toolkit được áp dụng.
Trong tên tệp kết quả, bạn chỉ cần thay đổi phần mở rộng của tệp thành csv.
Để tùy chọn "Prepend text" hiển thị trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "More options". Trong "Prepend text", chúng ta ghi tên các cột cách nhau bằng dấu phẩy và để dòng thứ hai trống.
Các thiết lập có thể có
| Tên tham số | Giá trị mặc định | Mô tả |
|---|---|---|
| Interface language | English | Chọn ngôn ngữ giao diện |
| Subtitles language | English | Chọn ngôn ngữ phụ đề |
| Comments pages count | 5 | Số lượng trang bình luận |
| Pages count for replies | 3 | Số lượng trang câu trả lời cho mỗi bình luận |
| Pages count for related videos | 5 | Số lượng trang với các video tương tự |
| Login required is error | ☑ | Chỉ định công cụ cào dữ liệu coi thông báo yêu cầu đăng nhập là lỗi và thử lại |