SE::YouTube - công cụ cào dữ liệu YouTube đầy đủ

Tổng quan về công cụ cào dữ liệu
Công cụ cào dữ liệu kết quả tìm kiếm YouTube. Nhờ công cụ cào dữ liệu YouTube, bạn có thể nhận được cơ sở dữ liệu lớn các liên kết video sẵn sàng để sử dụng tiếp. Bạn có thể sử dụng các truy vấn giống hệt như khi nhập vào thanh tìm kiếm của YouTube. Sử dụng công cụ cào dữ liệu youtube có thể thu thập các dữ liệu cơ bản về video ở chế độ đa luồng. Để lấy dữ liệu đầy đủ về mỗi video, bạn có thể sử dụng
SE::YouTube::Video
Tính năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của công cụ cào dữ liệu YouTube để sử dụng sau này (mẫu thiết lập sẵn), thiết lập lịch trình cào dữ liệu và nhiều tính năng khác. Bạn có thể sử dụng tính năng tự động nhân bản truy vấn, thay thế các truy vấn phụ từ tệp, lặp qua các tổ hợp chữ cái - số và danh sách để nhận được số lượng kết quả tối đa có thể.
Việc lưu kết quả có thể thực hiện theo bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ được tích hợp sẵn Template Toolkit, cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.
Dữ liệu thu thập được
Dữ liệu được thu thập từ dịch vụ http://www.youtube.com/.
- Kết quả tìm kiếm chính
- Liên kết đến video
- Tiêu đề video (title)
- Mô tả video
- Tên người dùng
- Liên kết đến ảnh xem trước (thumbnail)
- Số lượt xem
- Độ dài video
- Ngày đăng video
- Số lượng người đăng ký kênh
- Mô tả AI (summary), nếu có

- Mảng "Tìm kiếm liên quan"
- Từ khóa
- Liên kết đến ảnh xem trước
Tính năng
- Số lượng trang tối đa để cào dữ liệu trên Youtube - 50 trang
- Chọn quốc gia thực hiện tìm kiếm
- Tìm kiếm theo ngày đăng
- Chọn loại kết quả (video, kênh, danh sách phát)
- Chọn thời lượng video
- Cài đặt nâng cao các tham số tìm kiếm (phụ đề, 3D, HD, trực tiếp, giấy phép Creative Commons)
- Sort (Sắp xếp) theo mức độ liên quan, ngày đăng, xếp hạng, số lượt xem
- Cào thêm liên kết đến ảnh xem trước của video
- Có khả năng chọn ngôn ngữ giao diện
- Có khả năng bật chế độ an toàn khi tìm kiếm
Ứng dụng
- Tìm kiếm, thu thập và phân tích thông tin trên Youtube
Truy vấn
Các cụm từ tìm kiếm cần được chỉ định làm truy vấn, ví dụ:
Bóng đá
Thác Niagara
Speak in english
Cats and dogs
Ô tô
Thay thế truy vấn
Bạn có thể sử dụng các macro tích hợp sẵn để nhân bản truy vấn, ví dụ chúng ta muốn có một cơ sở dữ liệu diễn đàn rất lớn, hãy chỉ định một vài truy vấn chính bằng các ngôn ngữ khác nhau:
forum
diễn đàn
foro
Trong định dạng truy vấn, chúng ta chỉ định lặp qua các ký tự từ a đến zzzz, phương pháp này cho phép xoay vòng tối đa kết quả tìm kiếm và nhận được nhiều kết quả độc nhất mới:
$query {az:a:zzzz}
Macro này sẽ tạo ra 475254 truy vấn bổ sung cho mỗi truy vấn tìm kiếm gốc, tổng cộng sẽ cho ra 4 x 475254 = 1901016 truy vấn tìm kiếm, một con số ấn tượng nhưng hoàn toàn không phải là vấn đề đối với A-Parser. Với tốc độ 2000 truy vấn mỗi phút, tác vụ này sẽ được xử lý chỉ trong vòng 16 giờ.
Các tùy chọn xuất kết quả
A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả dưới dạng tùy ý cũng như có cấu trúc, ví dụ như CSV hoặc JSON
Xuất danh sách liên kết
Tương tự như trong SE::Google.
Liên kết + tiêu đề video + mô tả kèm theo số thứ tự vị trí
Định dạng kết quả:
[% FOREACH item IN p1.serp; loop.count _ ' - ' _ item.link _ ' - ' _ item.title _ ' - ' _ item.desc _ "\n"; END %]
Ví dụ kết quả:
1 - https://www.youtube.com/watch?v=dm_T7H6J2U8 - BẠN THÔNG MINH ĐẾN MỨC NÀO? Bài kiểm tra đơn giản mà nhiều người lớn không vượt qua được - Trong video này bạn có thể kiểm tra xem mình thông minh đến mức nào. Một <b>bài kiểm tra</b>, đang chờ bạn, bao gồm các câu hỏi đơn giản ở trình độ học sinh... ...
2 - https://www.youtube.com/watch?v=iDAYNEV9Kxg - Bài kiểm tra độc đáo của Nhật Bản về sự lão hóa não bộ! Hãy tự kiểm tra ngay! - Một <b>bài kiểm tra</b> độc đáo của Nhật Bản về sự lão hóa não bộ! Hãy tự kiểm tra ngay! <b>Bài kiểm tra</b> này được phát triển tại Nhật Bản. Cách... ...
3 - https://www.youtube.com/watch?v=0PEy2_sSy6A - Bài Kiểm Tra Đơn Giản Này Sẽ Tiết Lộ Nỗi Sợ Thầm Kín Nhất Của Bạn - Tiềm thức của chúng ta là một nơi khá tăm tối, để hiểu được nó cần nhiều năm phân tâm học. Và bài...
4 - https://www.youtube.com/watch?v=j6K9nIugzAY - India vs England 2nd Test Day 4 Highlights 2021| Royal Sports Tv - India vs England 2nd <b>Test</b> Day 4 Highlights 2021 India vs England 2nd <b>Test</b> Day 4 Highlights 2021 | ind vs eng <b>test</b> series India vs ...
5 - https://www.youtube.com/watch?v=ALDqwSMVYKQ - KIỂM TRA TÂM LÝ/ 929 GIÂY CƯỜI/NHỮNG TRÒ ĐÙA HAY NHẤT THÁNG 2 2021/THỬ THÁCH KHÔNG CƯỜI! BEST COUB - Kênh Telegram: https://t.me/CrazyHumor129k TRÊN KÊNH BẠN SẼ TÌM THẤY 929 GIÂY CƯỜI SẢNG KHOÁI VỚI NHỮNG...
6 - https://www.youtube.com/watch?v=6X1puBtvc_s - Phim bộ Thử nghiệm mang thai tập 1 - phim Nga 2015 HD - Ra mắt phim bộ - <b>Thử nghiệm</b> mang thai tập 1 - phim Nga 2015 Sau cái chết của bệnh nhân, bác sĩ phụ khoa Natalya... ...
7 - https://www.youtube.com/watch?v=hXuhVD7Dwp0 - Kiểm tra! Những Ảo Ảnh Thị Giác Sẽ Tiết Lộ Sự Thật Bất Ngờ Về Bạn! - <b>Kiểm tra</b>! ! Những Ảo Ảnh Thị Giác Sẽ Tiết Lộ Sự Thật Bất Ngờ Về Bạn! Có rất nhiều loại khác nhau... ...
8 - https://www.youtube.com/watch?v=BYA8lY4o33A - Kiểm tra! LINH VẬT CỦA BẠN LÀ CON GÌ? Loài thú săn mồi nào đang ẩn giấu trong tâm hồn bạn? Bài kiểm tra tính cách chính xác - <b>Kiểm tra</b>! ! BẠN LÀ LINH VẬT THẦN THÁNH NÀO? Loài thú săn mồi nào đang ẩn giấu trong tâm hồn bạn? <b>Bài kiểm tra</b> tính cách chính xác Để... ...
9 - https://www.youtube.com/watch?v=V-kqty2vAm4 - Kiểm tra! CÓ AI ĐÓ ĐANG THẦM YÊU BẠN! HÃY TÌM HIỂU XEM LÀ AI! - <b>Kiểm tra</b>! ! CÓ AI ĐÓ ĐANG THẦM YÊU BẠN! HÃY TÌM HIỂU XEM LÀ AI! Bạn thường cảm thấy cô đơn và mơ ước tìm thấy một tình yêu đích thực... ...
10 - https://www.youtube.com/watch?v=9HtbSe_oJto - Hãy thực hiện bài Kiểm tra này và kiểm tra sự Tập trung của bạn - Trong video này chúng ta sẽ kiểm tra mức độ phát triển sự tập trung của bạn. Nhiều loại bài tập với nhiều cấp độ đang chờ bạn...
...
Xuất liên kết, tiêu đề và mô tả vào bảng CSV
Công cụ tích hợp tools.CSVLine cho phép tạo các tài liệu bảng chính xác, sẵn sàng để nhập vào Excel hoặc Google Sheets.
Định dạng kết quả chung:
[% FOREACH i IN p1.serp; tools.CSVline(i.link, i.title, i.desc); END %]
Tên tệp:
$datefile.format().csv
Văn bản bắt đầu:
Liên kết,Anchor,Snippet
Trong Định dạng kết quả chung, bộ tạo mẫu Template Toolkit được sử dụng để xuất mảng $serp trong vòng lặp FOREACH.
Trong tên tệp kết quả, bạn chỉ cần thay đổi phần mở rộng của tệp thành csv.
Để tùy chọn "Prepend text" hiển thị trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "More options". Trong "Prepend text", chúng ta ghi tên các cột cách nhau bằng dấu phẩy và để dòng thứ hai trống.
Cạnh tranh từ khóa
Tương tự như trong SE::Google.
Lưu ở định dạng SQL
Định dạng kết quả:
[% FOREACH serp; "INSERT INTO serp VALUES('" _ query _ "', '"; link _ "', '"; title _ "')\n"; END %]
Ví dụ kết quả:
INSERT INTO serp VALUES('kiểm tra', 'https://www.youtube.com/watch?v=dm_T7H6J2U8', 'BẠN THÔNG MINH ĐẾN MỨC NÀO? Bài kiểm tra đơn giản mà nhiều người lớn không vượt qua được')
INSERT INTO serp VALUES('kiểm tra', 'https://www.youtube.com/watch?v=iDAYNEV9Kxg', 'Bài kiểm tra độc đáo của Nhật Bản về sự lão hóa não bộ! Hãy tự kiểm tra ngay!')
INSERT INTO serp VALUES('kiểm tra', 'https://www.youtube.com/watch?v=0PEy2_sSy6A', 'Bài Kiểm Tra Đơn Giản Này Sẽ Tiết Lộ Nỗi Sợ Thầm Kín Nhất Của Bạn')
INSERT INTO serp VALUES('kiểm tra', 'https://www.youtube.com/watch?v=BYA8lY4o33A', 'Kiểm tra! LINH VẬT CỦA BẠN LÀ CON GÌ? Loài thú săn mồi nào đang ẩn giấu trong tâm hồn bạn? Bài kiểm tra tính cách chính xác')
INSERT INTO serp VALUES('kiểm tra', 'https://www.youtube.com/watch?v=5Se6w0lOkyY', 'Renault Duster mới. Chạy thử. Anton Avtoman.')
INSERT INTO serp VALUES('kiểm tra', 'https://www.youtube.com/watch?v=Ko8cFdoOV6U', 'Kiểm tra! BẠN LÀ KIỂU CON GÁI NÀO? Bạn giống TIỂU THƯ hay TOMBOY hơn?')
INSERT INTO serp VALUES('kiểm tra', 'https://www.youtube.com/watch?v=j6K9nIugzAY', 'India vs England 2nd Test Day 4 Highlights 2021| Royal Sports Tv')
INSERT INTO serp VALUES('kiểm tra', 'https://www.youtube.com/watch?v=9HtbSe_oJto', 'Hãy thực hiện bài Kiểm tra này và kiểm tra sự Tập trung của bạn')
INSERT INTO serp VALUES('kiểm tra', 'https://www.youtube.com/watch?v=V-kqty2vAm4', 'Kiểm tra! CÓ AI ĐÓ ĐANG THẦM YÊU BẠN! HÃY TÌM HIỂU XEM LÀ AI!')
...
Xuất kết quả sang JSON
Tương tự như trong SE::Google.
Xử lý kết quả
A-Parser cho phép xử lý kết quả trực tiếp trong quá trình cào dữ liệu, trong phần này chúng tôi đưa ra các trường hợp phổ biến nhất cho công cụ cào dữ liệu YouTube
Khử trùng lặp liên kết
Tương tự như trong SE::Google.
Khử trùng lặp liên kết theo tên miền
Tương tự như trong SE::Google.
Trích xuất tên miền
Tương tự như trong SE::Google.
Xóa thẻ HTML khỏi tiêu đề và mô tả video
Thêm Result Builders (Trình tạo kết quả) và trong danh sách thả xuống chọn nguồn: $p1.serp.$i.title - Title. Chọn loại: Remove HTML tags.
Thêm lại Result Builders (Trình tạo kết quả) và trong danh sách thả xuống chọn nguồn: $p1.serp.$i.desc - Description. Chọn loại: Remove HTML tags.
Tải xuống ví dụ
eJyVVMtu2zAQ/BWBMJAGUI3k0ItujlsjLZw4tZ1D4fjASCuBDUWyJOXGEPTv3aVo
y07TQ2/kPmb2MWTLPHcv7sGCA+9YtmmZCWeWsdWXLPuhm3XzDMkSar2D5HZ9N088
r1xSWl0na+EluISrIvkMLrfCeKGVYykz3DqwBLg5xUFPASVvpGdpy/zeAPIgsLWi
IKco8G54BbluFMawHZcNxlx3/w4vta25x6ID6iGDjZDfjHvnh4uRp1KTj8mowEKf
ntTFJeu225T1eW4W4ijNXI/jBI7OFd/BWhOVkDCYZ3i753UgK7gH8h4IL8f+lRB4
UQiaCZc9A01kYH1U4lcoVmmMxaMV4GY4WTR5CABk3B+q27BRuDOEaELu9z6HZSWX
DlLmsNQZx0KKtx7hwXKv7SLuKGuZVhMp57ADOYQF/JtGyALXNykx6WtMfD9k8RdG
d2zvlAqX9ttiDUeUcLtZ3A1ZhZ7rCjsvnrFvKWrh8e6mQQkZu0LjC4A5zuyeZlZr
C0eaiBzZUdMGFClkWNnEDKazNs7WcmJsmdONzZFvc5VuGGkKU4OYGMknatKG53Hr
a0k7t5bv0XgIJuX0GaTi9/BIk/8FFxI6TMi1KkW1iE/i0Eaj1viqF2qqayOBhq4a
KVEzDpaDdicuaoQuw/TeJk8DRSCNLxdr0NJ9W/VzNFZgSZ/SWPUpa4TMuZSPy/mp
hw16D1p3BJvjI6o0ypvmHvSfsUrrKjw6eDX4zwAuz9sGui11H3+Z4+/Vnv01Wduh
qn66hz6KuqQYtOG4HEqG/pU/xum9JQ==
Bạn có thể thêm Trình tạo kết quả bao nhiêu lần tùy ý.
Xem thêm: Trình tạo kết quả
Lọc liên kết theo sự xuất hiện
Tương tự như trong SE::Google.
Các cài đặt có thể có
| Tên tham số | Giá trị mặc định | Mô tả |
|---|---|---|
| Device | Desktop | Chọn loại kết quả (Desktop/Mobile) |
| Pages count | 10 | Số lượng trang để cào dữ liệu (từ 1 đến 50) |
| Search from country | Auto (Based on IP) | Chọn quốc gia thực hiện tìm kiếm |
| Interface language | English | Chọn ngôn ngữ giao diện |
| Restricted mode | ☐ | Bật/tắt "Chế độ an toàn" tìm kiếm |
| Uploaded time | All time | Tìm kiếm theo ngày đăng |
| Result type | Video | Chọn loại kết quả |
| Duration | All | Chọn thời lượng video |
| Features | All | Cài đặt nâng cao các tham số tìm kiếm |
| Sort by | Relevancy | Sắp xếp kết quả |
| Advanced filters (param sp=) | Cho phép chỉ định các tổ hợp bộ lọc phức tạp. Để thực hiện việc này, bạn cần lấy giá trị của tham số sp trong URL trên trình duyệt và dán vào trường này. Giá trị này có ưu tiên cao hơn các bộ lọc được thiết lập trong cài đặt của công cụ cào dữ liệu. |