SE::YouTube::Video - парсер данных о видео на YouTube
Обзор парсера
Парсер данных о видео на YouTube. Благодаря данному парсеру вы сможете парсить все основные данные о видео, а также субтитры и комментарии. В качестве запросов нужно использовать ссылки на страницы с видео на Youtube. Собрать ссылки на видео можно с помощью SE::YouTube. Используя парсер видео youtube можно собрать все данные по видеоролику в многопоточном режиме.
Функционал A-Parser позволяет сохранять настройки парсинга парсера SE::YouTube::Video для дальнейшего использования (пресеты), задавать расписание парсинга и многое другое.
Сохранение результатов возможно в том виде и структуре которая вам необходима, благодаря встроенному мощному шаблонизатору Template Toolkit который позволяет применять дополнительную логику к результатам и выводить данные в различных форматах, включая JSON, SQL и CSV.
Собираемые данные
- Название и описание видео
- Длительность видеоролика
- Количество просмотров, лайков и комментариев
- Ссылка на превью
- Имя автора, ссылки на его аватар и канал, а также количество подписчиков
- Субтитры к видео (включая информацию о времени отображения)
- Список тегов
- Список комментариев (включая ответы на комментарии)
- Id комментария и родительского комментария (для ответов)
- Имя автора, ссылка на профиль и аватар
- Текст комментария и время публикации
- Список похожих видео
- Ссылка и название видео
- Автор и дата
- Кол-во просмотров и длительность видео
- Информация о частях видео ($chapters)
- Заголовок, время начала в секундах и ссылка на картинку-превью
Возможности
- Выбор языка интерфейса
- Выбор языка субтитров
- Указание количества страниц комментариев (на каждой странице примерно 20 комментариев)
- Указание максимального количества страниц ответов на каждый комментарий (на первой странице примерно 10 ответов, на следующих - примерно 50)
- Указание количества страниц похожих видео (на каждой странице примерно 20 видео)
- Поддержка Shorts
Варианты использования
- Сбор статистических данных о видео на Youtube
- Парсинг субтитров и комментариев в качестве источника текстов
- Поиск похожих видео
Особенности работы
Логика выбора языка субтитров
Парсер использует следующий приоритет (в порядке убывания): авторские, авторские переведенные, сгенерированные, сгенерированные переведенные.
Например, в парсере задано спарсить английские субтитры, тогда:
- если у видео есть авторские английские субтитры - будут спаршены авторские
- если у видео есть авторские субтитры, но на другом языке - будут спаршены авторские переведенные на английский
- если у видео нету авторских субтитров, но есть сгенерированные на английском - будут спаршены сгенерированные
- если у видео нету авторских субтитров, а сгенерированные на другом языке (т.к. видео на другом языке) - будут спаршены сгенерированные переведенные
Парсинг комментариев
Комментарии собираются в одном потоке, поэтому их парсинг может быть довольно длительным, особенно при парсинге большого количества страниц и парсинге ответов. Не рекомендуется задавать большое количество страниц ответов, обычно достаточно 1-3, либо можно совсем отключить парсинг ответов - это сильно ускорит работу.
Запросы
В качестве запросов необходимо указывать ссылки на видео, например:
https://www.youtube.com/watch?v=lWA2pjMjpBs
https://www.youtube.com/watch?v=EDwb9jOVRtU
https://www.youtube.com/watch?v=5NPBIwQyPWE
Варианты вывода результатов
A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON
Вывод по умолчанию
Формат результата:
$query - $title\nViews: $viewsCount, likes: $likesCount, comments: $commentsCount\n
В результате будут выведены ссылка на видео, его название, количество лайков, просмотров и комментариев:
https://www.youtube.com/watch?v=5NPBIwQyPWE - Avril Lavigne - Complicated (Official Video)
Views: 571331713, likes: 3959948, comments: 143597
https://www.youtube.com/watch?v=EDwb9jOVRtU - Madonna - Hung Up (Official Video) [HD]
Views: 414662791, likes: 2153344, comments: 91895
https://www.youtube.com/watch?v=lWA2pjMjpBs - Rihanna - Diamonds
Views: 2104207258, likes: 10235971, comments: 394622
Вывод субтитров
Формат результата:
$query\n$subtitles.format('$text ')\n\n
В результате будет выведена ссылка на видео и субтитры на заданном языке.
Вывод в таблицу CSV
Встроенный инструмент tools.CSVLine позволяет создавать корректные табличные документы, готовые для импорта в Excel или Google Таблицы.
Общий формат результата:
[% tools.CSVline(query, p1.author, p1.date, p1.duration, p1.title, p1.viewsCount, p1.likesCount, p1.commentsCount, p1.tags.format('$tag,')) %]
Имя файла:
$datefile.format().csv
Начальный текст:
Link,Author,"Publish date",Duration,Title,"Views count","Likes count","Comments count",Tags
В Общем формате результатов применяется шаблонизатор Template Toolkit.
В имени файла результатов нужно просто изменить разрешение файла на csv.
Чтобы опция "Начальный текст" была доступна в Редакторе заданий, нужно активировать "Больше опций". В "Начальный текст" записываем названия столбцов через запятую и второй строку делаем пустой.
Возможные настройки
Название параметра | Значение по умолчанию | Описание |
---|---|---|
Interface language | English | Выбор языка интерфейса |
Subtitles language | English | Выбор языка субтитров |
Comments pages count | 5 | Количество страниц комментариев |
Pages count for replies | 3 | Количество страниц ответов к каждому комментарию |
Pages count for related videos | 5 | Количество страниц с похожими видео |
Login required is error | ☑ | Указывает парсеру считать сообщение о необходимости авторизации ошибкой и повторять попытки |