Перейти к основному содержимому

SE::YouTube::Video - парсер данных о видео на YouTube

Обзор парсера

Парсер данных о видео на YouTube. Благодаря данному парсеру вы сможете парсить все основные данные о видео, а также субтитры и комментарии. В качестве запросов нужно использовать ссылки на страницы с видео на Youtube. Собрать ссылки на видео можно с помощью SE::YouTubeSE::YouTube. Используя парсер видео youtube можно собрать все данные по видеоролику в многопоточном режиме.

Функционал A-Parser позволяет сохранять настройки парсинга парсера SE::YouTube::Video для дальнейшего использования (пресеты), задавать расписание парсинга и многое другое.

Сохранение результатов возможно в том виде и структуре которая вам необходима, благодаря встроенному мощному шаблонизатору Template Toolkit который позволяет применять дополнительную логику к результатам и выводить данные в различных форматах, включая JSON, SQL и CSV.

Собираемые данные

  • Название и описание видео
  • Длительность видеоролика
  • Количество просмотров, лайков и комментариев
  • Ссылка на превью
  • Имя автора, ссылки на его аватар и канал, а также количество подписчиков
  • Субтитры к видео (включая информацию о времени отображения)
  • Список тегов
  • Список комментариев (включая ответы на комментарии)
    • Id комментария и родительского комментария (для ответов)
    • Имя автора, ссылка на профиль и аватар
    • Текст комментария и время публикации
  • Список похожих видео
    • Ссылка и название видео
    • Автор и дата
    • Кол-во просмотров и длительность видео
  • Информация о частях видео ($chapters)
    • Заголовок, время начала в секундах и ссылка на картинку-превью

Возможности

  • Выбор языка интерфейса
  • Выбор языка субтитров
  • Указание количества страниц комментариев (на каждой странице примерно 20 комментариев)
  • Указание максимального количества страниц ответов на каждый комментарий (на первой странице примерно 10 ответов, на следующих - примерно 50)
  • Указание количества страниц похожих видео (на каждой странице примерно 20 видео)
  • Поддержка Shorts

Варианты использования

  • Сбор статистических данных о видео на Youtube
  • Парсинг субтитров и комментариев в качестве источника текстов
  • Поиск похожих видео

Особенности работы

Логика выбора языка субтитров

Парсер использует следующий приоритет (в порядке убывания): авторские, авторские переведенные, сгенерированные, сгенерированные переведенные.

Например, в парсере задано спарсить английские субтитры, тогда:

  • если у видео есть авторские английские субтитры - будут спаршены авторские
  • если у видео есть авторские субтитры, но на другом языке - будут спаршены авторские переведенные на английский
  • если у видео нету авторских субтитров, но есть сгенерированные на английском - будут спаршены сгенерированные
  • если у видео нету авторских субтитров, а сгенерированные на другом языке (т.к. видео на другом языке) - будут спаршены сгенерированные переведенные

Парсинг комментариев

Комментарии собираются в одном потоке, поэтому их парсинг может быть довольно длительным, особенно при парсинге большого количества страниц и парсинге ответов. Не рекомендуется задавать большое количество страниц ответов, обычно достаточно 1-3, либо можно совсем отключить парсинг ответов - это сильно ускорит работу.

Запросы

В качестве запросов необходимо указывать ссылки на видео, например:

https://www.youtube.com/watch?v=lWA2pjMjpBs
https://www.youtube.com/watch?v=EDwb9jOVRtU
https://www.youtube.com/watch?v=5NPBIwQyPWE

Варианты вывода результатов

A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON

Вывод по умолчанию

Формат результата:

$query - $title\nViews: $viewsCount, likes: $likesCount, comments: $commentsCount\n

В результате будут выведены ссылка на видео, его название, количество лайков, просмотров и комментариев:

https://www.youtube.com/watch?v=5NPBIwQyPWE - Avril Lavigne - Complicated (Official Video)
Views: 571331713, likes: 3959948, comments: 143597
https://www.youtube.com/watch?v=EDwb9jOVRtU - Madonna - Hung Up (Official Video) [HD]
Views: 414662791, likes: 2153344, comments: 91895
https://www.youtube.com/watch?v=lWA2pjMjpBs - Rihanna - Diamonds
Views: 2104207258, likes: 10235971, comments: 394622

Вывод субтитров

Формат результата:

$query\n$subtitles.format('$text ')\n\n

В результате будет выведена ссылка на видео и субтитры на заданном языке.

Вывод в таблицу CSV

Встроенный инструмент tools.CSVLine позволяет создавать корректные табличные документы, готовые для импорта в Excel или Google Таблицы.

Общий формат результата:

[% tools.CSVline(query, p1.author, p1.date, p1.duration, p1.title, p1.viewsCount, p1.likesCount, p1.commentsCount, p1.tags.format('$tag,')) %]

Имя файла:

$datefile.format().csv

Начальный текст:

Link,Author,"Publish date",Duration,Title,"Views count","Likes count","Comments count",Tags

подсказка

В Общем формате результатов применяется шаблонизатор Template Toolkit.

В имени файла результатов нужно просто изменить разрешение файла на csv.

Чтобы опция "Начальный текст" была доступна в Редакторе заданий, нужно активировать "Больше опций". В "Начальный текст" записываем названия столбцов через запятую и второй строку делаем пустой.

Возможные настройки

Название параметраЗначение по умолчаниюОписание
Interface languageEnglishВыбор языка интерфейса
Subtitles languageEnglishВыбор языка субтитров
Comments pages count5Количество страниц комментариев
Pages count for replies3Количество страниц ответов к каждому комментарию
Pages count for related videos5Количество страниц с похожими видео
Login required is errorУказывает парсеру считать сообщение о необходимости авторизации ошибкой и повторять попытки