Ir al contenido principal

SE::YouTube::Video - extractor de datos de videos en YouTube

Descripción general del extractor

Extractor de datos de videos en YouTube. Gracias a este extractor, podrá extraer todos los datos principales de los videos, así como subtítulos y comentarios. Como consultas, debe utilizar enlaces a las páginas de videos en YouTube. Puede recopilar enlaces a videos utilizando SE::YouTubeSE::YouTube. Al utilizar el extractor de videos de YouTube, puede recopilar todos los datos del video en modo multihilo.

La funcionalidad de A-Parser permite guardar la configuración de extracción del extractor SE::YouTube::Video para su uso posterior (ajustes preestablecidos), establecer un cronograma de extracción de datos y mucho más.

Es posible guardar los resultados en la forma y estructura que necesite, gracias al potente motor de plantillas integrado Template Toolkit que permite aplicar lógica adicional a los resultados y exportar datos en varios formatos, incluidos JSON, SQL y CSV.

Datos recopilados

  • Título y descripción del video
  • Duración del videoclip
  • Número de vistas, likes y comentarios
  • Enlace a la miniatura (preview)
  • Nombre del autor, enlaces a su avatar y canal, así como el número de suscriptores
  • Subtítulos del video (incluida la información del tiempo de visualización)
  • Lista de etiquetas (tags)
  • Lista de comentarios (incluidas las respuestas a los comentarios)
    • Id del comentario y del comentario principal (para respuestas)
    • Nombre del autor, enlace al perfil y avatar
    • Texto del comentario y hora de publicación
  • Lista de videos relacionados
    • Enlace y título del video
    • Autor y fecha
    • Número de vistas y duración del video
  • Información sobre las partes del video ($chapters)
    • Título, tiempo de inicio en segundos y enlace a la imagen de vista previa

Características

  • Selección del idioma de la interfaz
  • Selección del idioma de los subtítulos
  • Especificación del número de páginas de comentarios (aproximadamente 20 comentarios por página)
  • Especificación del número máximo de páginas de respuestas para cada comentario (aproximadamente 10 respuestas en la primera página, aproximadamente 50 en las siguientes)
  • Especificación del número de páginas de videos relacionados (aproximadamente 20 videos por página)
  • Soporte para Shorts

Casos de uso

  • Recopilación de datos estadísticos sobre videos en Youtube
  • Extracción de datos de subtítulos y comentarios como fuente de textos
  • Búsqueda de videos similares

Particularidades de funcionamiento

Lógica de selección del idioma de los subtítulos

El extractor utiliza la siguiente prioridad (en orden descendente): del autor, del autor traducidos, generados, generados traducidos.

Por ejemplo, si en el extractor se ha configurado extraer subtítulos en inglés, entonces:

  • si el video tiene subtítulos en inglés del autor, se extraerán los del autor
  • si el video tiene subtítulos del autor pero en otro idioma, se extraerán los del autor traducidos al inglés
  • si el video no tiene subtítulos del autor pero tiene generados en inglés, se extraerán los generados
  • si el video no tiene subtítulos del autor y los generados están en otro idioma (ya que el video está en otro idioma), se extraerán los generados traducidos

Extracción de datos de comentarios

Los comentarios se recopilan en un solo hilo, por lo que su extracción de datos puede ser bastante prolongada, especialmente al extraer muchas páginas y respuestas. No se recomienda especificar un gran número de páginas de respuestas; normalmente 1-3 es suficiente, o se puede desactivar por completo la extracción de respuestas, lo que acelerará significativamente el trabajo.

Consultas

Como consultas, es necesario indicar enlaces a videos, por ejemplo:

https://www.youtube.com/watch?v=lWA2pjMjpBs
https://www.youtube.com/watch?v=EDwb9jOVRtU
https://www.youtube.com/watch?v=5NPBIwQyPWE

Opciones de salida de resultados

A-Parser admite un formateo flexible de resultados gracias al motor de plantillas integrado Template Toolkit, lo que le permite mostrar los resultados en forma arbitraria, así como estructurada, por ejemplo, CSV o JSON.

Salida por defecto

Formato del resultado:

$query - $title\nViews: $viewsCount, likes: $likesCount, comments: $commentsCount\n

Como resultado, se mostrarán el enlace al video, su título, el número de likes, vistas y comentarios:

https://www.youtube.com/watch?v=5NPBIwQyPWE - Avril Lavigne - Complicated (Official Video)
Views: 571331713, likes: 3959948, comments: 143597
https://www.youtube.com/watch?v=EDwb9jOVRtU - Madonna - Hung Up (Official Video) [HD]
Views: 414662791, likes: 2153344, comments: 91895
https://www.youtube.com/watch?v=lWA2pjMjpBs - Rihanna - Diamonds
Views: 2104207258, likes: 10235971, comments: 394622

Salida de subtítulos

Formato del resultado:

$query\n$subtitles.format('$text ')\n\n

Como resultado, se mostrará el enlace al video y los subtítulos en el idioma especificado.

Salida en tabla CSV

La herramienta integrada tools.CSVLine permite crear documentos tabulares correctos, listos para importar en Excel o Google Sheets.

Formato general del resultado:

[% tools.CSVline(query, p1.author, p1.date, p1.duration, p1.title, p1.viewsCount, p1.likesCount, p1.commentsCount, p1.tags.format('$tag,')) %]

Nombre del archivo:

$datefile.format().csv

Texto inicial:

Link,Author,"Publish date",Duration,Title,"Views count","Likes count","Comments count",Tags

sugerencia

En el Formato general de resultados se aplica el motor de plantillas Template Toolkit.

En el nombre del archivo de resultados, simplemente debe cambiar la extensión del archivo a csv.

Para que la opción "Texto inicial" esté disponible en el Editor de tareas, debe activar "Más opciones". En "Texto inicial" escribimos los nombres de las columnas separados por comas y dejamos la segunda línea vacía.

Configuraciones posibles

Nombre del parámetroValor por defectoDescripción
Interface languageEnglishSelección del idioma de la interfaz
Subtitles languageEnglishSelección del idioma de los subtítulos
Comments pages count5Cantidad de páginas de comentarios
Pages count for replies3Cantidad de páginas de respuestas para cada comentario
Pages count for related videos5Cantidad de páginas con videos similares
Login required is errorIndica al extractor que considere el mensaje de necesidad de autorización como un error y reintente