SE::YouTube::Video - extractor de datos de videos en YouTube
Descripción general del extractor
Extractor de datos de videos en YouTube. Gracias a este extractor, podrá extraer todos los datos principales de los videos, así como subtítulos y comentarios. Como consultas, debe utilizar enlaces a las páginas de videos en YouTube. Puede recopilar enlaces a videos utilizando
SE::YouTube. Al utilizar el extractor de videos de YouTube, puede recopilar todos los datos del video en modo multihilo.
La funcionalidad de A-Parser permite guardar la configuración de extracción del extractor SE::YouTube::Video para su uso posterior (ajustes preestablecidos), establecer un cronograma de extracción de datos y mucho más.
Es posible guardar los resultados en la forma y estructura que necesite, gracias al potente motor de plantillas integrado Template Toolkit que permite aplicar lógica adicional a los resultados y exportar datos en varios formatos, incluidos JSON, SQL y CSV.
Datos recopilados
- Título y descripción del video
- Duración del videoclip
- Número de vistas, likes y comentarios
- Enlace a la miniatura (preview)
- Nombre del autor, enlaces a su avatar y canal, así como el número de suscriptores
- Subtítulos del video (incluida la información del tiempo de visualización)
- Lista de etiquetas (tags)
- Lista de comentarios (incluidas las respuestas a los comentarios)
- Id del comentario y del comentario principal (para respuestas)
- Nombre del autor, enlace al perfil y avatar
- Texto del comentario y hora de publicación
- Lista de videos relacionados
- Enlace y título del video
- Autor y fecha
- Número de vistas y duración del video
- Información sobre las partes del video ($chapters)
- Título, tiempo de inicio en segundos y enlace a la imagen de vista previa
Características
- Selección del idioma de la interfaz
- Selección del idioma de los subtítulos
- Especificación del número de páginas de comentarios (aproximadamente 20 comentarios por página)
- Especificación del número máximo de páginas de respuestas para cada comentario (aproximadamente 10 respuestas en la primera página, aproximadamente 50 en las siguientes)
- Especificación del número de páginas de videos relacionados (aproximadamente 20 videos por página)
- Soporte para Shorts
Casos de uso
- Recopilación de datos estadísticos sobre videos en Youtube
- Extracción de datos de subtítulos y comentarios como fuente de textos
- Búsqueda de videos similares
Particularidades de funcionamiento
Lógica de selección del idioma de los subtítulos
El extractor utiliza la siguiente prioridad (en orden descendente): del autor, del autor traducidos, generados, generados traducidos.
Por ejemplo, si en el extractor se ha configurado extraer subtítulos en inglés, entonces:
- si el video tiene subtítulos en inglés del autor, se extraerán los del autor
- si el video tiene subtítulos del autor pero en otro idioma, se extraerán los del autor traducidos al inglés
- si el video no tiene subtítulos del autor pero tiene generados en inglés, se extraerán los generados
- si el video no tiene subtítulos del autor y los generados están en otro idioma (ya que el video está en otro idioma), se extraerán los generados traducidos
Extracción de datos de comentarios
Los comentarios se recopilan en un solo hilo, por lo que su extracción de datos puede ser bastante prolongada, especialmente al extraer muchas páginas y respuestas. No se recomienda especificar un gran número de páginas de respuestas; normalmente 1-3 es suficiente, o se puede desactivar por completo la extracción de respuestas, lo que acelerará significativamente el trabajo.
Consultas
Como consultas, es necesario indicar enlaces a videos, por ejemplo:
https://www.youtube.com/watch?v=lWA2pjMjpBs
https://www.youtube.com/watch?v=EDwb9jOVRtU
https://www.youtube.com/watch?v=5NPBIwQyPWE
Opciones de salida de resultados
A-Parser admite un formateo flexible de resultados gracias al motor de plantillas integrado Template Toolkit, lo que le permite mostrar los resultados en forma arbitraria, así como estructurada, por ejemplo, CSV o JSON.
Salida por defecto
Formato del resultado:
$query - $title\nViews: $viewsCount, likes: $likesCount, comments: $commentsCount\n
Como resultado, se mostrarán el enlace al video, su título, el número de likes, vistas y comentarios:
https://www.youtube.com/watch?v=5NPBIwQyPWE - Avril Lavigne - Complicated (Official Video)
Views: 571331713, likes: 3959948, comments: 143597
https://www.youtube.com/watch?v=EDwb9jOVRtU - Madonna - Hung Up (Official Video) [HD]
Views: 414662791, likes: 2153344, comments: 91895
https://www.youtube.com/watch?v=lWA2pjMjpBs - Rihanna - Diamonds
Views: 2104207258, likes: 10235971, comments: 394622
Salida de subtítulos
Formato del resultado:
$query\n$subtitles.format('$text ')\n\n
Como resultado, se mostrará el enlace al video y los subtítulos en el idioma especificado.
Salida en tabla CSV
La herramienta integrada tools.CSVLine permite crear documentos tabulares correctos, listos para importar en Excel o Google Sheets.
Formato general del resultado:
[% tools.CSVline(query, p1.author, p1.date, p1.duration, p1.title, p1.viewsCount, p1.likesCount, p1.commentsCount, p1.tags.format('$tag,')) %]
Nombre del archivo:
$datefile.format().csv
Texto inicial:
Link,Author,"Publish date",Duration,Title,"Views count","Likes count","Comments count",Tags
En el Formato general de resultados se aplica el motor de plantillas Template Toolkit.
En el nombre del archivo de resultados, simplemente debe cambiar la extensión del archivo a csv.
Para que la opción "Texto inicial" esté disponible en el Editor de tareas, debe activar "Más opciones". En "Texto inicial" escribimos los nombres de las columnas separados por comas y dejamos la segunda línea vacía.
Configuraciones posibles
| Nombre del parámetro | Valor por defecto | Descripción |
|---|---|---|
| Interface language | English | Selección del idioma de la interfaz |
| Subtitles language | English | Selección del idioma de los subtítulos |
| Comments pages count | 5 | Cantidad de páginas de comentarios |
| Pages count for replies | 3 | Cantidad de páginas de respuestas para cada comentario |
| Pages count for related videos | 5 | Cantidad de páginas con videos similares |
| Login required is error | ☑ | Indica al extractor que considere el mensaje de necesidad de autorización como un error y reintente |