SE::YouTube::Video - scraper de données vidéo YouTube
Présentation du scraper
Scraper de données de vidéos YouTube. Grâce à ce scraper, vous pourrez collecter toutes les données principales sur les vidéos, ainsi que les sous-titres et les commentaires. Comme requêtes, vous devez utiliser des liens vers les pages de vidéos sur YouTube. Vous pouvez collecter des liens vers les vidéos à l'aide de
SE::YouTube. En utilisant le scraper de vidéos YouTube, il est possible de collecter toutes les données d'une vidéo en mode traitement multithread.
La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte du scraper SE::YouTube::Video pour une utilisation ultérieure (présélections), de définir un calendrier de collecte de données et bien plus encore.
La sauvegarde des résultats est possible sous la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'afficher les données dans divers formats, y compris JSON, SQL et CSV.
Données collectées
- Titre et description de la vidéo
- Durée de la vidéo
- Nombre de vues, de likes et de commentaires
- Lien vers l'aperçu (thumbnail)
- Nom de l'auteur, liens vers son avatar et sa chaîne, ainsi que le nombre d'abonnés
- Sous-titres de la vidéo (y compris les informations sur le temps d'affichage)
- Liste des tags
- Liste des commentaires (y compris les réponses aux commentaires)
- Id du commentaire et du commentaire parent (pour les réponses)
- Nom de l'auteur, lien vers le profil et l'avatar
- Texte du commentaire et heure de publication
- Liste des vidéos similaires
- Lien et titre de la vidéo
- Auteur et date
- Nombre de vues et durée de la vidéo
- Informations sur les chapitres de la vidéo ($chapters)
- Titre, temps de début en secondes et lien vers l'image d'aperçu
Fonctionnalités
- Choix de la langue de l'interface
- Choix de la langue des sous-titres
- Indication du nombre de pages de commentaires (environ 20 commentaires par page)
- Indication du nombre maximum de pages de réponses pour chaque commentaire (environ 10 réponses sur la première page, environ 50 sur les suivantes)
- Indication du nombre de pages de vidéos similaires (environ 20 vidéos par page)
- Prise en charge des Shorts
Cas d'utilisation
- Collecte de données statistiques sur les vidéos YouTube
- Collecte de données de sous-titres et de commentaires comme source de textes
- Recherche de vidéos similaires
Particularités de fonctionnement
Logique de sélection de la langue des sous-titres
Le scraper utilise la priorité suivante (par ordre décroissant) : créés par l'auteur, traduits par l'auteur, générés automatiquement, traduits automatiquement.
Par exemple, si le scraper est configuré pour collecter les sous-titres anglais :
- si la vidéo a des sous-titres anglais créés par l'auteur - ils seront collectés
- si la vidéo a des sous-titres créés par l'auteur, mais dans une autre langue - les sous-titres traduits en anglais par l'auteur seront collectés
- si la vidéo n'a pas de sous-titres d'auteur, mais possède des sous-titres générés en anglais - les générés seront collectés
- si la vidéo n'a pas de sous-titres d'auteur et que les générés sont dans une autre langue (car la vidéo est dans une autre langue) - les générés traduits seront collectés
Collecte de données des commentaires
Les commentaires sont collectés dans un seul thread, leur collecte peut donc être assez longue, surtout lors de la collecte d'un grand nombre de pages et de réponses. Il n'est pas recommandé de définir un grand nombre de pages de réponses, 1 à 3 suffisent généralement, ou vous pouvez désactiver complètement la collecte des réponses - cela accélérera considérablement le travail.
Requêtes
Il est nécessaire d'indiquer des liens vers les vidéos comme requêtes, par exemple :
https://www.youtube.com/watch?v=lWA2pjMjpBs
https://www.youtube.com/watch?v=EDwb9jOVRtU
https://www.youtube.com/watch?v=5NPBIwQyPWE
Variantes d'affichage des résultats
A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme libre ou structurée, comme CSV ou JSON
Sortie par défaut
Format du résultat :
$query - $title\nViews: $viewsCount, likes: $likesCount, comments: $commentsCount\n
Le résultat affichera le lien vers la vidéo, son titre, le nombre de likes, de vues et de commentaires :
https://www.youtube.com/watch?v=5NPBIwQyPWE - Avril Lavigne - Complicated (Official Video)
Views: 571331713, likes: 3959948, comments: 143597
https://www.youtube.com/watch?v=EDwb9jOVRtU - Madonna - Hung Up (Official Video) [HD]
Views: 414662791, likes: 2153344, comments: 91895
https://www.youtube.com/watch?v=lWA2pjMjpBs - Rihanna - Diamonds
Views: 2104207258, likes: 10235971, comments: 394622
Sortie des sous-titres
Format du résultat :
$query\n$subtitles.format('$text ')\n\n
Le résultat affichera le lien vers la vidéo et les sous-titres dans la langue spécifiée.
Sortie dans un tableau CSV
L'outil intégré tools.CSVLine permet de créer des documents tabulaires corrects, prêts à être importés dans Excel ou Google Sheets.
Format général du résultat :
[% tools.CSVline(query, p1.author, p1.date, p1.duration, p1.title, p1.viewsCount, p1.likesCount, p1.commentsCount, p1.tags.format('$tag,')) %]
Nom du fichier :
$datefile.format().csv
Texte initial :
Link,Author,"Publish date",Duration,Title,"Views count","Likes count","Comments count",Tags
Dans le Format général des résultats, le moteur de gabarits Template Toolkit est appliqué.
Dans le nom du fichier de résultats, il suffit de changer l'extension du fichier en csv.
Pour que l'option "Texte initial" soit disponible dans l'Éditeur de tâches, vous devez activer "Plus d'options". Dans "Texte initial", inscrivez les noms des colonnes séparés par des virgules et laissez la deuxième ligne vide.
Paramètres possibles
| Nom du paramètre | Valeur par défaut | Description |
|---|---|---|
| Interface language | English | Choix de la langue de l'interface |
| Subtitles language | English | Choix de la langue des sous-titres |
| Comments pages count | 5 | Nombre de pages de commentaires |
| Pages count for replies | 3 | Nombre de pages de réponses pour chaque commentaire |
| Pages count for related videos | 5 | Nombre de pages avec des vidéos similaires |
| Login required is error | ☑ | Indique au scraper de considérer le message de nécessité d'autorisation comme une erreur et de répéter les tentatives |