Passer au contenu principal

SE::YouTube::Video - scraper de données vidéo YouTube

Présentation du scraper

Scraper de données de vidéos YouTube. Grâce à ce scraper, vous pourrez collecter toutes les données principales sur les vidéos, ainsi que les sous-titres et les commentaires. Comme requêtes, vous devez utiliser des liens vers les pages de vidéos sur YouTube. Vous pouvez collecter des liens vers les vidéos à l'aide de SE::YouTubeSE::YouTube. En utilisant le scraper de vidéos YouTube, il est possible de collecter toutes les données d'une vidéo en mode traitement multithread.

La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte du scraper SE::YouTube::Video pour une utilisation ultérieure (présélections), de définir un calendrier de collecte de données et bien plus encore.

La sauvegarde des résultats est possible sous la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'afficher les données dans divers formats, y compris JSON, SQL et CSV.

Données collectées

  • Titre et description de la vidéo
  • Durée de la vidéo
  • Nombre de vues, de likes et de commentaires
  • Lien vers l'aperçu (thumbnail)
  • Nom de l'auteur, liens vers son avatar et sa chaîne, ainsi que le nombre d'abonnés
  • Sous-titres de la vidéo (y compris les informations sur le temps d'affichage)
  • Liste des tags
  • Liste des commentaires (y compris les réponses aux commentaires)
    • Id du commentaire et du commentaire parent (pour les réponses)
    • Nom de l'auteur, lien vers le profil et l'avatar
    • Texte du commentaire et heure de publication
  • Liste des vidéos similaires
    • Lien et titre de la vidéo
    • Auteur et date
    • Nombre de vues et durée de la vidéo
  • Informations sur les chapitres de la vidéo ($chapters)
    • Titre, temps de début en secondes et lien vers l'image d'aperçu

Fonctionnalités

  • Choix de la langue de l'interface
  • Choix de la langue des sous-titres
  • Indication du nombre de pages de commentaires (environ 20 commentaires par page)
  • Indication du nombre maximum de pages de réponses pour chaque commentaire (environ 10 réponses sur la première page, environ 50 sur les suivantes)
  • Indication du nombre de pages de vidéos similaires (environ 20 vidéos par page)
  • Prise en charge des Shorts

Cas d'utilisation

  • Collecte de données statistiques sur les vidéos YouTube
  • Collecte de données de sous-titres et de commentaires comme source de textes
  • Recherche de vidéos similaires

Particularités de fonctionnement

Logique de sélection de la langue des sous-titres

Le scraper utilise la priorité suivante (par ordre décroissant) : créés par l'auteur, traduits par l'auteur, générés automatiquement, traduits automatiquement.

Par exemple, si le scraper est configuré pour collecter les sous-titres anglais :

  • si la vidéo a des sous-titres anglais créés par l'auteur - ils seront collectés
  • si la vidéo a des sous-titres créés par l'auteur, mais dans une autre langue - les sous-titres traduits en anglais par l'auteur seront collectés
  • si la vidéo n'a pas de sous-titres d'auteur, mais possède des sous-titres générés en anglais - les générés seront collectés
  • si la vidéo n'a pas de sous-titres d'auteur et que les générés sont dans une autre langue (car la vidéo est dans une autre langue) - les générés traduits seront collectés

Collecte de données des commentaires

Les commentaires sont collectés dans un seul thread, leur collecte peut donc être assez longue, surtout lors de la collecte d'un grand nombre de pages et de réponses. Il n'est pas recommandé de définir un grand nombre de pages de réponses, 1 à 3 suffisent généralement, ou vous pouvez désactiver complètement la collecte des réponses - cela accélérera considérablement le travail.

Requêtes

Il est nécessaire d'indiquer des liens vers les vidéos comme requêtes, par exemple :

https://www.youtube.com/watch?v=lWA2pjMjpBs
https://www.youtube.com/watch?v=EDwb9jOVRtU
https://www.youtube.com/watch?v=5NPBIwQyPWE

Variantes d'affichage des résultats

A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme libre ou structurée, comme CSV ou JSON

Sortie par défaut

Format du résultat :

$query - $title\nViews: $viewsCount, likes: $likesCount, comments: $commentsCount\n

Le résultat affichera le lien vers la vidéo, son titre, le nombre de likes, de vues et de commentaires :

https://www.youtube.com/watch?v=5NPBIwQyPWE - Avril Lavigne - Complicated (Official Video)
Views: 571331713, likes: 3959948, comments: 143597
https://www.youtube.com/watch?v=EDwb9jOVRtU - Madonna - Hung Up (Official Video) [HD]
Views: 414662791, likes: 2153344, comments: 91895
https://www.youtube.com/watch?v=lWA2pjMjpBs - Rihanna - Diamonds
Views: 2104207258, likes: 10235971, comments: 394622

Sortie des sous-titres

Format du résultat :

$query\n$subtitles.format('$text ')\n\n

Le résultat affichera le lien vers la vidéo et les sous-titres dans la langue spécifiée.

Sortie dans un tableau CSV

L'outil intégré tools.CSVLine permet de créer des documents tabulaires corrects, prêts à être importés dans Excel ou Google Sheets.

Format général du résultat :

[% tools.CSVline(query, p1.author, p1.date, p1.duration, p1.title, p1.viewsCount, p1.likesCount, p1.commentsCount, p1.tags.format('$tag,')) %]

Nom du fichier :

$datefile.format().csv

Texte initial :

Link,Author,"Publish date",Duration,Title,"Views count","Likes count","Comments count",Tags

astuce

Dans le Format général des résultats, le moteur de gabarits Template Toolkit est appliqué.

Dans le nom du fichier de résultats, il suffit de changer l'extension du fichier en csv.

Pour que l'option "Texte initial" soit disponible dans l'Éditeur de tâches, vous devez activer "Plus d'options". Dans "Texte initial", inscrivez les noms des colonnes séparés par des virgules et laissez la deuxième ligne vide.

Paramètres possibles

Nom du paramètreValeur par défautDescription
Interface languageEnglishChoix de la langue de l'interface
Subtitles languageEnglishChoix de la langue des sous-titres
Comments pages count5Nombre de pages de commentaires
Pages count for replies3Nombre de pages de réponses pour chaque commentaire
Pages count for related videos5Nombre de pages avec des vidéos similaires
Login required is errorIndique au scraper de considérer le message de nécessité d'autorisation comme une erreur et de répéter les tentatives