SE::YouTube::Video - Parser für Videodaten auf YouTube
Übersicht des Parsers
Parser für YouTube-Videodaten. Mit diesem Parser können Sie alle wichtigen Daten zu Videos sowie Untertitel und Kommentare extrahieren. Als Abfragen müssen Links zu YouTube-Videoseiten verwendet werden. Links zu Videos können mit
SE::YouTube gesammelt werden. Durch die Verwendung des YouTube-Video-Parsers können alle Daten zu einem Video im Multithreading-Modus erfasst werden.
Die Funktionalität von A-Parser ermöglicht es, die Datenerfassung-Einstellungen des Scrapers SE::YouTube::Video für die weitere Verwendung zu speichern (Presets), einen Zeitplan für die Datenerfassung festzulegen und vieles mehr.
Das Speichern der Ergebnisse ist in der von Ihnen benötigten Form und Struktur möglich, dank der integrierten leistungsstarken Template-Engine Template Toolkit, die es erlaubt, zusätzliche Logik auf die Ergebnisse anzuwenden und Daten in verschiedenen Formaten auszugeben, einschließlich JSON, SQL und CSV.
Gesammelte Daten
- Titel und Beschreibung des Videos
- Videodauer
- Anzahl der Aufrufe, Likes und Kommentare
- Link zum Vorschaubild (Preview)
- Name des Autors, Links zu seinem Avatar und Kanal sowie die Anzahl der Abonnenten
- Untertitel zum Video (einschließlich Informationen zur Anzeigezeit)
- Liste der Tags
- Liste der Kommentare (einschließlich Antworten auf Kommentare)
- ID des Kommentars und des übergeordneten Kommentars (für Antworten)
- Name des Autors, Link zum Profil und Avatar
- Text des Kommentars und Veröffentlichungszeitpunkt
- Liste ähnlicher Videos
- Link und Titel des Videos
- Autor und Datum
- Anzahl der Aufrufe und Videodauer
- Informationen zu Videokapiteln ($chapters)
- Titel, Startzeit in Sekunden und Link zum Vorschaubild
Möglichkeiten
- Auswahl der Interface-Sprache
- Auswahl der Untertitelsprache
- Angabe der Anzahl der Kommentarseiten (auf jeder Seite ca. 20 Kommentare)
- Angabe der maximalen Anzahl der Antwortseiten pro Kommentar (auf der ersten Seite ca. 10 Antworten, auf den folgenden ca. 50)
- Angabe der Anzahl der Seiten für ähnliche Videos (auf jeder Seite ca. 20 Videos)
- Unterstützung für Shorts
Anwendungsfälle
- Erfassung statistischer Daten über Videos auf YouTube
- Datenerfassung von Untertiteln und Kommentaren als Textquelle
- Suche nach ähnlichen Videos
Besonderheiten der Arbeit
Logik der Untertitelsprachauswahl
Der Parser verwendet die folgende Priorität (in absteigender Reihenfolge): vom Autor erstellt, vom Autor übersetzt, automatisch generiert, automatisch generiert und übersetzt.
Wenn im Parser beispielsweise eingestellt ist, englische Untertitel zu extrahieren, dann:
- wenn das Video vom Autor erstellte englische Untertitel hat, werden diese extrahiert
- wenn das Video vom Autor erstellte Untertitel in einer anderen Sprache hat, werden die vom Autor erstellten, ins Englische übersetzten Untertitel extrahiert
- wenn das Video keine vom Autor erstellten Untertitel hat, aber automatisch generierte auf Englisch vorhanden sind, werden die generierten extrahiert
- wenn das Video keine vom Autor erstellten Untertitel hat und die generierten in einer anderen Sprache vorliegen (da das Video in einer anderen Sprache ist), werden die generierten, ins Englische übersetzten Untertitel extrahiert
Datenerfassung von Kommentaren
Kommentare werden in einem einzigen Thread gesammelt, daher kann deren Datenerfassung recht lange dauern, insbesondere beim Extrahieren vieler Seiten und beim Erfassen von Antworten. Es wird nicht empfohlen, eine große Anzahl von Antwortseiten anzugeben; normalerweise reichen 1-3 aus, oder man kann die Erfassung von Antworten ganz deaktivieren – dies beschleunigt die Arbeit erheblich.
Anfragen
Als Anfragen müssen Links zu Videos angegeben werden, zum Beispiel:
https://www.youtube.com/watch?v=lWA2pjMjpBs
https://www.youtube.com/watch?v=EDwb9jOVRtU
https://www.youtube.com/watch?v=5NPBIwQyPWE
Varianten der Ergebnisausgabe
A-Parser unterstützt eine flexible Formatierung der Ergebnisse dank der integrierten Template-Engine Template Toolkit, was es ermöglicht, Ergebnisse in beliebiger Form sowie strukturiert, zum Beispiel als CSV oder JSON, auszugeben.
Standardausgabe
Ergebnisformat:
$query - $title\nViews: $viewsCount, likes: $likesCount, comments: $commentsCount\n
Als Ergebnis werden der Link zum Video, sein Titel, die Anzahl der Likes, Aufrufe und Kommentare ausgegeben:
https://www.youtube.com/watch?v=5NPBIwQyPWE - Avril Lavigne - Complicated (Official Video)
Views: 571331713, likes: 3959948, comments: 143597
https://www.youtube.com/watch?v=EDwb9jOVRtU - Madonna - Hung Up (Official Video) [HD]
Views: 414662791, likes: 2153344, comments: 91895
https://www.youtube.com/watch?v=lWA2pjMjpBs - Rihanna - Diamonds
Views: 2104207258, likes: 10235971, comments: 394622
Ausgabe von Untertiteln
Ergebnisformat:
$query\n$subtitles.format('$text ')\n\n
Als Ergebnis wird der Link zum Video und die Untertitel in der angegebenen Sprache ausgegeben.
Ausgabe in eine CSV-Tabelle
Das integrierte Tool tools.CSVLine ermöglicht die Erstellung korrekter Tabellendokumente, die für den Import in Excel oder Google Tabellen bereit sind.
Allgemeines Ergebnisformat:
[% tools.CSVline(query, p1.author, p1.date, p1.duration, p1.title, p1.viewsCount, p1.likesCount, p1.commentsCount, p1.tags.format('$tag,')) %]
Dateiname:
$datefile.format().csv
Anfangstext:
Link,Author,"Publish date",Duration,Title,"Views count","Likes count","Comments count",Tags
Im Allgemeinen Ergebnisformat wird die Template-Engine Template Toolkit angewendet.
Im Dateinamen der Ergebnisse muss lediglich die Dateiendung in .csv geändert werden.
Damit die Option "Anfangstext" im Task-Editor verfügbar ist, muss "Mehr Optionen" aktiviert werden. In "Anfangstext" tragen wir die Spaltennamen durch Komma getrennt ein und lassen die zweite Zeile leer.
Mögliche Einstellungen
| Name des Parameters | Standardwert | Beschreibung |
|---|---|---|
| Interface language | English | Auswahl der Interface-Sprache |
| Subtitles language | English | Auswahl der Untertitelsprache |
| Comments pages count | 5 | Anzahl der Kommentarseiten |
| Pages count for replies | 3 | Anzahl der Antwortseiten zu jedem Kommentar |
| Pages count for related videos | 5 | Anzahl der Seiten mit ähnlichen Videos |
| Login required is error | ☑ | Weist den Parser an, die Meldung über eine erforderliche Autorisierung als Fehler zu betrachten und die Versuche zu wiederholen |