SE::YouTube::Video - scraper voor YouTube-videogegevens
Overzicht van de scraper
Scraper voor YouTube-videogegevens. Dankzij deze scraper kunt u alle basisgegevens over video's verzamelen, evenals ondertitels en reacties. Als zoekopdrachten moeten links naar YouTube-videopagina's worden gebruikt. U kunt videolinks verzamelen met behulp van
SE::YouTube. Door de YouTube-videoscraper te gebruiken, kunt u alle gegevens van een video verzamelen in multithreading-modus.
De functionaliteit van A-Parser maakt het mogelijk om instellingen van de SE::YouTube::Video scraper op te slaan voor toekomstig gebruik (presets), extractieschema's in te stellen en nog veel meer.
Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de krachtige ingebouwde sjabloon-engine Template Toolkit, waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt exporteren, waaronder JSON, SQL en CSV.
Verzamelde gegevens
- Titel en beschrijving van de video
- Duur van de video
- Aantal weergaven, likes en reacties
- Link naar de preview
- Naam van de auteur, links naar de avatar en het kanaal, evenals het aantal abonnees
- Ondertiteling van de video (inclusief informatie over de weergavetijd)
- Lijst met tags
- Lijst met reacties (inclusief antwoorden op reacties)
- Id van de reactie en de bovenliggende reactie (voor antwoorden)
- Naam van de auteur, link naar profiel en avatar
- Tekst van de reactie en tijdstip van publicatie
- Lijst met vergelijkbare video's
- Link en titel van de video
- Auteur en datum
- Aantal weergaven en duur van de video
- Informatie over video-onderdelen ($chapters)
- Titel, starttijd in seconden en link naar de preview-afbeelding
Mogelijkheden
- Keuze van de interface-taal
- Keuze van de ondertitelingstaal
- Specificatie van het aantal pagina's met reacties (ongeveer 20 reacties per pagina)
- Specificatie van het maximale aantal pagina's met antwoorden per reactie (ongeveer 10 antwoorden op de eerste pagina, ongeveer 50 op de volgende)
- Specificatie van het aantal pagina's met vergelijkbare video's (ongeveer 20 video's per pagina)
- Ondersteuning voor Shorts
Toepassingen
- Verzamelen van statistische gegevens over video's op YouTube
- Gegevensextractie van ondertitels en reacties als bron voor teksten
- Zoeken naar vergelijkbare video's
Werkingskenmerken
Logica voor de keuze van de ondertitelingstaal
De scraper hanteert de volgende prioriteit (in aflopende volgorde): door auteur geüpload, door auteur vertaald, automatisch gegenereerd, automatisch gegenereerd en vertaald.
Bijvoorbeeld, als de scraper is ingesteld om Engelse ondertitels te extraheren, dan:
- als de video door de auteur geüploade Engelse ondertitels heeft, worden deze geëxtraheerd
- als de video door de auteur geüploade ondertitels heeft in een andere taal, worden de door de auteur naar het Engels vertaalde ondertitels geëxtraheerd
- als de video geen door de auteur geüploade ondertitels heeft, maar wel automatisch gegenereerde Engelse ondertitels, worden deze geëxtraheerd
- als de video geen door de auteur geüploade ondertitels heeft en de automatisch gegenereerde ondertitels in een andere taal zijn (omdat de video in een andere taal is), worden de automatisch gegenereerde en naar het Engels vertaalde ondertitels geëxtraheerd
Gegevensextractie van reacties
Reacties worden in één thread verzameld, waardoor de extractie ervan vrij lang kan duren, vooral bij het scrapen van een groot aantal pagina's en antwoorden. Het wordt niet aanbevolen om een groot aantal pagina's met antwoorden in te stellen; meestal is 1-3 voldoende, of u kunt de extractie van antwoorden volledig uitschakelen - dit zal de snelheid aanzienlijk verhogen.
Query's
Als query's moeten links naar video's worden opgegeven, bijvoorbeeld:
https://www.youtube.com/watch?v=lWA2pjMjpBs
https://www.youtube.com/watch?v=EDwb9jOVRtU
https://www.youtube.com/watch?v=5NPBIwQyPWE
Voorbeelden van resultaatweergave
A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een vrije vorm of gestructureerd zoals CSV of JSON kunnen worden weergegeven.
Standaard uitvoer
Resultaatformaat:
$query - $title\nViews: $viewsCount, likes: $likesCount, comments: $commentsCount\n
Als resultaat worden de link naar de video, de titel, het aantal likes, weergaven en reacties weergegeven:
https://www.youtube.com/watch?v=5NPBIwQyPWE - Avril Lavigne - Complicated (Official Video)
Views: 571331713, likes: 3959948, comments: 143597
https://www.youtube.com/watch?v=EDwb9jOVRtU - Madonna - Hung Up (Official Video) [HD]
Views: 414662791, likes: 2153344, comments: 91895
https://www.youtube.com/watch?v=lWA2pjMjpBs - Rihanna - Diamonds
Views: 2104207258, likes: 10235971, comments: 394622
Uitvoer van ondertitels
Resultaatformaat:
$query\n$subtitles.format('$text ')\n\n
Als resultaat wordt de link naar de video en de ondertiteling in de opgegeven taal weergegeven.
Uitvoer naar een CSV-tabel
De ingebouwde tool tools.CSVLine maakt het mogelijk om correcte tabeldocumenten te maken die klaar zijn voor import in Excel of Google Sheets.
Algemeen resultaatformaat:
[% tools.CSVline(query, p1.author, p1.date, p1.duration, p1.title, p1.viewsCount, p1.likesCount, p1.commentsCount, p1.tags.format('$tag,')) %]
Bestandsnaam:
$datefile.format().csv
Begintekst:
Link,Author,"Publish date",Duration,Title,"Views count","Likes count","Comments count",Tags
In het Algemeen resultaatformaat wordt de sjabloon-engine Template Toolkit toegepast.
In de bestandsnaam van de resultaten hoeft u alleen de bestandsextensie naar csv te veranderen.
Om de optie "Prepend text" beschikbaar te maken in de Taak-editor, moet u "More options" activeren. In "Prepend text" voert u de kolomnamen in gescheiden door komma's en laat u de tweede regel leeg.
Mogelijke instellingen
| Parameternaam | Standaardwaarde | Beschrijving |
|---|---|---|
| Interface language | English | Keuze van de interface-taal |
| Subtitles language | English | Keuze van de ondertitelingstaal |
| Comments pages count | 5 | Aantal pagina's met reacties |
| Pages count for replies | 3 | Aantal pagina's met antwoorden per reactie |
| Pages count for related videos | 5 | Aantal pagina's met vergelijkbare video's |
| Login required is error | ☑ | Instrueert de scraper om een melding over noodzakelijke autorisatie als een fout te beschouwen en pogingen te herhalen |