SE::YouTube::Video - scraper för videodata på YouTube
Översikt av scrapern
Scraper för videodata på YouTube. Tack vare denna scraper kan du skrapa all viktig data om videor, samt undertexter och kommentarer. Som frågor ska länkar till videosidor på YouTube användas. Du kan samla in videolänkar med hjälp av
SE::YouTube. Genom att använda denna YouTube-videoscraper kan du samla in all data om videoklipp i flertrådat läge.
Funktionaliteten i A-Parser gör det möjligt att spara inställningar för scrapern SE::YouTube::Video för framtida bruk (förinställningar), schemalägga dataskrapning och mycket mer.
Spara resultat är möjligt i den form och struktur som du behöver, tack vare den inbyggda kraftfulla mallmotorn Template Toolkit som gör det möjligt att tillämpa ytterligare logik på resultaten och exportera data i olika format, inklusive JSON, SQL och CSV.
Insamlade data
- Videons titel och beskrivning
- Videoklippets längd
- Antal visningar, gilla-markeringar och kommentarer
- Länk till förhandsvisningsbild (preview)
- Författarens namn, länkar till avatar och kanal, samt antal prenumeranter
- Undertexter till videon (inklusive information om visningstid)
- Lista över taggar
- Lista över kommentarer (inklusive svar på kommentarer)
- Id för kommentar och föräldrakommentar (för svar)
- Författarens namn, länk till profil och avatar
- Kommentarstext och publiceringstid
- Lista över liknande videor
- Länk och titel på videon
- Författare och datum
- Antal visningar och videolängd
- Information om videokapitel ($chapters)
- Rubrik, starttid i sekunder och länk till förhandsvisningsbild
Funktioner
- Val av gränssnittsspråk
- Val av språk för undertexter
- Angivelse av antal sidor med kommentarer (cirka 20 kommentarer per sida)
- Angivelse av maximalt antal sidor med svar på varje kommentar (cirka 10 svar på första sidan, cirka 50 på följande)
- Angivelse av antal sidor med liknande videor (cirka 20 videor per sida)
- Stöd för Shorts
Användningsfall
- Insamling av statistiska data om videor på YouTube
- Dataskrapning av undertexter och kommentarer som textkälla
- Sökning efter liknande videor
Driftsfunktioner
Logik för val av undertextspråk
Scrapern använder följande prioritet (i fallande ordning): författarens original, författarens översatta, maskingenererade, maskingenererade översatta.
Till exempel, om scrapern är inställd på att skrapa engelska undertexter, då:
- om videon har författarens egna engelska undertexter - kommer dessa att skrapas
- om videon har författarens undertexter på ett annat språk - kommer författarens översatta till engelska att skrapas
- om videon saknar författarens undertexter men har maskingenererade på engelska - kommer de maskingenererade att skrapas
- om videon saknar författarens undertexter och de maskingenererade är på ett annat språk (eftersom videon är på ett annat språk) - kommer de maskingenererade översatta att skrapas
Dataskrapning av kommentarer
Kommentarer samlas in i en enda tråd, så dataskrapning av dem kan ta ganska lång tid, särskilt vid skrapning av ett stort antal sidor och svar. Det rekommenderas inte att ange ett stort antal sidor för svar, vanligtvis räcker 1-3, eller så kan man helt inaktivera skrapning av svar - detta kommer att påskynda arbetet avsevärt.
Frågor
Som frågor måste länkar till videor anges, till exempel:
https://www.youtube.com/watch?v=lWA2pjMjpBs
https://www.youtube.com/watch?v=EDwb9jOVRtU
https://www.youtube.com/watch?v=5NPBIwQyPWE
Exempel på resultatutdata
A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör det möjligt att mata ut resultat i valfri form, samt i strukturerad form som CSV eller JSON.
Standardutdata
Resultatformat:
$query - $title\nViews: $viewsCount, likes: $likesCount, comments: $commentsCount\n
Resultatet kommer att visa länken till videon, dess titel, antal gilla-markeringar, visningar och kommentarer:
https://www.youtube.com/watch?v=5NPBIwQyPWE - Avril Lavigne - Complicated (Official Video)
Views: 571331713, likes: 3959948, comments: 143597
https://www.youtube.com/watch?v=EDwb9jOVRtU - Madonna - Hung Up (Official Video) [HD]
Views: 414662791, likes: 2153344, comments: 91895
https://www.youtube.com/watch?v=lWA2pjMjpBs - Rihanna - Diamonds
Views: 2104207258, likes: 10235971, comments: 394622
Utdata för undertexter
Resultatformat:
$query\n$subtitles.format('$text ')\n\n
Resultatet kommer att visa länken till videon och undertexterna på det angivna språket.
Utdata till CSV-tabell
Det inbyggda verktyget tools.CSVLine gör det möjligt att skapa korrekta tabelldokument, redo för import till Excel eller Google Kalkylark.
Allmänt resultatformat:
[% tools.CSVline(query, p1.author, p1.date, p1.duration, p1.title, p1.viewsCount, p1.likesCount, p1.commentsCount, p1.tags.format('$tag,')) %]
Filnamn:
$datefile.format().csv
Inledande text:
Link,Author,"Publish date",Duration,Title,"Views count","Likes count","Comments count",Tags
I Allmänt resultatformat används mallmotorn Template Toolkit.
I filnamnet för resultaten behöver du bara ändra filändelsen till csv.
För att alternativet "Prepend text" ska vara tillgängligt i Task Editor, måste du aktivera "More options". I "Prepend text" skriver vi kolumnnamnen separerade med kommatecken och gör den andra raden tom.
Möjliga inställningar
| Parameternamn | Standardvärde | Beskrivning |
|---|---|---|
| Interface language | English | Val av gränssnittsspråk |
| Subtitles language | English | Val av språk för undertexter |
| Comments pages count | 5 | Antal sidor med kommentarer |
| Pages count for replies | 3 | Antal sidor med svar till varje kommentar |
| Pages count for related videos | 5 | Antal sidor med liknande videor |
| Login required is error | ☑ | Instruerar scrapern att betrakta meddelanden om inloggningskrav som fel och försöka igen |