Hoppa till huvudinnehåll

SE::YouTube::Video - scraper för videodata på YouTube

Översikt av scrapern

Scraper för videodata på YouTube. Tack vare denna scraper kan du skrapa all viktig data om videor, samt undertexter och kommentarer. Som frågor ska länkar till videosidor på YouTube användas. Du kan samla in videolänkar med hjälp av SE::YouTubeSE::YouTube. Genom att använda denna YouTube-videoscraper kan du samla in all data om videoklipp i flertrådat läge.

Funktionaliteten i A-Parser gör det möjligt att spara inställningar för scrapern SE::YouTube::Video för framtida bruk (förinställningar), schemalägga dataskrapning och mycket mer.

Spara resultat är möjligt i den form och struktur som du behöver, tack vare den inbyggda kraftfulla mallmotorn Template Toolkit som gör det möjligt att tillämpa ytterligare logik på resultaten och exportera data i olika format, inklusive JSON, SQL och CSV.

Insamlade data

  • Videons titel och beskrivning
  • Videoklippets längd
  • Antal visningar, gilla-markeringar och kommentarer
  • Länk till förhandsvisningsbild (preview)
  • Författarens namn, länkar till avatar och kanal, samt antal prenumeranter
  • Undertexter till videon (inklusive information om visningstid)
  • Lista över taggar
  • Lista över kommentarer (inklusive svar på kommentarer)
    • Id för kommentar och föräldrakommentar (för svar)
    • Författarens namn, länk till profil och avatar
    • Kommentarstext och publiceringstid
  • Lista över liknande videor
    • Länk och titel på videon
    • Författare och datum
    • Antal visningar och videolängd
  • Information om videokapitel ($chapters)
    • Rubrik, starttid i sekunder och länk till förhandsvisningsbild

Funktioner

  • Val av gränssnittsspråk
  • Val av språk för undertexter
  • Angivelse av antal sidor med kommentarer (cirka 20 kommentarer per sida)
  • Angivelse av maximalt antal sidor med svar på varje kommentar (cirka 10 svar på första sidan, cirka 50 på följande)
  • Angivelse av antal sidor med liknande videor (cirka 20 videor per sida)
  • Stöd för Shorts

Användningsfall

  • Insamling av statistiska data om videor på YouTube
  • Dataskrapning av undertexter och kommentarer som textkälla
  • Sökning efter liknande videor

Driftsfunktioner

Logik för val av undertextspråk

Scrapern använder följande prioritet (i fallande ordning): författarens original, författarens översatta, maskingenererade, maskingenererade översatta.

Till exempel, om scrapern är inställd på att skrapa engelska undertexter, då:

  • om videon har författarens egna engelska undertexter - kommer dessa att skrapas
  • om videon har författarens undertexter på ett annat språk - kommer författarens översatta till engelska att skrapas
  • om videon saknar författarens undertexter men har maskingenererade på engelska - kommer de maskingenererade att skrapas
  • om videon saknar författarens undertexter och de maskingenererade är på ett annat språk (eftersom videon är på ett annat språk) - kommer de maskingenererade översatta att skrapas

Dataskrapning av kommentarer

Kommentarer samlas in i en enda tråd, så dataskrapning av dem kan ta ganska lång tid, särskilt vid skrapning av ett stort antal sidor och svar. Det rekommenderas inte att ange ett stort antal sidor för svar, vanligtvis räcker 1-3, eller så kan man helt inaktivera skrapning av svar - detta kommer att påskynda arbetet avsevärt.

Frågor

Som frågor måste länkar till videor anges, till exempel:

https://www.youtube.com/watch?v=lWA2pjMjpBs
https://www.youtube.com/watch?v=EDwb9jOVRtU
https://www.youtube.com/watch?v=5NPBIwQyPWE

Exempel på resultatutdata

A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör det möjligt att mata ut resultat i valfri form, samt i strukturerad form som CSV eller JSON.

Standardutdata

Resultatformat:

$query - $title\nViews: $viewsCount, likes: $likesCount, comments: $commentsCount\n

Resultatet kommer att visa länken till videon, dess titel, antal gilla-markeringar, visningar och kommentarer:

https://www.youtube.com/watch?v=5NPBIwQyPWE - Avril Lavigne - Complicated (Official Video)
Views: 571331713, likes: 3959948, comments: 143597
https://www.youtube.com/watch?v=EDwb9jOVRtU - Madonna - Hung Up (Official Video) [HD]
Views: 414662791, likes: 2153344, comments: 91895
https://www.youtube.com/watch?v=lWA2pjMjpBs - Rihanna - Diamonds
Views: 2104207258, likes: 10235971, comments: 394622

Utdata för undertexter

Resultatformat:

$query\n$subtitles.format('$text ')\n\n

Resultatet kommer att visa länken till videon och undertexterna på det angivna språket.

Utdata till CSV-tabell

Det inbyggda verktyget tools.CSVLine gör det möjligt att skapa korrekta tabelldokument, redo för import till Excel eller Google Kalkylark.

Allmänt resultatformat:

[% tools.CSVline(query, p1.author, p1.date, p1.duration, p1.title, p1.viewsCount, p1.likesCount, p1.commentsCount, p1.tags.format('$tag,')) %]

Filnamn:

$datefile.format().csv

Inledande text:

Link,Author,"Publish date",Duration,Title,"Views count","Likes count","Comments count",Tags

tips

I Allmänt resultatformat används mallmotorn Template Toolkit.

I filnamnet för resultaten behöver du bara ändra filändelsen till csv.

För att alternativet "Prepend text" ska vara tillgängligt i Task Editor, måste du aktivera "More options". I "Prepend text" skriver vi kolumnnamnen separerade med kommatecken och gör den andra raden tom.

Möjliga inställningar

ParameternamnStandardvärdeBeskrivning
Interface languageEnglishVal av gränssnittsspråk
Subtitles languageEnglishVal av språk för undertexter
Comments pages count5Antal sidor med kommentarer
Pages count for replies3Antal sidor med svar till varje kommentar
Pages count for related videos5Antal sidor med liknande videor
Login required is errorInstruerar scrapern att betrakta meddelanden om inloggningskrav som fel och försöka igen