Ana içeriğe atla

SE::YouTube::Video - YouTube video verisi kazıyıcı

Veri kazıyıcı incelemesi

YouTube video verileri için veri kazıyıcı. Bu veri kazıyıcı sayesinde tüm temel video verilerinin yanı sıra altyazıları ve yorumları da çekebilirsiniz. Sorgu olarak YouTube video sayfalarının bağlantılarını kullanmanız gerekir. Video bağlantılarını SE::YouTubeSE::YouTube kullanarak toplayabilirsiniz. YouTube video veri kazıyıcıyı kullanarak, bir videoyla ilgili tüm verileri çoklu iş parçacığı modunda toplayabilirsiniz.

A-Parser işlevselliği, SE::YouTube::Video veri kazıyıcı ayarlarını daha sonra kullanmak üzere kaydetmenize (presetler), veri çekme zamanlaması belirlemenize ve çok daha fazlasına olanak tanır.

Sonuçların kaydedilmesi, sonuçlara ek mantık uygulamanıza ve verileri JSON, SQL ve CSV dahil olmak üzere çeşitli formatlarda çıktı almanıza olanak tanıyan yerleşik güçlü şablon motoru Template Toolkit sayesinde ihtiyacınız olan biçimde ve yapıda mümkündür.

Toplanan veriler

  • Videonun adı ve açıklaması
  • Video süresi
  • İzlenme, beğeni ve yorum sayısı
  • Önizleme (preview) bağlantısı
  • Yazar adı, avatar ve kanal bağlantıları ve abone sayısı
  • Video altyazıları (görüntülenme zamanı bilgisi dahil)
  • Etiket listesi
  • Yorum listesi (yorumlara verilen yanıtlar dahil)
    • Yorum ve üst yorum kimliği (yanıtlar için)
    • Yazar adı, profil ve avatar bağlantısı
    • Yorum metni ve yayınlanma zamanı
  • Benzer videolar listesi
    • Video bağlantısı ve adı
    • Yazar ve tarih
    • İzlenme sayısı ve video süresi
  • Video bölümleri hakkında bilgi ($chapters)
    • Başlık, saniye cinsinden başlangıç zamanı ve önizleme resmi bağlantısı

Özellikler

  • Arayüz dili seçimi
  • Altyazı dili seçimi
  • Yorum sayfası sayısını belirtme (her sayfada yaklaşık 20 yorum)
  • Her yorum için maksimum yanıt sayfası sayısını belirtme (ilk sayfada yaklaşık 10 yanıt, sonrakilerde yaklaşık 50)
  • Benzer video sayfası sayısını belirtme (her sayfada yaklaşık 20 video)
  • Shorts desteği

Kullanım durumları

  • Youtube'daki videolar hakkında istatistiksel veri toplama
  • Metin kaynağı olarak altyazı ve yorumların veri çekme işlemi
  • Benzer videoları arama

Çalışma özellikleri

Altyazı dili seçim mantığı

Veri kazıyıcı şu önceliği kullanır (azalan sırada): yazar tarafından eklenen, yazar tarafından çevrilen, otomatik oluşturulan, otomatik oluşturulup çevrilen.

Örneğin, veri kazıyıcıda İngilizce altyazıların çekilmesi ayarlandıysa:

  • videoda yazar tarafından eklenmiş İngilizce altyazı varsa - yazarınkiler çekilir
  • videoda yazar tarafından eklenmiş ancak başka bir dilde altyazı varsa - yazarın İngilizceye çevrilmiş altyazıları çekilir
  • videoda yazar altyazısı yoksa ancak İngilizce otomatik oluşturulmuş altyazı varsa - otomatik oluşturulanlar çekilir
  • videoda yazar altyazısı yoksa ve otomatik oluşturulanlar başka bir dildeyse (video başka bir dilde olduğu için) - otomatik oluşturulup çevrilenler çekilir

Yorumların veri çekme işlemi

Yorumlar tek bir iş parçacığında toplanır, bu nedenle özellikle çok sayıda sayfa ve yanıt çekilirken veri çekme işlemi oldukça uzun sürebilir. Çok fazla yanıt sayfası belirtilmesi önerilmez, genellikle 1-3 yeterlidir veya yanıt çekme işlemini tamamen kapatabilirsiniz - bu çalışmayı büyük ölçüde hızlandıracaktır.

Sorgular

Sorgu olarak video bağlantılarını belirtmeniz gerekir, örneğin:

https://www.youtube.com/watch?v=lWA2pjMjpBs
https://www.youtube.com/watch?v=EDwb9jOVRtU
https://www.youtube.com/watch?v=5NPBIwQyPWE

Sonuç çıktı seçenekleri

A-Parser, yerleşik şablon motoru Template Toolkit sayesinde sonuçların esnek bir şekilde formatlanmasını destekler; bu da sonuçları serbest formda veya CSV ya da JSON gibi yapılandırılmış bir biçimde çıktı almasına olanak tanır.

Varsayılan çıktı

Sonuç formatı:

$query - $title\nViews: $viewsCount, likes: $likesCount, comments: $commentsCount\n

Sonuç olarak video bağlantısı, adı, beğeni sayısı, izlenme sayısı ve yorum sayısı görüntülenecektir:

https://www.youtube.com/watch?v=5NPBIwQyPWE - Avril Lavigne - Complicated (Official Video)
Views: 571331713, likes: 3959948, comments: 143597
https://www.youtube.com/watch?v=EDwb9jOVRtU - Madonna - Hung Up (Official Video) [HD]
Views: 414662791, likes: 2153344, comments: 91895
https://www.youtube.com/watch?v=lWA2pjMjpBs - Rihanna - Diamonds
Views: 2104207258, likes: 10235971, comments: 394622

Altyazı çıktısı

Sonuç formatı:

$query\n$subtitles.format('$text ')\n\n

Sonuç olarak video bağlantısı ve belirtilen dildeki altyazılar görüntülenecektir.

CSV tablosuna çıktı alma

Yerleşik tools.CSVLine aracı, Excel veya Google Tablolar'a aktarılmaya hazır doğru tablolu belgeler oluşturmanıza olanak tanır.

Genel sonuç formatı:

[% tools.CSVline(query, p1.author, p1.date, p1.duration, p1.title, p1.viewsCount, p1.likesCount, p1.commentsCount, p1.tags.format('$tag,')) %]

Dosya adı:

$datefile.format().csv

Başlangıç metni:

Link,Author,"Publish date",Duration,Title,"Views count","Likes count","Comments count",Tags

ipucu

Genel sonuç formatında Template Toolkit şablon motoru uygulanır.

Sonuç dosya adında dosya uzantısını csv olarak değiştirmeniz yeterlidir.

"Prepend text" seçeneğinin Görev Düzenleyici'de kullanılabilir olması için "More options"i etkinleştirmeniz gerekir. "Prepend text" kısmına sütun adlarını virgülle ayırarak yazıyoruz ve ikinci satırı boş bırakıyoruz.

Olası ayarlar

Parametre adıVarsayılan değerAçıklama
Interface languageEnglishArayüz dili seçimi
Subtitles languageEnglishAltyazı dili seçimi
Comments pages count5Yorum sayfası sayısı
Pages count for replies3Her yorum için yanıt sayfası sayısı
Pages count for related videos5Benzer videoların bulunduğu sayfa sayısı
Login required is errorVeri kazıyıcıya yetkilendirme gerekliliği mesajını hata olarak kabul etmesini ve denemeleri tekrarlamasını söyler