Przejdź do treści głównej

SE::YouTube::Video - scraper danych o filmach na YouTube

Przegląd scrapera

Scraper danych o wideo na YouTube. Dzięki temu scraperowi możesz scrapować wszystkie główne dane o filmach, a także napisy i komentarze. Jako zapytań należy używać linków do stron z filmami na YouTube. Linki do filmów można zebrać za pomocą SE::YouTubeSE::YouTube. Używając scrapera wideo YouTube, można zebrać wszystkie dane o filmie w trybie wielowątkowym.

Funkcjonalność A-Parser pozwala zapisywać ustawienia scrapowania scrapera SE::YouTube::Video do dalszego wykorzystania (presety), ustalać harmonogram scrapowania i wiele więcej.

Zapisywanie wyników jest możliwe w dowolnej formie i strukturze, dzięki wbudowanemu potężnemu silnikowi szablonów Template Toolkit, który pozwala na stosowanie dodatkowej logiki do wyników i wyświetlanie danych w różnych formatach, w tym JSON, SQL i CSV.

Zbierane dane

  • Tytuł i opis wideo
  • Czas trwania filmu
  • Liczba wyświetleń, polubień i komentarzy
  • Link do miniatury (preview)
  • Nazwa autora, linki do jego awatara i kanału, a także liczba subskrybentów
  • Napisy do wideo (w tym informacje o czasie wyświetlania)
  • Lista tagów
  • Lista komentarzy (w tym odpowiedzi na komentarze)
    • Id komentarza i komentarza nadrzędnego (dla odpowiedzi)
    • Nazwa autora, link do profilu i awatara
    • Treść komentarza i czas publikacji
  • Lista podobnych wideo
    • Link i tytuł wideo
    • Autor i data
    • Liczba wyświetleń i czas trwania wideo
  • Informacje o rozdziałach wideo ($chapters)
    • Nagłówek, czas rozpoczęcia w sekundach i link do obrazka podglądu

Możliwości

  • Wybór języka interfejsu
  • Wybór języka napisów
  • Określenie liczby stron komentarzy (na każdej stronie około 20 komentarzy)
  • Określenie maksymalnej liczby stron odpowiedzi na każdy komentarz (na pierwszej stronie około 10 odpowiedzi, na kolejnych - około 50)
  • Określenie liczby stron podobnych wideo (na każdej stronie około 20 wideo)
  • Wsparcie dla Shorts

Warianty użycia

  • Zbieranie danych statystycznych o wideo na YouTube
  • Scrapowanie napisów i komentarzy jako źródła tekstów
  • Wyszukiwanie podobnych wideo

Cechy działania

Logika wyboru języka napisów

Scraper wykorzystuje następujący priorytet (w kolejności malejącej): autorskie, autorskie tłumaczone, wygenerowane, wygenerowane tłumaczone.

Na przykład, jeśli w scraperze ustawiono scrapowanie angielskich napisów, wtedy:

  • jeśli wideo posiada autorskie angielskie napisy - zostaną pobrane autorskie
  • jeśli wideo posiada autorskie napisy, ale w innym języku - zostaną pobrane autorskie przetłumaczone na angielski
  • jeśli wideo nie posiada autorskich napisów, ale posiada wygenerowane w języku angielskim - zostaną pobrane wygenerowane
  • jeśli wideo nie posiada autorskich napisów, a wygenerowane są w innym języku (ponieważ wideo jest w innym języku) - zostaną pobrane wygenerowane tłumaczone

Scrapowanie komentarzy

Komentarze są zbierane w jednym wątku, dlatego ich scrapowanie może trwać dość długo, szczególnie przy scrapowaniu dużej liczby stron i scrapowaniu odpowiedzi. Nie zaleca się ustawiania dużej liczby stron odpowiedzi, zazwyczaj wystarczy 1-3, lub można całkowicie wyłączyć scrapowanie odpowiedzi - to znacznie przyspieszy pracę.

Zapytania

Jako zapytania należy podawać linki do wideo, na przykład:

https://www.youtube.com/watch?v=lWA2pjMjpBs
https://www.youtube.com/watch?v=EDwb9jOVRtU
https://www.youtube.com/watch?v=5NPBIwQyPWE

Warianty wyprowadzania wyników

A-Parser obsługuje elastyczne formatowanie wyników dzięki wbudowanemu silnikowi szablonów Template Toolkit, co pozwala mu na wyprowadzanie wyników w dowolnej formie, a także w formie strukturalnej, np. CSV lub JSON

Domyślne wyprowadzanie

Format wyniku:

$query - $title\nViews: $viewsCount, likes: $likesCount, comments: $commentsCount\n

W rezultacie zostaną wyświetlone: link do wideo, jego tytuł, liczba polubień, wyświetleń i komentarzy:

https://www.youtube.com/watch?v=5NPBIwQyPWE - Avril Lavigne - Complicated (Official Video)
Views: 571331713, likes: 3959948, comments: 143597
https://www.youtube.com/watch?v=EDwb9jOVRtU - Madonna - Hung Up (Official Video) [HD]
Views: 414662791, likes: 2153344, comments: 91895
https://www.youtube.com/watch?v=lWA2pjMjpBs - Rihanna - Diamonds
Views: 2104207258, likes: 10235971, comments: 394622

Wyprowadzanie napisów

Format wyniku:

$query\n$subtitles.format('$text ')\n\n

W rezultacie zostanie wyświetlony link do wideo oraz napisy w wybranym języku.

Wyprowadzanie do tabeli CSV

Wbudowane narzędzie tools.CSVLine pozwala tworzyć poprawne dokumenty tabelaryczne, gotowe do importu do Excela lub Google Sheets.

Ogólny format wyniku:

[% tools.CSVline(query, p1.author, p1.date, p1.duration, p1.title, p1.viewsCount, p1.likesCount, p1.commentsCount, p1.tags.format('$tag,')) %]

Nazwa pliku:

$datefile.format().csv

Tekst początkowy:

Link,Author,"Publish date",Duration,Title,"Views count","Likes count","Comments count",Tags

wskazówka

W Ogólnym formacie wyników stosowany jest silnik szablonów Template Toolkit.

W nazwie pliku wyników należy po prostu zmienić rozszerzenie pliku na csv.

Aby opcja "Prepend text" była dostępna w Edytorze zadań, należy aktywować "More options". W "Prepend text" wpisujemy nazwy kolumn oddzielone przecinkami, a drugą linię pozostawiamy pustą.

Możliwe ustawienia

Nazwa parametruWartość domyślnaOpis
Interface languageEnglishWybór języka interfejsu
Subtitles languageEnglishWybór języka napisów
Comments pages count5Liczba stron komentarzy
Pages count for replies3Liczba stron odpowiedzi do każdego komentarza
Pages count for related videos5Liczba stron z podobnymi wideo
Login required is errorNakazuje scraperowi traktować komunikat o konieczności autoryzacji jako błąd i ponawiać próby