SE::YouTube::Video - scraper danych o filmach na YouTube
Przegląd scrapera
Scraper danych o wideo na YouTube. Dzięki temu scraperowi możesz scrapować wszystkie główne dane o filmach, a także napisy i komentarze. Jako zapytań należy używać linków do stron z filmami na YouTube. Linki do filmów można zebrać za pomocą
SE::YouTube. Używając scrapera wideo YouTube, można zebrać wszystkie dane o filmie w trybie wielowątkowym.
Funkcjonalność A-Parser pozwala zapisywać ustawienia scrapowania scrapera SE::YouTube::Video do dalszego wykorzystania (presety), ustalać harmonogram scrapowania i wiele więcej.
Zapisywanie wyników jest możliwe w dowolnej formie i strukturze, dzięki wbudowanemu potężnemu silnikowi szablonów Template Toolkit, który pozwala na stosowanie dodatkowej logiki do wyników i wyświetlanie danych w różnych formatach, w tym JSON, SQL i CSV.
Zbierane dane
- Tytuł i opis wideo
- Czas trwania filmu
- Liczba wyświetleń, polubień i komentarzy
- Link do miniatury (preview)
- Nazwa autora, linki do jego awatara i kanału, a także liczba subskrybentów
- Napisy do wideo (w tym informacje o czasie wyświetlania)
- Lista tagów
- Lista komentarzy (w tym odpowiedzi na komentarze)
- Id komentarza i komentarza nadrzędnego (dla odpowiedzi)
- Nazwa autora, link do profilu i awatara
- Treść komentarza i czas publikacji
- Lista podobnych wideo
- Link i tytuł wideo
- Autor i data
- Liczba wyświetleń i czas trwania wideo
- Informacje o rozdziałach wideo ($chapters)
- Nagłówek, czas rozpoczęcia w sekundach i link do obrazka podglądu
Możliwości
- Wybór języka interfejsu
- Wybór języka napisów
- Określenie liczby stron komentarzy (na każdej stronie około 20 komentarzy)
- Określenie maksymalnej liczby stron odpowiedzi na każdy komentarz (na pierwszej stronie około 10 odpowiedzi, na kolejnych - około 50)
- Określenie liczby stron podobnych wideo (na każdej stronie około 20 wideo)
- Wsparcie dla Shorts
Warianty użycia
- Zbieranie danych statystycznych o wideo na YouTube
- Scrapowanie napisów i komentarzy jako źródła tekstów
- Wyszukiwanie podobnych wideo
Cechy działania
Logika wyboru języka napisów
Scraper wykorzystuje następujący priorytet (w kolejności malejącej): autorskie, autorskie tłumaczone, wygenerowane, wygenerowane tłumaczone.
Na przykład, jeśli w scraperze ustawiono scrapowanie angielskich napisów, wtedy:
- jeśli wideo posiada autorskie angielskie napisy - zostaną pobrane autorskie
- jeśli wideo posiada autorskie napisy, ale w innym języku - zostaną pobrane autorskie przetłumaczone na angielski
- jeśli wideo nie posiada autorskich napisów, ale posiada wygenerowane w języku angielskim - zostaną pobrane wygenerowane
- jeśli wideo nie posiada autorskich napisów, a wygenerowane są w innym języku (ponieważ wideo jest w innym języku) - zostaną pobrane wygenerowane tłumaczone
Scrapowanie komentarzy
Komentarze są zbierane w jednym wątku, dlatego ich scrapowanie może trwać dość długo, szczególnie przy scrapowaniu dużej liczby stron i scrapowaniu odpowiedzi. Nie zaleca się ustawiania dużej liczby stron odpowiedzi, zazwyczaj wystarczy 1-3, lub można całkowicie wyłączyć scrapowanie odpowiedzi - to znacznie przyspieszy pracę.
Zapytania
Jako zapytania należy podawać linki do wideo, na przykład:
https://www.youtube.com/watch?v=lWA2pjMjpBs
https://www.youtube.com/watch?v=EDwb9jOVRtU
https://www.youtube.com/watch?v=5NPBIwQyPWE
Warianty wyprowadzania wyników
A-Parser obsługuje elastyczne formatowanie wyników dzięki wbudowanemu silnikowi szablonów Template Toolkit, co pozwala mu na wyprowadzanie wyników w dowolnej formie, a także w formie strukturalnej, np. CSV lub JSON
Domyślne wyprowadzanie
Format wyniku:
$query - $title\nViews: $viewsCount, likes: $likesCount, comments: $commentsCount\n
W rezultacie zostaną wyświetlone: link do wideo, jego tytuł, liczba polubień, wyświetleń i komentarzy:
https://www.youtube.com/watch?v=5NPBIwQyPWE - Avril Lavigne - Complicated (Official Video)
Views: 571331713, likes: 3959948, comments: 143597
https://www.youtube.com/watch?v=EDwb9jOVRtU - Madonna - Hung Up (Official Video) [HD]
Views: 414662791, likes: 2153344, comments: 91895
https://www.youtube.com/watch?v=lWA2pjMjpBs - Rihanna - Diamonds
Views: 2104207258, likes: 10235971, comments: 394622
Wyprowadzanie napisów
Format wyniku:
$query\n$subtitles.format('$text ')\n\n
W rezultacie zostanie wyświetlony link do wideo oraz napisy w wybranym języku.
Wyprowadzanie do tabeli CSV
Wbudowane narzędzie tools.CSVLine pozwala tworzyć poprawne dokumenty tabelaryczne, gotowe do importu do Excela lub Google Sheets.
Ogólny format wyniku:
[% tools.CSVline(query, p1.author, p1.date, p1.duration, p1.title, p1.viewsCount, p1.likesCount, p1.commentsCount, p1.tags.format('$tag,')) %]
Nazwa pliku:
$datefile.format().csv
Tekst początkowy:
Link,Author,"Publish date",Duration,Title,"Views count","Likes count","Comments count",Tags
W Ogólnym formacie wyników stosowany jest silnik szablonów Template Toolkit.
W nazwie pliku wyników należy po prostu zmienić rozszerzenie pliku na csv.
Aby opcja "Prepend text" była dostępna w Edytorze zadań, należy aktywować "More options". W "Prepend text" wpisujemy nazwy kolumn oddzielone przecinkami, a drugą linię pozostawiamy pustą.
Możliwe ustawienia
| Nazwa parametru | Wartość domyślna | Opis |
|---|---|---|
| Interface language | English | Wybór języka interfejsu |
| Subtitles language | English | Wybór języka napisów |
| Comments pages count | 5 | Liczba stron komentarzy |
| Pages count for replies | 3 | Liczba stron odpowiedzi do każdego komentarza |
| Pages count for related videos | 5 | Liczba stron z podobnymi wideo |
| Login required is error | ☑ | Nakazuje scraperowi traktować komunikat o konieczności autoryzacji jako błąd i ponawiać próby |