Przejdź do treści głównej

SE::Yandex::Video - scraper Yandex Video

Yandex Images

Przegląd scrapera

Scraper wyszukiwania wideo Yandex. Dzięki scraperowi SE::Yandex::Video będziesz mógł otrzymywać bazy linków do filmów. Możesz używać zapytań w takiej samej formie, w jakiej wpisujesz je w pasku wyszukiwania Yandex.

Funkcjonalność A-Parser pozwala zapisywać ustawienia scrapowania scrapera Yandex do dalszego użytku (presety), ustawiać harmonogram scrapowania i wiele więcej. Możesz korzystać z automatycznego rozmnażania zapytań, podstawiania podzapytań z plików, generowania kombinacji alfanumerycznych i list w celu uzyskania maksymalnej możliwej liczby wyników.

Zapisywanie wyników jest możliwe w dowolnej formie i strukturze, której potrzebujesz, dzięki wbudowanemu potężnemu silnikowi szablonów Template Toolkit, który pozwala stosować dodatkową logikę do wyników i wyprowadzać dane w różnych formatach, w tym JSON, SQL i CSV.

Gromadzone dane

  • Linki do wideo
  • Anchory
  • Snippety
  • Nazwa serwisu, na którym znajduje się wideo
  • Czas trwania, liczba wyświetleń i data publikacji
  • Linki do plakatu i podglądu wideo
  • Krótkie podsumowanie wideo
  • Lista rozdziałów w wideo
  • Kod do osadzenia na stronach
Gromadzone dane

Możliwości

  • Obsługa filtrów (krótkie, świeże)
  • Wybór liczby stron wyników
  • Obsługa sesji

Warianty użycia

  • Zbieranie wideo do wypełniania własnych blogów, serwisów wideo, doorwayów...
  • Zbieranie danych tekstowych

Zapytania

Jako zapytania należy podawać frazy wyszukiwania, na przykład:

Cats
Football
Waterfall
Speak in english
cars

Podstawianie zapytań

Możesz użyć wbudowanych makr do rozmnażania zapytań, na przykład chcemy uzyskać bardzo dużą bazę forów, podajmy kilka głównych zapytań w różnych językach:

forum
forum
foro
论坛

W formacie zapytań wskażemy generowanie znaków od a do zzzz, ta metoda pozwala maksymalnie rotować wyniki wyszukiwania i uzyskiwać wiele nowych unikalnych wyników:

$query {az:a:zzzz}

To makro utworzy 475254 dodatkowych zapytań dla każdego początkowego zapytania, co w sumie da 4 x 475254 = 1901016 zapytań wyszukiwania. Liczba jest imponująca, ale nie stanowi to problemu dla A-Parsera. Przy prędkości 2000 zapytań na minutę takie zadanie zostanie przetworzone w zaledwie 16 godzin.

Warianty wyprowadzania wyników

A-Parser obsługuje elastyczne formatowanie wyników dzięki wbudowanemu silnikowi szablonów Template Toolkit, co pozwala mu wyprowadzać wyniki w dowolnej formie, a także w ustrukturyzowanej, np. CSV lub JSON.

Wyprowadzanie domyślne

Format wyniku:

$serp.format('$link\n')

Przykład wyniku:

http://www.youtube.com/v/lcYzh7IjJj0
http://www.youtube.com/watch?v=VD2h2YUY_WQ
http://www.youtube.com/watch?v=UPOUE8ObCy8
http://www.youtube.com/watch?v=Ha9Q1kHqCHA
http://www.youtube.com/watch?v=P5rlifhgewY
https://zen.yandex.ru/video/watch/61099fa859eaef364db8b3cd?f=video
http://www.youtube.com/v/-cvEA8897Fc?fs=0
https://zen.yandex.ru/video/watch/625ed4e3099b9b7b81b17e3b?f=video
http://rutube.ru/video/016773a106036e9d3cd619ace97011e0/
http://rutube.ru/video/e54b2392b7dd3fe57fed6002aba5f833/
http://rutube.ru/video/8fe868740089c3557d6d54e86ceca6a1/
http://www.youtube.com/v/OuOK2fEPdMU
http://www.youtube.com/watch?v=UcbmVFYp4Lg
http://www.youtube.com/watch?v=JgJE4oQf-Gs
http://www.youtube.com/watch?v=ektN1-ptnDE

Wyprowadzanie do tabeli CSV

Format wyniku:

[% FOREACH item IN serp;
tools.CSVline(query, item.link, item.anchor, item.prevPoster, item.duration, item.views);
END %]

Przykład wyniku:

test,http://www.youtube.com/v/lcYzh7IjJj0,"<b>Test</b> na IQ przy pomocy 10 zdjęć",https://avatars.mds.yandex.net/get-vthumb/4322300/5f649751351f727400bfd1be494fd6b4/564x318_1,07:09,"2,5 mln wyświetleń"
test,http://www.youtube.com/watch?v=VD2h2YUY_WQ,"Online <b>Test</b> Pad -jak samemu stworzyć <b>test</b>",https://avatars.mds.yandex.net/get-vthumb/1023253/fffa43fb9402c436d6881537bb9aee9a/564x318_1,05:38,"16,6 tys. wyświetleń"
test,http://www.youtube.com/watch?v=UPOUE8ObCy8,"Prosty edukacyjny <b>test</b>. Online <b>Test</b> Pad",https://avatars.mds.yandex.net/get-vthumb/3435353/fa94c2b60d9bb0fa8cda2d469b6dcf0a/564x318_1,04:16,"76,5 tys. wyświetleń"
test,http://www.youtube.com/watch?v=Ha9Q1kHqCHA,"Tworzymy <b>testy</b> z Online <b>Test</b> Pad #2",https://avatars.mds.yandex.net/get-vthumb/2032788/4ffd2b149fbfc3de17b67ef92290028e/564x318_1,07:00,"1704 wyświetlenia"
test,http://www.youtube.com/watch?v=P5rlifhgewY,"Ten IQ-<b>test</b> z 5 pytań pokaże poziom Twojej inteligencji",https://avatars.mds.yandex.net/get-vthumb/4507451/f3475d744f7841b40912dd933dce65c1/564x318_1,08:01,"606 tys. wyświetleń"
test,https://zen.yandex.ru/video/watch/61099fa859eaef364db8b3cd?f=video,"Spotlight 4 klasa. Końcowy <b>test</b>. Exit <b>test</b>",https://avatars.mds.yandex.net/get-vthumb/3304426/beaeeaba5bfc6c00bcae50c4fa7cf236/564x318_1,09:39,
test,http://www.youtube.com/v/-cvEA8897Fc?fs=0,"English grammar <b>test</b>",https://avatars.mds.yandex.net/get-vthumb/2428342/b5b8a32f0260ce4ac785b6a4f1a8b006/564x318_1,12:35,"597 tys. wyświetleń"
test,https://zen.yandex.ru/video/watch/625ed4e3099b9b7b81b17e3b?f=video,"TE odpowiedzi zna niewielu ""Brain <b>Test</b>"" #1",https://avatars.mds.yandex.net/get-vh/5811343/2a00000180429688a113593b8944b066f53d/564x318_1,17:07,
test,http://rutube.ru/video/016773a106036e9d3cd619ace97011e0/,"Jak przejść grę Brain <b>Test</b> 2? Odpowiedzi na wszystkie poziomy",https://avatars.mds.yandex.net/get-vthumb/4407993/aa07260f286afde40d15abad02f816af/564x318_1,1:29:03,
test,http://rutube.ru/video/e54b2392b7dd3fe57fed6002aba5f833/,"Brain <b>Test</b> Pełne przejście № 4 Zanurzamy się w świat łamigłówek",https://avatars.mds.yandex.net/get-vthumb/467972/c078458de66e698c5680527352261b9d/564x318_1,26:23,
test,http://rutube.ru/video/8fe868740089c3557d6d54e86ceca6a1/,"SpeedTest - SpeedTest - Testowanie prędkości połączenia internetowego",https://avatars.mds.yandex.net/get-vthumb/3446066/7cca0b8914479dcfe294b06246ea6df8/564x318_1,05:16,"223 tys. wyśw. łącznie"

Zapisywanie w formacie SQL

Format wyniku:

[%  FOREACH serp;
"INSERT INTO serp VALUES('" _ query _ "', '";
link _ "', '";
snippet.replace("\n", '\n') _ "', '";
summary.replace("\n", '\n') _ "')\n";
END %]

Przykład wyniku:

INSERT INTO serp VALUES('test', 'http://www.youtube.com/v/lcYzh7IjJj0', '', '00:25 Zagadka z deskami\nPytaie: ile tu jest desek?\nOdpowiedź: żadna, ponieważ do desek dorysowano zbędne linie i jedna deska płynnie przechodzi w drugą\n01:10 Zagadka z nogami słonia\nPytanie: ile nóg ma słoń?\nOdpowiedź: słoń ma jedną nogę umieszczoną z tyłu, a wszystkie pozostałe nogi nie są prawdziwe\n02:00 Zagadka z kobietą przy oknie\nPytanie: czym różnią się te dwa obrazy?\nOdpowiedź: w prawym dolnym rogu jest mysia nora')
INSERT INTO serp VALUES('test', 'http://www.youtube.com/watch?v=VD2h2YUY_WQ', '', '00:01 Wprowadzenie\nWideo opowiada o stronie online test pad, gdzie można tworzyć testy, ankiety, krzyżówki i gry logiczne.\nNa początek należy zarejestrować się za pomocą e-maila.\n00:35 Tworzenie testu\nPo rejestracji można tworzyć własne testy, ankiety, krzyżówki i gry logiczne.\nW wideo zademonstrowano tworzenie testu od zera.\n01:06 Warianty pytań\nW wideo pokazano, jak tworzyć różne warianty pytań: jednokrotny wybór, wpisywanie tekstu, uzupełnianie luk i inne.\nPrezentowane są przykłady pytań i odpowiedzi dla każdego wariantu.')
INSERT INTO serp VALUES('test', 'http://www.youtube.com/watch?v=P5rlifhgewY', '', '00:00 Wprowadzenie\nWideo stanowi test IQ składający się z pięciu pytań, który pomoże określić poziom inteligencji.\n04:00 Wyniki testu\nJeśli wybrano pierwsze warianty odpowiedzi, poziom szczęścia jest wysoki, a inteligencja średnia.\nJeśli wybrano drugie warianty odpowiedzi, poziom inteligencji jest wysoki, a poziom szczęścia średni.\nJeśli wybrano różne warianty odpowiedzi, poziom inteligencji i szczęścia znajduje się w złotym środku.\n07:08 Zakończenie\nWideo zachęca do podzielenia się wynikami testu ze znajomymi i subskrybowania kanału.\nJeśli zdobędą 50 tysięcy polubień, przygotują kolejny test.')
INSERT INTO serp VALUES('test', 'https://zen.yandex.ru/video/watch/625ed4e3099b9b7b81b17e3b?f=video', '"Brain <b>Test</b>" ► Przejście WSZYSTKIM Miłego Oglądania :) Linki: Muzyka w Wideo: https://www.youtube.com/watch?v=5qap5aO4i9A Discord Serwer ► https://discord.gg/4JWEu9URwB YouTube ►...', '')
INSERT INTO serp VALUES('test', 'http://rutube.ru/video/016773a106036e9d3cd619ace97011e0/', 'Przeszedłem grę Brain <b>Test</b> 2. Dzielę się odpowiedziami na wszystkie poziomy. Przejście gry Brain <b>Test</b> 2 wszystkie części: Chudniemy z Nastią, Ucieczka z więzienia, Agent James Blond, Rodzina Wszechwiedzących, Łowca potworów, Wania...', '')
INSERT INTO serp VALUES('test', 'http://rutube.ru/video/e54b2392b7dd3fe57fed6002aba5f833/', 'https://www.youtube.com/channel/UCgpWRYOfFZ0whXZ8F26KbUg Kanał na YouTube https://t.me/DimaDaimont kanał Telegram https://www.donationalerts.com/r/dimadaimont2 pomóc w rozwoju...', '')

Zrzut wyników do JSON

Ogólny format wyniku:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.videos = [];

FOREACH item IN p1.serp;
obj.videos.push({
link = item.link
anchor = item.anchor
snippet = item.snippet
service = item.service
embed = item.embed
});
END;

obj.json %]

Tekst początkowy:

[

Tekst końcowy:

]

Przykład wyniku:

[{
"videos": [
{
"embed": "<iframe src=\"//www.youtube.com/embed/lcYzh7IjJj0?enablejsapi=1&amp;wmode=opaque\" frameborder=\"0\" scrolling=\"no\" allowfullscreen=\"1\" allow=\"autoplay; fullscreen; accelerometer; gyroscope; picture-in-picture\" aria-label=\"Video\"></iframe>",
"link": "http://www.youtube.com/v/lcYzh7IjJj0",
"snippet": "",
"anchor": "<b>Test</b> na IQ za pomocą 10 zdjęć",
"service": "YouTube"
},
{
"embed": "<iframe src=\"//www.youtube.com/embed/VD2h2YUY_WQ?enablejsapi=1&amp;wmode=opaque\" frameborder=\"0\" scrolling=\"no\" allowfullscreen=\"1\" allow=\"autoplay; fullscreen; accelerometer; gyroscope; picture-in-picture\" aria-label=\"Video\"></iframe>",
"link": "http://www.youtube.com/watch?v=VD2h2YUY_WQ",
"snippet": "",
"anchor": "Online <b>Test</b> Pad -jak samemu stworzyć <b>test</b>",
"service": "YouTube"
},
{
"embed": "<iframe src=\"//www.youtube.com/embed/UPOUE8ObCy8?enablejsapi=1&amp;wmode=opaque\" frameborder=\"0\" scrolling=\"no\" allowfullscreen=\"1\" allow=\"autoplay; fullscreen; accelerometer; gyroscope; picture-in-picture\" aria-label=\"Video\"></iframe>",
"link": "http://www.youtube.com/watch?v=UPOUE8ObCy8",
"snippet": "",
"anchor": "Prosty edukacyjny <b>test</b>. Online <b>Test</b> Pad",
"service": "YouTube"
},
{
"embed": "<iframe src=\"//www.youtube.com/embed/Ha9Q1kHqCHA?enablejsapi=1&amp;wmode=opaque\" frameborder=\"0\" scrolling=\"no\" allowfullscreen=\"1\" allow=\"autoplay; fullscreen; accelerometer; gyroscope; picture-in-picture\" aria-label=\"Video\"></iframe>",
"link": "http://www.youtube.com/watch?v=Ha9Q1kHqCHA",
"snippet": "",
"anchor": "Tworzymy <b>testy</b> z Online <b>Test</b> Pad #2",
"service": "YouTube"
}
],
"query": "test"
}]
wskazówka

Aby opcje "Prepend text" i "Append text" były dostępne w Edytorze zadań, należy aktywować "More options".

Możliwe ustawienia

ParametrWartość domyślnaOpis
Pages count5Liczba stron do scrapowania
New videosŚwieże wideo
Short videosKrótkie wideo