The latest Gemini models, like Gemini 3.5 Flash, are available to use with Firebase AI Logic! Learn more.

Gemini 2.0 Flash and Flash-Lite models were shut down on June 1, 2026. To avoid service disruption, update to a newer model like gemini-3.1-flash-lite. Learn more.

All Imagen models will shut down on June 24, 2026. Learn about migrating your apps to use Nano Banana.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Analizowanie plików wideo za pomocą interfejsu Gemini API

Możesz poprosić model Gemini o przeanalizowanie plików wideo, które podasz w treści (zakodowane w base64) lub za pomocą adresu URL. Gdy używasz Firebase AI Logic, możesz wysłać to żądanie bezpośrednio z aplikacji.

Dzięki tej funkcji możesz m.in.:

dodawać napisy do filmów i odpowiadać na pytania dotyczące filmów,
analizować określone segmenty filmu za pomocą sygnatur czasowych,
transkrybować treści wideo, przetwarzając zarówno ścieżkę dźwiękową, jak i klatki wizualne,
opisywać, segmentować i wyodrębniać informacje z filmów, w tym ze ścieżki dźwiękowej i klatek wizualnych.

Przejdź do przykładów kodu Przejdź do kodu odpowiedzi przesyłanych strumieniowo

Więcej opcji pracy z filmami znajdziesz w innych przewodnikach
Generowanie danych wyjściowych w uporządkowanej formie Czat wieloetapowy

Zanim zaczniesz

Kliknij swojego dostawcę Gemini API, aby wyświetlić na tej stronie treści i kod specyficzne dla dostawcy.

Jeśli jeszcze tego nie zrobisz, zapoznaj się z przewodnikiem dla początkujących, w którym opisujemy, jak skonfigurować projekt Firebase, połączyć aplikację z Firebase, dodać pakiet SDK, zainicjować usługę backendu dla wybranego dostawcy Gemini API i utworzyć instancję GenerativeModel.

Do testowania i iteracji promptów zalecamy używanie Google AI Studio.

Potrzebujesz przykładowego filmu?

Możesz użyć tego publicznie dostępnego pliku o typie MIME video/mp4 (wyświetl lub pobierz plik). https://storage.googleapis.com/cloud-samples-data/video/animals.mp4

**Uwaga:** Firebase AI Logic nie obsługuje jeszcze konfigurowania rozdzielczości multimediów wejściowych, ale ta funkcja będzie dostępna wkrótce.

Generowanie tekstu na podstawie plików wideo (zakodowanych w base64)

Zanim wypróbujesz ten przykład, wykonaj czynności opisane w sekcji Zanim zaczniesz tego przewodnika aby skonfigurować projekt i aplikację.
W tej sekcji klikniesz też przycisk dostawcy Gemini API aby na tej stronie wyświetlały się treści specyficzne dla dostawcy.

Możesz poprosić model Gemini o wygenerowanie tekstu, podając tekst i film, a także mimeType każdego pliku wejściowego i sam plik. Wymagania i zalecenia dotyczące plików wejściowych znajdziesz dalej na tej stronie.

Pamiętaj, że w tym przykładzie plik jest podawany w treści, ale pakiety SDK obsługują też obsługują podawanie adresu URL YouTube.