The latest Gemini models, like Gemini 3.5 Flash, are available to use with Firebase AI Logic! Learn more.

Gemini 2.0 Flash and Flash-Lite models were shut down on June 1, 2026. To avoid service disruption, update to a newer model like gemini-3.1-flash-lite. Learn more.

All Imagen models will shut down on June 24, 2026. Learn about migrating your apps to use Nano Banana.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Obsługiwane pliki wejściowe i wymagania

Gdy wywołujesz Gemini API z aplikacji za pomocą pakietu Firebase AI Logic SDK, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych, takich jak obrazy, filmy, dźwięk i dokumenty (np. pliki PDF).

Musisz używać obsługiwanych typów plików, określić obsługiwany typ MIME i upewnić się, że Twoje pliki i żądania multimodalne spełniają wymagania i są zgodne ze sprawdzonymi metodami.

Ta strona dotyczy korzystania z GenerativeModel i opisuje te kwestie:

Opcje podawania plików w żądaniu.
Szczegóły dotyczące obsługiwanych typów MIME, sprawdzonych metod i ograniczeń w przypadku tych danych wejściowych:
Obrazy | Filmy | Dźwięk | Dokumenty (np. pliki PDF).

Opcje podawania plików w żądaniach multimodalnych

Wybierz dostawcę interfejsu Gemini API, aby wyświetlić na tej stronie treści dotyczące konkretnego dostawcy

W każdym żądaniu multimodalnym musisz zawsze podać te informacje:

mimeType pliku. Obsługiwane typy MIME każdego pliku wejściowego znajdziesz w odpowiedniej sekcji na tej stronie.
Plik. Możesz albo podać plik jako dane wbudowane lub podać plik używając jego adresu URL.

Rozmiar i liczba plików, które możesz podać w żądaniu, zależą od typu pliku wejściowego, sposobu podania pliku i używanego modelu (szczegóły znajdziesz w sekcji dotyczącej każdego typu pliku wejściowego na tej stronie).

Opcja 1: podaj plik jako dane wbudowane

Pamiętaj o tych kwestiach dotyczących plików podawanych jako dane wbudowane:

Jako dane wbudowane można wysyłać tylko małe pliki, ponieważ łączny limit rozmiaru żądania wynosi 20 MB.
Plik jest kodowany do formatu base64 w trakcie przesyłania (co zwiększa jego rozmiar).

Przykład pokazujący, jak dołączyć plik jako dane wbudowane, znajdziesz w artykule Generowanie tekstu na podstawie danych wejściowych tekstowych i plikowych (multimodalnych). Pamiętaj, że pakiety SDK na platformy Android i Apple mogą obsługiwać obrazy wbudowane w żądania bez konieczności określania typu MIME. Więcej informacji

Opcja 2: podaj plik za pomocą adresu URL

Oto akceptowane typy adresów URL, gdy używasz Gemini Developer API:

Adres URL filmu na YouTube: film na YouTube musi być publiczny lub niepubliczny.

W jednym żądaniu możesz podać 1 adres URL filmu na YouTube.

Obrazy: wymagania, sprawdzone metody i ograniczenia

Obrazy: wymagania

W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących obrazów w żądaniu.

Obsługiwane typy MIME

Gemini modele multimodalne obsługują te typy MIME obrazów:

PNG – image/png
JPEG – image/jpeg
WebP – image/webp

Limity dotyczące żądania

Nie ma konkretnego limitu liczby pikseli w obrazie. Większe obrazy są jednak zmniejszane i uzupełniane, aby pasowały do maksymalnej rozdzielczości 3072 x 3072, przy zachowaniu oryginalnych proporcji.

Maksymalna liczba plików w żądaniu: 3000 plików graficznych

Obrazy: tokenizacja

Oto jak obliczane są tokeny w przypadku obrazów:

Jeśli oba wymiary obrazu są mniejsze lub równe 384 pikselom, używane są 258 tokeny.
Jeśli jeden z wymiarów obrazu jest większy niż 384 piksele, obraz jest przycinany do kafelków. Domyślny rozmiar każdego kafelka to najmniejszy wymiar (szerokość lub wysokość) podzielony przez 1,5. W razie potrzeby każdy kafelek jest dostosowywany tak, aby nie był mniejszy niż 256 pikseli i nie większy niż 768 pikseli. Każdy kafelek jest następnie zmieniany do rozmiaru 768 x 768 i używa 258 tokenów.

Grafika: sprawdzone metody

Aby uzyskać najlepsze wyniki, korzystając z obrazów, stosuj te sprawdzone metody i informacje:

Jeśli chcesz wykryć tekst na obrazie, używaj promptów z jednym obrazem, aby uzyskać lepsze wyniki niż w przypadku promptów z wieloma obrazami.
Jeśli prompt zawiera jeden obraz, umieść go przed promptem tekstowym w żądaniu.
Jeśli prompt zawiera kilka obrazów i chcesz się do nich odwołać później w prompcie lub chcesz, aby model odwoływał się do nich w odpowiedzi, warto dodać przed każdym obrazem indeks. Użyj a b c lub image 1 image 2 image 3 dla swojego indeksu. Oto przykład użycia indeksowanych obrazów w a prompcie:
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
Używaj obrazów o wyższej rozdzielczości, ponieważ dają lepsze wyniki.
W prompcie podaj kilka przykładów.
Przed dodaniem obrazów do prompta obróć je do właściwej orientacji.
Unikaj rozmytych obrazów.

Obrazy: ograniczenia

Modele multimodalne Gemini są skuteczne w wielu zastosowaniach multimodalnych , ale ważne jest, aby znać ich ograniczenia:

Moderowanie treści: modele odmawiają udzielania odpowiedzi na obrazy, które naruszają nasze zasady bezpieczeństwa.
Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów na obrazach. Mogą zwracać tylko przybliżone liczby obiektów.
Zastosowania medyczne: modele nie nadają się do interpretowania obrazów medycznych (np. zdjęć rentgenowskich i tomografii komputerowej) ani do udzielania porad medycznych.
Rozpoznawanie osób: modele nie są przeznaczone do identyfikowania osób, które nie są celebrytami na obrazach.
Dokładność: modele mogą halucynować lub popełniać błędy podczas interpretowania obrazów niskiej jakości, obróconych lub o bardzo niskiej rozdzielczości. Modele mogą też halucynować podczas interpretowania odręcznego tekstu w dokumentach graficznych.

Filmy: wymagania, sprawdzone metody i ograniczenia

Filmy: wymagania

W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących filmów w żądaniu.

Obsługiwane typy MIME

Gemini modele multimodalne obsługują te typy MIME filmów:

FLV – video/x-flv
MOV – video/quicktime
MPEG – video/mpeg
MPEGPS – video/mpegps
MPG – video/mpg
MP4 – video/mp4
WEBM – video/webm
WMV – video/wmv
3GPP – video/3gpp

Limity dotyczące żądania

Maksymalna liczba plików w żądaniu: 10 plików wideo

Filmy: tokenizacja

Oto jak obliczane są tokeny w przypadku filmów:

Ścieżka dźwiękowa jest kodowana za pomocą klatek wideo. Ścieżka dźwiękowa jest też dzielona na 1-sekundowe fragmenty, z których każdy odpowiada 32 tokenom. Tokeny klatek wideo i dźwięku są przeplatane z sygnaturami czasowymi. Sygnatury czasowe są reprezentowane jako 5 tokenów.
W przypadku filmów, które są próbkowane z częstotliwością 1 klatki na sekundę (kl./s) lub mniejszą, sygnatury czasowe pierwszej godziny filmu są reprezentowane jako 5 tokenów na klatkę wideo. Pozostałe sygnatury czasowe są reprezentowane jako 7 tokenów na klatkę wideo.
W przypadku filmów, które są próbkowane z częstotliwością większą niż 1 klatka na sekundę, sygnatury czasowe pierwszej godziny filmu są reprezentowane jako 9 tokenów na klatkę wideo. Pozostałe sygnatury czasowe są reprezentowane jako 11 tokenów na klatkę wideo.

Filmy: sprawdzone metody

Aby uzyskać najlepsze wyniki, korzystając z filmów, stosuj te sprawdzone metody i informacje:

Jeśli prompt zawiera jeden film, umieść go przed promptem tekstowym prompt.
Jeśli potrzebujesz lokalizacji sygnatur czasowych w filmie z dźwiękiem, poproś model o wygenerowanie sygnatur czasowych w formacie opisanym w sekcji „Format sygnatury czasowej” .

Filmy: ograniczenia

Modele multimodalne Gemini są skuteczne w wielu zastosowaniach multimodalnych , ale ważne jest, aby znać ich ograniczenia:

Moderowanie treści: modele odmawiają udzielania odpowiedzi na filmy, które naruszają nasze zasady bezpieczeństwa.
Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.

Dźwięk: wymagania i ograniczenia

Dźwięk: wymagania

W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących dźwięku w żądaniu.

Obsługiwane typy MIME

Gemini modele multimodalne obsługują te typy MIME dźwięku:

AAC – audio/aac
FLAC – audio/flac
MP3 – audio/mp3
MPA – audio/m4a
MPEG – audio/mpeg
MPGA – audio/mpga
MP4 – audio/mp4
OPUS – audio/opus
PCM – audio/pcm
WAV – audio/wav
WEBM – audio/webm

Limity dotyczące żądania

Maksymalna liczba plików w żądaniu: 1 plik audio

Dźwięk: ograniczenia

Modele multimodalne Gemini są skuteczne w wielu zastosowaniach multimodalnych , ale ważne jest, aby znać ich ograniczenia:

Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
Sygnatury czasowe tylko dla dźwięku: aby dokładnie generować sygnatury czasowe dla plików zawierających tylko dźwięk, musisz skonfigurować parametr audio_timestamp w generation_config.

Dokumenty (np. pliki PDF): wymagania, sprawdzone metody i ograniczenia

Dokumenty: wymagania

W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących dokumentów (np. plików PDF) w żądaniu.

Obsługiwane typy MIME

Gemini modele multimodalne obsługują te typy MIME dokumentów:

PDF – application/pdf
Tekst – text/plain

Limity dotyczące żądania

Pliki PDF są traktowane jako obrazy, więc pojedyncza strona pliku PDF jest traktowana jako 1 obraz. Liczba stron dozwolonych w prompcie jest ograniczona do liczby obrazów, które mogą obsługiwać modele Gemini multimodalne.

Maksymalna liczba plików w żądaniu: 3000 plików
Maksymalna liczba stron w pliku: 1000 stron na plik
Maksymalny rozmiar pliku: 50 MB na plik

Dokumenty: tokenizacja

Tokenizacja plików PDF

Pliki PDF są traktowane jako obrazy, więc każda strona pliku PDF jest tokenizowana w taki sam sposób jak obraz.

Koszt plików PDF jest też zgodny z Gemini cennikiem obrazów. Jeśli na przykład dołączysz 2-stronicowy plik PDF do wywołania Gemini API, poniesiesz opłatę za przetwarzanie 2 obrazów.

Dokumenty: sprawdzone metody

Aby uzyskać najlepsze wyniki, korzystając z plików PDF, stosuj te sprawdzone metody i informacje:

Jeśli prompt zawiera jeden plik PDF, umieść go przed promptem tekstowym w żądaniu.
Jeśli masz długi dokument, rozważ podzielenie go na kilka plików PDF aby go przetworzyć.
Używaj plików PDF utworzonych z tekstu renderowanego jako tekst, a nie tekstu w zeskanowanych obrazach. Ten format zapewnia, że tekst jest czytelny dla maszyn, dzięki czemu model może go łatwiej edytować, przeszukiwać i manipulować nim w porównaniu z zeskanowanymi obrazami PDF. Ta metoda zapewnia optymalne wyniki podczas pracy z dokumentami zawierającymi dużo tekstu, takimi jak umowy.

Dokumenty: ograniczenia

Modele multimodalne Gemini są skuteczne w wielu zastosowaniach multimodalnych , ale ważne jest, aby znać ich ograniczenia:

Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów w plikach PDF. Mogą zwracać tylko przybliżone liczby obiektów.
Dokładność: modele mogą halucynować podczas interpretowania odręcznego tekstu w dokumentach PDF.

Obsługiwane pliki wejściowe i wymagania Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Opcje podawania plików w żądaniach multimodalnych

Opcja 1: podaj plik jako dane wbudowane

Opcja 2: podaj plik za pomocą adresu URL

Obrazy: wymagania, sprawdzone metody i ograniczenia

Obrazy: wymagania

Obsługiwane typy MIME

Limity dotyczące żądania

Obrazy: tokenizacja

Grafika: sprawdzone metody

Obrazy: ograniczenia

Filmy: wymagania, sprawdzone metody i ograniczenia

Filmy: wymagania

Obsługiwane typy MIME

Limity dotyczące żądania

Filmy: tokenizacja

Filmy: sprawdzone metody

Filmy: ograniczenia

Dźwięk: wymagania i ograniczenia

Dźwięk: wymagania

Obsługiwane typy MIME

Limity dotyczące żądania

Dźwięk: ograniczenia

Dokumenty (np. pliki PDF): wymagania, sprawdzone metody i ograniczenia

Dokumenty: wymagania

Obsługiwane typy MIME

Limity dotyczące żądania

Dokumenty: tokenizacja

Dokumenty: sprawdzone metody

Dokumenty: ograniczenia

Obsługiwane pliki wejściowe i wymagania