Watch demos on how to build & run AI-powered apps with Firebase at Demo Day '24. Watch now.

Ta strona została przetłumaczona przez Cloud Translation API.

Obsługiwane pliki wejściowe i wymagania interfejsu API Vertex AI Gemini Gemini

Gdy wywołujesz funkcję Vertex AI Gemini API z aplikacji za pomocą pakietu SDK Vertex AI in Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (czyli typów danych wejściowych), takich jak tekst, obrazy, pliki PDF, filmy i dźwięk.

W przypadku części danych wejściowych, które nie są tekstem (np. plików multimedialnych), musisz używać obsługiwanych typów plików, określić obsługiwany typ MIME i upewnić się, że pliki i żądania multimodalne spełniają wymagania i są zgodne ze sprawdzonymi metodami.

Na tej stronie opisano obsługiwane typy MIME, sprawdzone metody i ograniczenia dotyczące:

Obrazy
Film
Dźwięk
dokumenty (np. pliki PDF),

Wymagania dotyczące pakietów SDK Vertex AI in Firebase

W przypadku pakietów SDK Vertex AI in Firebase łączny maksymalny rozmiar żądania to 20 MB. Jeśli żądanie jest zbyt duże, otrzymasz błąd HTTP 413.

Jeśli rozmiar pliku spowoduje, że łączny rozmiar żądania przekroczy 20 MB, użyj URL-a Cloud Storage for Firebase, aby uwzględnić plik w żądaniu multimodalnym.
Jeśli plik jest mały, możesz go przekazać bezpośrednio jako dane wstawione. Pamiętaj jednak, że plik przesłany jako dane wstawione jest w trakcie przesyłania kodowany w formacie Base64, co zwiększa rozmiar żądania. Przykłady pokazujące, jak uwzględniać pliki jako dane wstawione, znajdziesz w artykule Generowanie tekstu z promptów multimodalnych za pomocą interfejsu Gemini API.

Zdjęcia: wymagania, sprawdzone metody i ograniczenia

Obrazy: wymagania

W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących obrazów.

Obsługiwane typy MIME

Modele multimodalne Gemini obsługują te typy MIME obrazów:

Typ MIME obrazu	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision
PNG – `image/png`
JPEG – `image/jpeg`
WebP – `image/webp`

Limity na żądanie

Nie ma określonego limitu liczby pikseli na obrazie. Jednak większe obrazy są zmniejszane i wypełniane, aby pasowały do maksymalnej rozdzielczości 3072 x 3072, przy zachowaniu oryginalnego współczynnika proporcji.

Oto maksymalna dozwolona liczba plików graficznych w prośbie o prompt:

Gemini 1.0 Pro Vision: 16 obrazów
Gemini 1.5 Flash i Gemini 1.5 Pro: 3000 obrazów

Obrazy: tokenizacja

Oto sposób obliczania tokenów w przypadku obrazów:

Gemini 1.0 Pro Vision: każde zdjęcie to 258 tokenów.
Gemini 1.5 Flash i Gemini 1.5 Pro:
- Jeśli oba wymiary obrazu są mniejsze lub równe 384 pikselom, używane są 258 tokenów.
- Jeśli jeden z wymiarów obrazu jest większy niż 384 piksele, obraz zostaje przycięty na kafelki. Domyślny rozmiar każdej płytki to najmniejszy wymiar (szerokość lub wysokość) podzielony przez 1,5. W razie potrzeby każda płytka jest dostosowywana tak, aby nie była mniejsza niż 256 pikseli i nie większa niż 768 pikseli. Każda płytka jest następnie zmieniana na rozmiar 768 x 768 i korzysta z 258 tokenów.

Obrazy: sprawdzone metody

Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:

Jeśli chcesz wykrywać tekst na obrazie, użyj promptów z jednym obrazem, aby uzyskać lepsze wyniki niż w przypadku promptów z większą liczbą obrazów.
Jeśli prompt zawiera jeden obraz, umieść go przed promptem tekstowym w prośbie.
Jeśli prompt zawiera kilka obrazów, a chcesz się do nich odnieść w późniejszym promptie lub w odpowiedzi modelu, możesz przed każdym obrazem podać jego numer. Użyj w przypadku indeksu polecenia a b c lub image 1 image 2 image 3. Oto przykład użycia indeksowanych obrazów w promptach:
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
Używaj zdjęć o wyższej rozdzielczości, ponieważ dają lepsze efekty.
W prompcie umieść kilka przykładów.
Przed dodaniem obrazów do promptu obróć je w odpowiednim kierunku.
Unikaj rozmytych obrazów.

Obrazy: ograniczenia

Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ale warto poznać ich ograniczenia:

Moderowanie treści: modele odmawiają udzielania odpowiedzi na pytania dotyczące obrazów, które naruszają nasze zasady bezpieczeństwa.
Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów na obrazach. Mogą one zwracać tylko przybliżoną liczbę obiektów.
Zastosowania medyczne: modele nie nadają się do interpretacji zdjęć medycznych (np. zdjęć rentgenowskich i tomografii komputerowej) ani do udzielania porad medycznych.
Rozpoznawanie osób: modeli nie należy używać do identyfikowania na zdjęciach osób, które nie są celebrytami.
Dokładność: modele mogą halucynować lub popełniać błędy podczas interpretacji obrazów niskiej jakości, obróbionych lub o bardzo niskiej rozdzielczości. Modele mogą też „halucynować”, interpretując tekst pisany odręcznie w dokumentach w postaci obrazów.

Film: wymagania, sprawdzone metody i ograniczenia

Film: wymagania

W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących filmów.

Obsługiwane typy MIME

Modele multimodalne Gemini obsługują te typy MIME wideo:

Typ MIME reklamy wideo	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision
FLV – `video/x-flv`
MOV – `video/quicktime`
MPEG – `video/mpeg`
MPEGPS – `video/mpegps`
MPG – `video/mpg`
MP4 – `video/mp4`
WEBM – `video/webm`
WMV – `video/wmv`
3GPP – `video/3gpp`

Limity na żądanie

Maksymalna dozwolona liczba plików wideo w prośbie o prompt:

Gemini 1.0 Pro Vision: 1 plik wideo.
Gemini 1.5 Flash i Gemini 1.5 Pro: 10 plików wideo

Film: tokenizacja

Oto jak są obliczane tokeny w przypadku filmów:

Wszystkie modele multimodalne Gemini: filmy są próbkowane z częstotliwością 1 klatki na sekundę (fps). Każda klatka filmu odpowiada 258 tokenom.
Gemini 1.5 Flash i Gemini 1.5 Pro: ścieżka audio jest kodowana za pomocą klatek wideo. Ścieżka audio jest też podzielona na 1-sekundowe segmenty, z których każdy składa się z 32 tokenów. Ramki wideo i tokeny audio są przeplatane z ich sygnaturami czasowymi. Sygnatury czasowe są reprezentowane przez 7 tokenów.

Film: sprawdzone metody

Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:

Jeśli prompt zawiera 1 film, umieść go przed promptem tekstowym.
Jeśli potrzebujesz lokalizacji sygnatury czasowej w wideo z dźwiękiem, poproś model o wygenerowanie sygnatur czasowych w formacie MM:SS, gdzie pierwsze 2 cyfry oznaczają minuty, a ostatnie 2 cyfry – sekundy. Użyj tego samego formatu w przypadku pytań dotyczących sygnatury czasowej.
Jeśli używasz Gemini 1.0 Pro Vision:
- Używaj nie więcej niż 1 filmu na prompt.
- Model przetwarza tylko informacje z pierwszych 2 minut filmu.
- Model przetwarza filmy jako niesąsiadujące ze sobą ramki obrazu z filmu. Nie zawiera dźwięku. Jeśli zauważysz, że modelka nie jest widoczna w pewnych miejscach filmu, spróbuj go skrócić, aby modelka zajmowała większą część treści.
- Model nie przetwarza żadnych informacji o dźwięku ani metadanych z czasem. Z tego powodu model może nie działać dobrze w przypadkach użycia, które wymagają danych wejściowych audio, takich jak napisy do dźwięku, lub informacji związanych z czasem, takich jak szybkość czy rytm.

Film: ograniczenia

Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ale warto poznać ich ograniczenia:

Moderowanie treści: modelki odmawiają udzielania odpowiedzi na pytania dotyczące filmów, które naruszają nasze zasady bezpieczeństwa.
Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
Ruch przy dużej prędkości: modele mogą popełniać błędy podczas rozpoznawania ruchu przy dużej prędkości w filmie z powodu stałej częstotliwości próbkowania 1 klatka na sekundę (fps).
Interpunkcja w transkrypcji: (jeśli używasz Gemini 1.5 Flash) modele mogą zwracać transkrypcje bez interpunkcji.

Dźwięk: wymagania i ograniczenia

Dźwięk: wymagania

W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących plików audio.

Obsługiwane typy MIME

Modele multimodalne Gemini obsługują te typy MIME audio:

Typ MIME pliku audio	Gemini 1.5 Flash	Gemini 1.5 Pro
AAC – `audio/aac`
FLAC – `audio/flac`
MP3 – `audio/mp3`
MPA – `audio/m4a`
MPEG – `audio/mpeg`
MPGA – `audio/mpga`
MP4 – `audio/mp4`
OPUS – `audio/opus`
PCM – `audio/pcm`
WAV – `audio/wav`
WEBM – `audio/webm`

Limity na żądanie

W żądaniu prompta możesz dołączyć maksymalnie 1 plik audio.

Dźwięk: ograniczenia

Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ale warto poznać ich ograniczenia:

Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
Sygnatury czasowe tylko dźwięku: aby prawidłowo generować sygnatury czasowe plików tylko z dźwiękiem, musisz skonfigurować parametr audio_timestamp w pliku generation_config.
Interpunkcja w transkrypcji: (jeśli używasz Gemini 1.5 Flash) modele mogą zwracać transkrypcje bez interpunkcji.

Dokumenty (np. pliki PDF): wymagania, sprawdzone metody i ograniczenia

Dokumenty: wymagania

W tej sekcji znajdziesz informacje o obsługiwanych typach MIME i limitach dotyczących żądań dotyczących dokumentów (np. PDF-ów).

Obsługiwane typy MIME

Modele multimodalne Gemini obsługują te typy MIME dokumentów:

Typ MIME dokumentu	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision
PDF – `application/pdf`
Tekst – `text/plain`

Limity na żądanie

Pliki PDF są traktowane jako obrazy, więc pojedyncza strona pliku PDF jest traktowana jako jeden obraz. Liczba stron dozwolonych w promptach jest ograniczona do liczby obrazów, które model może obsługiwać:

Gemini 1.0 Pro Vision: 16 stron
Gemini 1.5 Pro i Gemini 1.5 Flash: 1000 stron

Dokumenty: tokenizacja

Tokenizacja PDF

Pliki PDF są traktowane jak obrazy, więc każda strona pliku PDF jest tokenizowana w taki sam sposób jak obraz.

Koszt PDF-ów jest zgodny z cenami obrazów w Gemini. Jeśli na przykład w wywołaniu interfejsu Gemini API załączysz plik PDF zawierający 2 strony, zostanie naliczona opłata za przetworzenie 2 obrazów.

Tokenizacja tekstu

Dokumenty w postaci zwykłego tekstu są tokenizowane jako tekst. Jeśli na przykład w wywołaniu interfejsu Gemini API podasz dokument tekstowy zawierający 100 słów, zostanie naliczona opłata za przetworzenie 100 słów.

Dokumenty: sprawdzone metody

Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje:

Jeśli prompt zawiera jeden plik PDF, umieść go przed promptem tekstowym w prośbie.
Jeśli masz długi dokument, możesz go podzielić na kilka plików PDF, aby go przetworzyć.
Zamiast tekstu na zeskanowanych obrazach używaj plików PDF utworzonych z tekstem renderowanym jako tekst. Dzięki temu formatowi tekst jest czytelny dla maszyn, co ułatwia modelowi edytowanie, wyszukiwanie i modyfikowanie danych w porównaniu ze skanowanymi obrazami w formacie PDF. Ta metoda zapewnia optymalne wyniki podczas pracy z dokumentami zawierającymi dużo tekstu, takimi jak umowy.

Dokumenty: ograniczenia

Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ale warto poznać ich ograniczenia:

Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów w plikach PDF. Mogą one zwracać tylko przybliżoną liczbę obiektów.
Dokładność: modele mogą generować błędy podczas interpretowania ręcznie pisanego tekstu w dokumentach PDF.