Gdy wywołujesz Vertex AI Gemini API z aplikacji za pomocą SDK Vertex AI in Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (lub typy danych wejściowych), np. tekst wraz z obrazami, plikami PDF, filmami lub dźwiękami.
W przypadku części danych nietekstowych (np. plików multimedialnych) musisz użyć obsługiwane typy plików, określ obsługiwany typ MIME i upewnij się, spełniają wymagania i są zgodne ze sprawdzonymi metodami.
Na tej stronie opisujemy obsługiwane typy MIME, sprawdzone metody i ograniczenia dla następujących elementów:
Wymagania dotyczące pakietów SDK usługi Vertex AI in Firebase
W przypadku Vertex AI in Firebase pakietów SDK maksymalny łączny rozmiar żądania to 20 MB. Jeśli żądanie jest zbyt duże, pojawia się błąd HTTP 413.
Jeśli rozmiar pliku spowoduje, że łączny rozmiar żądania przekroczy 20 MB, użyj adresu URL Cloud Storage for Firebase, aby dołączyć ten plik do żądania multimodalnego.
Jeśli plik jest mały, często można go przekazać bezpośrednio jako dane wbudowane. Pamiętaj jednak, że plik udostępniony jako dane wbudowane jest zakodowany w formacie base64 do przesyłania danych, co zwiększa rozmiar żądania. Oto przykłady pokazujące, jak dołącz pliki jako dane wbudowane, zobacz Generowanie tekstu z promptów multimodalnych za pomocą interfejsu Gemini API
Obrazy: wymagania, sprawdzone metody i ograniczenia
Obrazy: wymagania
W tej sekcji poznasz obsługiwane typy MIME i limity na żądanie w przypadku obrazów.
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME obrazów:
Typ MIME obrazu | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG – image/png |
|||
JPEG – image/jpeg |
Limity na żądanie
Nie ma ustalonego limitu liczby pikseli na obrazie. Pamiętaj jednak: większe obrazy są pomniejszone i dopełnione, aby zmieścić się w maksymalnej rozdzielczości 3072 x 3072 z zachowaniem pierwotnego formatu obrazu.
Oto maksymalna liczba plików graficznych w żądaniu promptu:
- Gemini 1.0 Pro Vision: 16 obrazów
- Gemini 1.5 Flash Gemini 1.5 Pro: 3000 obrazów
Obrazy: tokenizacja
Tokeny dla obrazów są obliczane w ten sposób:
- Gemini 1.0 Pro Vision: każde zdjęcie konta na 258 tokenów.
- Gemini 1.5 Flash
Gemini 1.5 Pro:
- Jeśli oba wymiary obrazu mają maksymalnie 384 piksele, używanych jest 258 tokenów.
- Jeśli jeden wymiar obrazu ma więcej niż 384 piksele, wymiar obraz jest przycięty do kafelków. Domyślnie każdy kafelek ma najmniejszy rozmiar (szerokość lub wysokość) podzielone przez 1,5. W razie potrzeby każdy kafelek należy została dostosowana tak, by rozmiar nie był mniejszy niż 256 pikseli ani większy niż 768 pikseli. Rozmiar każdego kafelka jest następnie zmieniany na 768 x 768 i składa się z 258 tokenów.
Obrazy: sprawdzone metody
W przypadku obrazów postępuj zgodnie z tymi sprawdzonymi metodami i informacjami dotyczącymi najlepsze wyniki:
- Jeśli chcesz wykryć tekst na obrazie, używaj promptów z jednym obrazem, aby: dają lepsze wyniki niż prompty z wieloma obrazami.
- Jeśli prompt zawiera pojedynczy obraz, umieść go przed tekstem w swoim żądaniu.
- Jeśli prompt zawiera wiele obrazów i chcesz się do nich odwołać
w dalszej części promptu lub w odpowiedzi modelu,
pomocne może być nadanie każdemu obrazowi indeksu przed obrazem. Używaj
luba
b
c
dla indeksu. Poniżej znajdziesz przykład wykorzystania zindeksowanych obrazów w tagu prompt:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Używaj obrazów o wyższej rozdzielczości. dają lepsze wyniki.
- Umieść w prompcie kilka przykładów.
- Przed dodaniem zdjęć do .
- Unikaj rozmytych obrazów.
Obrazy: ograniczenia
Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ważne jest, aby rozumieć ograniczenia tych modeli:
- Moderowanie treści: modele odmawiają udzielania odpowiedzi. obrazów naruszających nasze zasady bezpieczeństwa.
- Rozumowanie przestrzenne: modele nie są precyzyjne, lokalizując je. tekstu ani obiektów na obrazach. Zwracają tylko przybliżone liczby obiektów.
- Zastosowania medyczne: modele nie nadają się do interpretacji. obrazy medyczne (np. zdjęcia rentgenowskie i tomografia komputerowa) lub wykonywanie diagnozy medycznej z poradami.
- Rozpoznawanie osób: modele nie są przeznaczone do: identyfikować na zdjęciach osoby, które nie są celebrytami.
- Dokładność: modele mogą się mylić lub popełniać błędy przy interpretowaniu obrazów o niskiej jakości, obróconych lub o bardzo niskiej rozdzielczości. Modele mogą się też mylić, interpretując tekst odręczny dokumentów graficznych.
Filmy: wymagania, sprawdzone metody i ograniczenia
Film: wymagania
W tej sekcji poznasz obsługiwane typy MIME i limity na żądanie w przypadku film.
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME wideo:
Typ MIME pliku wideo | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV – video/x-flv |
|||
MOV – video/mov |
|||
MPEG – video/mpeg |
|||
MPEGPS – video/mpegps |
|||
MPG – video/mpg |
|||
MP4 – video/mp4 |
|||
WEBM – video/webm |
|||
WMV – video/wmv |
|||
3GPP – video/3gpp |
Limity na żądanie
Oto maksymalna liczba plików wideo dozwolonych w żądaniu promptu:
- Gemini 1.0 Pro Vision: 1 plik wideo
- Gemini 1.5 Flash Gemini 1.5 Pro: 10 plików wideo
Film: tokenizacja
Oto jak obliczane są tokeny dla wideo:
- Wszystkie modele multimodalne Gemini: filmy są próbkowane o
1 klatka na sekundę (kl./s) . Każda klatka wideo odpowiada za 258 tokeny. - Gemini 1.5 Flash
Gemini 1.5 Pro: ścieżka audio jest zakodowana
z klatkami wideo. Ścieżka dźwiękowa jest również podzielona na
Jednosekundowe połączenia trunk , z których każde konto odpowiada 32 tokenom. Film ramki i tokeny audio są przeplatane z ich sygnaturami czasowymi. sygnatury czasowe są przedstawiane jako 7 tokenów.
Film: sprawdzone metody
Korzystając z filmów, stosuj te sprawdzone metody i informacje dotyczące najlepsze wyniki:
- Jeśli prompt zawiera 1 film, umieść go przed tekstem .
- Jeśli potrzebujesz lokalizacji sygnatury czasowej w filmie z dźwiękiem, zapytaj model.
aby generować sygnatury czasowe w formacie
MM:SS
, gdzie pierwsze 2 cyfry to minuty, a dwie ostatnie cyfry to sekundy. Użyj format dla pytań o sygnaturę czasową. Jeśli korzystasz z Gemini 1.0 Pro Vision, pamiętaj o tych kwestiach:
- Używaj nie więcej niż 1 filmu na prompt.
- Model przetwarza informacje tylko w ciągu pierwszych 2 minut w filmie.
- Model przetwarza filmy jako nieprzylegające do siebie klatki z obrazu film. Nie obejmuje dźwięku. Jeśli zauważysz, że w modelu brakuje pewnych spróbuj go skrócić, tak aby model przechwytuje większą część treści wideo.
- Model nie przetwarza żadnych informacji o dźwięku ani sygnatury czasowej metadanych. Z tego powodu model może nie działać dobrze w przypadkach użycia. które wymagają danych dźwiękowych, np. napisów lub dotyczą czasu. informacji takich jak szybkość czy rytm.
Film: ograniczenia
Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ważne jest, aby rozumieć ograniczenia tych modeli:
- Moderowanie treści: modele odmawiają udzielania odpowiedzi. na filmach naruszających nasze zasady bezpieczeństwa.
- Rozpoznawanie dźwięków innych niż mowa: modele, które obsługują dźwięk może popełniać błędy, rozpoznając dźwięk, który nie jest mową.
- Ruch z dużą szybkością: modele mogą popełniać błędy
rozpoznania szybkiego ruchu w filmie ze względu na
Częstotliwość próbkowania
1 klatka na sekundę (kl./s) - Interpunkcja w transkrypcji: (w przypadku Gemini 1.5 Flash) Modele mogą wyświetlają transkrypcje bez znaków interpunkcyjnych.
Dźwięk: wymagania i ograniczenia
Dźwięk: wymagania
W tej sekcji poznasz obsługiwane typy MIME i limity na żądanie w przypadku audio.
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME audio:
Typ MIME audio | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC – audio/aac |
||
FLAC – audio/flac |
||
MP3 – audio/mp3 |
||
MPA – audio/m4a |
||
MPEG – audio/mpeg |
||
MPGA – audio/mpga |
||
MP4 – audio/mp4 |
||
OPUS – audio/opus |
||
PCM – audio/pcm |
||
WAV – audio/wav |
||
WEBM – audio/webm |
Limity na żądanie
Do prośby możesz dołączyć maksymalnie
Dźwięk: ograniczenia
Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ważne jest, aby rozumieć ograniczenia tych modeli:
- Rozpoznawanie dźwięków innych niż mowa: modele, które obsługują dźwięk może popełniać błędy, rozpoznając dźwięk, który nie jest mową.
- Sygnatury czasowe tylko dźwięku: modele, które obsługują dźwięk. nie może dokładnie generować sygnatur czasowych dla żądań z plikami audio. Ten obejmuje podział na segmenty i sygnatury czasowe lokalizacji. Sygnatury czasowe być generowane poprawnie w przypadku danych wejściowych obejmujących film zawierający dźwięk.
- Interpunkcja w transkrypcji: (w przypadku Gemini 1.5 Flash) Modele mogą wyświetlają transkrypcje bez znaków interpunkcyjnych.
Dokumenty (np. PDF): wymagania, sprawdzone metody i ograniczenia.
Dokumenty: wymagania
W tej sekcji poznasz obsługiwane typy MIME i limity na żądanie w przypadku dokumentów (np. PDF).
Obsługiwane typy MIME
Modele multimodalne Gemini obsługują te typy MIME dokumentów:
Typ MIME dokumentu | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF – application/pdf |
Limity na żądanie
Pliki PDF są traktowane jak obrazy, więc pojedyncza strona pliku PDF jest traktowana jako jedna . Liczba stron dozwolonych w prompcie jest ograniczona do liczby Obrazy obsługiwane przez model:
- Gemini 1.0 Pro Vision: 16 stron
- Gemini 1.5 Pro Gemini 1.5 Flash: 1000 stron
Dokumenty: tokenizacja
Pliki PDF są traktowane jako obrazy, więc każda strona pliku PDF jest tokenizowana jako obraz.
Oprócz tego koszt plików PDF Cennik obrazów Gemini. Na przykład jeśli do wywołania interfejsu Gemini API użyjesz dwustronicowego pliku PDF, wiąże się z naliczeniem opłaty wejściowej za przetworzenie dwóch obrazów.
Dokumenty: sprawdzone metody
Korzystając z plików PDF, postępuj zgodnie z tymi sprawdzonymi metodami i informacjami najlepsze wyniki:
- Jeśli prompt zawiera 1 plik PDF, umieść go przed tekstem. w swoim żądaniu.
- Jeśli masz długi dokument, rozważ podzielenie go na kilka plików PDF. jego przetworzenie.
- Używaj plików PDF z tekstem renderowanym jako tekst zamiast tekstu zeskanowanych obrazów. Ten format zapewnia, że tekst jest czytelny dla maszyn, jest łatwiejsza do edytowania, wyszukiwania i manipulacji w porównaniu z modelem pliki PDF z obrazami. Pozwala to uzyskać optymalne wyniki podczas pracy dokumentów z dużą ilością tekstu, takich jak umowy.
Dokumenty: ograniczenia
Modele multimodalne Gemini są przydatne w wielu zastosowaniach multimodalnych, ważne jest, aby rozumieć ograniczenia tych modeli:
- Rozumowanie przestrzenne: modele nie są precyzyjnie lokalizowane. tekst ani obiekty w plikach PDF. Zwracają tylko przybliżone liczby obiektów.
- Dokładność: modele mogą się mylić przy interpretacji odręcznego tekstu w dokumentach PDF.