Gdy wywołujesz Gemini API z aplikacji za pomocą pakietu Firebase AI Logic SDK, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych, takich jak obrazy, filmy, dźwięk i dokumenty (np. pliki PDF).
Musisz używać obsługiwanych typów plików, określić obsługiwany typ MIME i upewnić się, że Twoje pliki i żądania multimodalne spełniają wymagania i są zgodne ze sprawdzonymi metodami.
Ta strona dotyczy korzystania z GenerativeModel i opisuje te kwestie:
szczegóły dotyczące obsługiwanych typów MIME, sprawdzonych metod i ograniczeń w przypadku tych danych wejściowych:
obrazy | filmy | dźwięk | dokumenty (np. pliki PDF).
Opcje podawania plików w żądaniach multimodalnych
|
Wybierz dostawcę interfejsu Gemini API, aby wyświetlić na tej stronie treści dotyczące konkretnego dostawcy |
W każdym żądaniu multimodalnym musisz zawsze podać te informacje:
mimeTypepliku. Obsługiwane typy MIME każdego pliku wejściowego znajdziesz w odpowiedniej sekcji na tej stronie.Plik. Możesz albo podać plik jako dane wbudowane lub podać plik używając jego adresu URL.
Rozmiar i liczba plików, które możesz podać w żądaniu, zależą od typu pliku wejściowego, sposobu jego podania i używanego modelu (szczegóły znajdziesz w sekcji dotyczącej każdego typu pliku wejściowego na tej stronie).
Opcja 1: podaj plik jako dane wbudowane
Pamiętaj o tych kwestiach dotyczących plików podawanych jako dane wbudowane:
Jako dane wbudowane można wysyłać tylko małe pliki, ponieważ łączny limit rozmiaru żądania wynosi 20 MB.
Plik jest kodowany do formatu base64 podczas przesyłania (co zwiększa jego rozmiar).
Przykład pokazujący, jak dołączyć plik jako dane wbudowane, znajdziesz w artykule Generowanie tekstu na podstawie danych wejściowych tekstowych i plikowych (multimodalnych). Pamiętaj, że pakiety SDK na platformy Android i Apple mogą obsługiwać obrazy wbudowane w żądania bez konieczności określania typu MIME. Więcej informacji
Opcja 2: podaj plik za pomocą adresu URL
Oto akceptowane typy adresów URL, gdy używasz Gemini Developer API:
Adres URL filmu na YouTube: film na YouTube musi być publiczny lub niepubliczny.
W jednym żądaniu możesz podać 1 adres URL filmu na YouTube.
Obrazy: wymagania, sprawdzone metody i ograniczenia
Obrazy: wymagania
W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących obrazów w żądaniu.
Obsługiwane typy MIME
Gemini modele multimodalne obsługują te typy MIME obrazów:
- PNG –
image/png - JPEG –
image/jpeg - WebP –
image/webp
Limity dotyczące żądania
Nie ma konkretnego limitu liczby pikseli w obrazie. Większe obrazy są jednak skalowane i uzupełniane, aby pasowały do maksymalnej rozdzielczości 3072 x 3072, przy zachowaniu oryginalnych proporcji.
Maksymalna liczba plików w żądaniu: 3000 plików graficznych
Obrazy: tokenizacja
Oto jak obliczane są tokeny w przypadku obrazów:
- Jeśli oba wymiary obrazu są mniejsze lub równe 384 pikselom, używane są 258 tokeny.
- Jeśli jeden z wymiarów obrazu jest większy niż 384 piksele, obraz jest przycinany do kafelków. Domyślny rozmiar każdego kafelka to najmniejszy wymiar (szerokość lub wysokość) podzielony przez 1,5. W razie potrzeby każdy kafelek jest dostosowywany tak, aby nie był mniejszy niż 256 pikseli i nie większy niż 768 pikseli. Każdy kafelek jest następnie zmieniany do rozmiaru 768 x 768 i używa 258 tokenów.
Grafika: sprawdzone metody
Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje dotyczące obrazów:
- Jeśli chcesz wykryć tekst na obrazie, używaj promptów z jednym obrazem, aby uzyskać lepsze wyniki niż w przypadku promptów z wieloma obrazami.
- Jeśli prompt zawiera jeden obraz, umieść go przed promptem tekstowym w żądaniu.
- Jeśli prompt zawiera kilka obrazów i chcesz się do nich odwołać
w prompcie lub chcesz, aby model odwoływał się do nich w odpowiedzi,
możesz przed każdym obrazem podać jego indeks. Użyj
lubabc dla swojego indeksu. Oto przykład użycia indeksowanych obrazów w a prompcie:image 1image 2image 3image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Używaj obrazów o wyższej rozdzielczości, aby uzyskać lepsze wyniki.
- W prompcie podaj kilka przykładów.
- Przed dodaniem obrazów do prompta obróć je do właściwej orientacji.
- Unikaj zamazanych obrazów.
Obrazy: ograniczenia
Modele multimodalne Gemini są skuteczne w wielu zastosowaniach multimodalnych , ale ważne jest, aby znać ich ograniczenia:
- Moderowanie treści: modele odmawiają udzielania odpowiedzi na obrazy, które naruszają nasze zasady bezpieczeństwa.
- Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów na obrazach. Mogą zwracać tylko przybliżone liczby obiektów.
- Zastosowania medyczne: modele nie nadają się do interpretowania obrazów medycznych (np. zdjęć rentgenowskich i tomografii komputerowej) ani do udzielania porad medycznych.
- Rozpoznawanie osób: modele nie są przeznaczone do identyfikowania osób, które nie są celebrytami na obrazach.
- Dokładność: modele mogą halucynować lub popełniać błędy podczas interpretowania obrazów niskiej jakości, obróconych lub o bardzo niskiej rozdzielczości. Modele mogą też halucynować podczas interpretowania odręcznego tekstu w dokumentach graficznych.
Filmy: wymagania, sprawdzone metody i ograniczenia
Filmy: wymagania
W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących filmów w żądaniu.
Obsługiwane typy MIME
Gemini modele multimodalne obsługują te typy MIME filmów:
- FLV –
video/x-flv - MOV –
video/quicktime - MPEG –
video/mpeg - MPEGPS –
video/mpegps - MPG –
video/mpg - MP4 –
video/mp4 - WEBM –
video/webm - WMV –
video/wmv - 3GPP –
video/3gpp
Limity dotyczące żądania
Maksymalna liczba plików w żądaniu: 10 plików wideo
Filmy: tokenizacja
Oto jak obliczane są tokeny w przypadku filmów:
-
Ścieżka dźwiękowa jest kodowana za pomocą klatek wideo. Ścieżka dźwiękowa jest też
dzielona na
1-sekundowe fragmenty , z których każdy odpowiada 32 tokenom. Tokeny klatek wideo i dźwięku są przeplatane ze znacznikami czasowymi. Znaczniki czasowe są reprezentowane przez 5 tokenów. -
W przypadku filmów, które są próbkowane z częstotliwością
1 klatki na sekundę lub mniejszą, znaczniki czasowe pierwszej godziny filmu są reprezentowane przez 5 tokenów na klatkę wideo. Pozostałe znaczniki czasowe są reprezentowane przez 7 tokenów na klatkę wideo. -
W przypadku filmów, które są próbkowane z częstotliwością większą niż
1 klatka na sekundę , znaczniki czasowe pierwszej godziny filmu są reprezentowane przez 9 tokenów na klatkę wideo. Pozostałe znaczniki czasowe są reprezentowane przez 11 tokenów na klatkę wideo.
Filmy: sprawdzone metody
Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje dotyczące filmów:
- Jeśli prompt zawiera jeden film, umieść go przed promptem tekstowym prompt.
- Jeśli potrzebujesz lokalizacji znaczników czasowych w filmie z dźwiękiem, poproś model o wygenerowanie znaczników czasowych w formacie opisanym w sekcji „Format znacznika czasowego” .
Filmy: ograniczenia
Modele multimodalne Gemini są skuteczne w wielu zastosowaniach multimodalnych , ale ważne jest, aby znać ich ograniczenia:
- Moderowanie treści: modele odmawiają udzielania odpowiedzi na filmy, które naruszają nasze zasady bezpieczeństwa.
- Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
Dźwięk: wymagania i ograniczenia
Dźwięk: wymagania
W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących dźwięku w żądaniu.
Obsługiwane typy MIME
Gemini modele multimodalne obsługują te typy MIME dźwięku:
- AAC –
audio/aac - FLAC –
audio/flac - MP3 –
audio/mp3 - MPA –
audio/m4a - MPEG –
audio/mpeg - MPGA –
audio/mpga - MP4 –
audio/mp4 - OPUS –
audio/opus - PCM –
audio/pcm - WAV –
audio/wav - WEBM –
audio/webm
Limity dotyczące żądania
Maksymalna liczba plików w żądaniu: 1 plik audio
Dźwięk: ograniczenia
Modele multimodalne Gemini są skuteczne w wielu zastosowaniach multimodalnych , ale ważne jest, aby znać ich ograniczenia:
- Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
- Znaczniki czasowe tylko dla dźwięku: aby dokładnie generować
znaczniki czasowe dla plików tylko z dźwiękiem, musisz skonfigurować parametr
audio_timestampwgeneration_config.
Dokumenty (np. pliki PDF): wymagania, sprawdzone metody i ograniczenia
Dokumenty: wymagania
W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących dokumentów (np. plików PDF) w żądaniu.
Obsługiwane typy MIME
Gemini modele multimodalne obsługują te typy MIME dokumentów:
- PDF –
application/pdf - Tekst –
text/plain
Limity dotyczące żądania
Pliki PDF są traktowane jako obrazy, więc pojedyncza strona pliku PDF jest traktowana jako 1 obraz. Liczba stron dozwolonych w prompcie jest ograniczona do liczby obrazów, które mogą obsługiwać modele Gemini multimodalne.
- Maksymalna liczba plików w żądaniu: 3000 plików
- Maksymalna liczba stron w pliku: 1000 stron w pliku
- Maksymalny rozmiar pliku: 50 MB na plik
Dokumenty: tokenizacja
Tokenizacja plików PDF
Pliki PDF są traktowane jako obrazy, więc każda strona pliku PDF jest tokenizowana w taki sam sposób jak obraz.
Koszt plików PDF jest też zgodny z Gemini cennikiem obrazów. Jeśli na przykład w wywołaniu Gemini interfejsu API uwzględnisz 2-stronicowy plik PDF, poniesiesz opłatę za przetwarzanie 2 obrazów.
Dokumenty: sprawdzone metody
Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje dotyczące plików PDF:
- Jeśli prompt zawiera jeden plik PDF, umieść go przed promptem tekstowym w żądaniu.
- Jeśli masz długi dokument, rozważ podzielenie go na kilka plików PDF aby go przetworzyć.
- Używaj plików PDF utworzonych z tekstu renderowanego jako tekst, a nie tekstu w zeskanowanych obrazach. Ten format zapewnia, że tekst jest czytelny dla maszyn, dzięki czemu model może go łatwiej edytować, przeszukiwać i manipulować nim w porównaniu z zeskanowanymi plikami PDF. Ta metoda zapewnia optymalne wyniki podczas pracy z dokumentami zawierającymi dużo tekstu, takimi jak umowy.
Dokumenty: ograniczenia
Modele multimodalne Gemini są skuteczne w wielu zastosowaniach multimodalnych , ale ważne jest, aby znać ich ograniczenia:
- Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów w plikach PDF. Mogą zwracać tylko przybliżone liczby obiektów.
- Dokładność: modele mogą halucynować podczas interpretowania odręcznego tekstu w dokumentach PDF.