Gdy wywołujesz Gemini API z aplikacji za pomocą pakietu Firebase AI Logic SDK, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych, takich jak obrazy, filmy, dźwięk i dokumenty (np. pliki PDF).
Musisz używać obsługiwanych typów plików, określić obsługiwany typ MIME i upewnić się, że Twoje pliki i żądania multimodalne spełniają wymagania i są zgodne ze sprawdzonymi metodami.
Ta strona dotyczy korzystania z GenerativeModel i opisuje te kwestie:
Szczegóły dotyczące obsługiwanych typów MIME, sprawdzonych metod i ograniczeń w przypadku tych danych wejściowych:
Obrazy | Filmy | Dźwięk | Dokumenty (np. pliki PDF).
Opcje podawania plików w żądaniach multimodalnych
|
Wybierz dostawcę interfejsu Gemini API, aby wyświetlić na tej stronie treści dotyczące konkretnego dostawcy |
W każdym żądaniu multimodalnym musisz zawsze podać te informacje:
mimeTypepliku. Obsługiwane typy MIME każdego pliku wejściowego znajdziesz w odpowiedniej sekcji na tej stronie.Plik. Możesz albo podać plik jako dane wbudowane lub podać plik używając jego adresu URL.
Rozmiar i liczba plików, które możesz podać w żądaniu, zależą od typu pliku wejściowego, sposobu podania pliku i używanego modelu (szczegóły znajdziesz w sekcji dotyczącej każdego typu pliku wejściowego na tej stronie).
Opcja 1: podaj plik jako dane wbudowane
Pamiętaj o tych kwestiach dotyczących plików podawanych jako dane wbudowane:
Jako dane wbudowane można wysyłać tylko małe pliki, ponieważ łączny limit rozmiaru żądania wynosi 20 MB.
Plik jest kodowany do formatu base64 w trakcie przesyłania (co zwiększa jego rozmiar).
Przykład pokazujący, jak dołączyć plik jako dane wbudowane, znajdziesz w artykule Generowanie tekstu na podstawie danych wejściowych tekstowych i plikowych (multimodalnych). Pamiętaj, że pakiety SDK na platformy Android i Apple mogą obsługiwać obrazy wbudowane w żądania bez konieczności określania typu MIME. Więcej informacji
Opcja 2: podaj plik za pomocą adresu URL
Oto akceptowane typy adresów URL, gdy używasz Gemini Developer API:
Adres URL filmu na YouTube: film na YouTube musi być publiczny lub niepubliczny.
W jednym żądaniu możesz podać 1 adres URL filmu na YouTube.
Obrazy: wymagania, sprawdzone metody i ograniczenia
Obrazy: wymagania
W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących obrazów w żądaniu.
Obsługiwane typy MIME
Gemini modele multimodalne obsługują te typy MIME obrazów:
- PNG –
image/png - JPEG –
image/jpeg - WebP –
image/webp
Limity dotyczące żądania
Nie ma konkretnego limitu liczby pikseli w obrazie. Większe obrazy są jednak zmniejszane i uzupełniane, aby pasowały do maksymalnej rozdzielczości 3072 x 3072, przy zachowaniu oryginalnych proporcji.
Maksymalna liczba plików w żądaniu: 3000 plików graficznych
Obrazy: tokenizacja
Oto jak obliczane są tokeny w przypadku obrazów:
- Jeśli oba wymiary obrazu są mniejsze lub równe 384 pikselom, używane są 258 tokeny.
- Jeśli jeden z wymiarów obrazu jest większy niż 384 piksele, obraz jest przycinany do kafelków. Domyślny rozmiar każdego kafelka to najmniejszy wymiar (szerokość lub wysokość) podzielony przez 1,5. W razie potrzeby każdy kafelek jest dostosowywany tak, aby nie był mniejszy niż 256 pikseli i nie większy niż 768 pikseli. Każdy kafelek jest następnie zmieniany do rozmiaru 768 x 768 i używa 258 tokenów.
Grafika: sprawdzone metody
Aby uzyskać najlepsze wyniki, korzystając z obrazów, stosuj te sprawdzone metody i informacje:
- Jeśli chcesz wykryć tekst na obrazie, używaj promptów z jednym obrazem, aby uzyskać lepsze wyniki niż w przypadku promptów z wieloma obrazami.
- Jeśli prompt zawiera jeden obraz, umieść go przed promptem tekstowym w żądaniu.
- Jeśli prompt zawiera kilka obrazów i chcesz się do nich odwołać
później w prompcie lub chcesz, aby model odwoływał się do nich w odpowiedzi,
warto dodać przed każdym obrazem indeks. Użyj
lubabc dla swojego indeksu. Oto przykład użycia indeksowanych obrazów w a prompcie:image 1image 2image 3image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Używaj obrazów o wyższej rozdzielczości, ponieważ dają lepsze wyniki.
- W prompcie podaj kilka przykładów.
- Przed dodaniem obrazów do prompta obróć je do właściwej orientacji.
- Unikaj rozmytych obrazów.
Obrazy: ograniczenia
Modele multimodalne Gemini są skuteczne w wielu zastosowaniach multimodalnych , ale ważne jest, aby znać ich ograniczenia:
- Moderowanie treści: modele odmawiają udzielania odpowiedzi na obrazy, które naruszają nasze zasady bezpieczeństwa.
- Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów na obrazach. Mogą zwracać tylko przybliżone liczby obiektów.
- Zastosowania medyczne: modele nie nadają się do interpretowania obrazów medycznych (np. zdjęć rentgenowskich i tomografii komputerowej) ani do udzielania porad medycznych.
- Rozpoznawanie osób: modele nie są przeznaczone do identyfikowania osób, które nie są celebrytami na obrazach.
- Dokładność: modele mogą halucynować lub popełniać błędy podczas interpretowania obrazów niskiej jakości, obróconych lub o bardzo niskiej rozdzielczości. Modele mogą też halucynować podczas interpretowania odręcznego tekstu w dokumentach graficznych.
Filmy: wymagania, sprawdzone metody i ograniczenia
Filmy: wymagania
W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących filmów w żądaniu.
Obsługiwane typy MIME
Gemini modele multimodalne obsługują te typy MIME filmów:
- FLV –
video/x-flv - MOV –
video/quicktime - MPEG –
video/mpeg - MPEGPS –
video/mpegps - MPG –
video/mpg - MP4 –
video/mp4 - WEBM –
video/webm - WMV –
video/wmv - 3GPP –
video/3gpp
Limity dotyczące żądania
Maksymalna liczba plików w żądaniu: 10 plików wideo
Filmy: tokenizacja
Oto jak obliczane są tokeny w przypadku filmów:
-
Ścieżka dźwiękowa jest kodowana za pomocą klatek wideo. Ścieżka dźwiękowa jest też
dzielona na
1-sekundowe fragmenty , z których każdy odpowiada 32 tokenom. Tokeny klatek wideo i dźwięku są przeplatane z sygnaturami czasowymi. Sygnatury czasowe są reprezentowane jako 5 tokenów. -
W przypadku filmów, które są próbkowane z częstotliwością
1 klatki na sekundę (kl./s) lub mniejszą, sygnatury czasowe pierwszej godziny filmu są reprezentowane jako 5 tokenów na klatkę wideo. Pozostałe sygnatury czasowe są reprezentowane jako 7 tokenów na klatkę wideo. -
W przypadku filmów, które są próbkowane z częstotliwością większą niż
1 klatka na sekundę , sygnatury czasowe pierwszej godziny filmu są reprezentowane jako 9 tokenów na klatkę wideo. Pozostałe sygnatury czasowe są reprezentowane jako 11 tokenów na klatkę wideo.
Filmy: sprawdzone metody
Aby uzyskać najlepsze wyniki, korzystając z filmów, stosuj te sprawdzone metody i informacje:
- Jeśli prompt zawiera jeden film, umieść go przed promptem tekstowym prompt.
- Jeśli potrzebujesz lokalizacji sygnatur czasowych w filmie z dźwiękiem, poproś model o wygenerowanie sygnatur czasowych w formacie opisanym w sekcji „Format sygnatury czasowej” .
Filmy: ograniczenia
Modele multimodalne Gemini są skuteczne w wielu zastosowaniach multimodalnych , ale ważne jest, aby znać ich ograniczenia:
- Moderowanie treści: modele odmawiają udzielania odpowiedzi na filmy, które naruszają nasze zasady bezpieczeństwa.
- Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
Dźwięk: wymagania i ograniczenia
Dźwięk: wymagania
W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących dźwięku w żądaniu.
Obsługiwane typy MIME
Gemini modele multimodalne obsługują te typy MIME dźwięku:
- AAC –
audio/aac - FLAC –
audio/flac - MP3 –
audio/mp3 - MPA –
audio/m4a - MPEG –
audio/mpeg - MPGA –
audio/mpga - MP4 –
audio/mp4 - OPUS –
audio/opus - PCM –
audio/pcm - WAV –
audio/wav - WEBM –
audio/webm
Limity dotyczące żądania
Maksymalna liczba plików w żądaniu: 1 plik audio
Dźwięk: ograniczenia
Modele multimodalne Gemini są skuteczne w wielu zastosowaniach multimodalnych , ale ważne jest, aby znać ich ograniczenia:
- Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
- Sygnatury czasowe tylko dla dźwięku: aby dokładnie generować
sygnatury czasowe dla plików zawierających tylko dźwięk, musisz skonfigurować parametr
audio_timestampwgeneration_config.
Dokumenty (np. pliki PDF): wymagania, sprawdzone metody i ograniczenia
Dokumenty: wymagania
W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących dokumentów (np. plików PDF) w żądaniu.
Obsługiwane typy MIME
Gemini modele multimodalne obsługują te typy MIME dokumentów:
- PDF –
application/pdf - Tekst –
text/plain
Limity dotyczące żądania
Pliki PDF są traktowane jako obrazy, więc pojedyncza strona pliku PDF jest traktowana jako 1 obraz. Liczba stron dozwolonych w prompcie jest ograniczona do liczby obrazów, które mogą obsługiwać modele Gemini multimodalne.
- Maksymalna liczba plików w żądaniu: 3000 plików
- Maksymalna liczba stron w pliku: 1000 stron na plik
- Maksymalny rozmiar pliku: 50 MB na plik
Dokumenty: tokenizacja
Tokenizacja plików PDF
Pliki PDF są traktowane jako obrazy, więc każda strona pliku PDF jest tokenizowana w taki sam sposób jak obraz.
Koszt plików PDF jest też zgodny z Gemini cennikiem obrazów. Jeśli na przykład dołączysz 2-stronicowy plik PDF do wywołania Gemini API, poniesiesz opłatę za przetwarzanie 2 obrazów.
Dokumenty: sprawdzone metody
Aby uzyskać najlepsze wyniki, korzystając z plików PDF, stosuj te sprawdzone metody i informacje:
- Jeśli prompt zawiera jeden plik PDF, umieść go przed promptem tekstowym w żądaniu.
- Jeśli masz długi dokument, rozważ podzielenie go na kilka plików PDF aby go przetworzyć.
- Używaj plików PDF utworzonych z tekstu renderowanego jako tekst, a nie tekstu w zeskanowanych obrazach. Ten format zapewnia, że tekst jest czytelny dla maszyn, dzięki czemu model może go łatwiej edytować, przeszukiwać i manipulować nim w porównaniu z zeskanowanymi obrazami PDF. Ta metoda zapewnia optymalne wyniki podczas pracy z dokumentami zawierającymi dużo tekstu, takimi jak umowy.
Dokumenty: ograniczenia
Modele multimodalne Gemini są skuteczne w wielu zastosowaniach multimodalnych , ale ważne jest, aby znać ich ograniczenia:
- Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów w plikach PDF. Mogą zwracać tylko przybliżone liczby obiektów.
- Dokładność: modele mogą halucynować podczas interpretowania odręcznego tekstu w dokumentach PDF.