Gdy wywołujesz interfejs Vertex AI Gemini API z aplikacji za pomocą pakietu SDK Vertex AI dla Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (lub rodzajów danych wejściowych), np. tekst wraz z obrazami, plikami PDF, wideo i dźwiękowymi.
W przypadku nietekstowych części danych wejściowych (np. plików multimedialnych) musisz użyć obsługiwanych typów plików, wskazać obsługiwany typ MIME i sprawdzić, czy pliki i żądania multimodalne spełniają wymagania i są zgodne ze sprawdzonymi metodami.
Obsługiwane pliki wejściowe różnią się w zależności od modelu i mogą obejmować obrazy, pliki PDF, filmy i dźwięk.
- Pamiętaj, że obsługiwane wejście wideo różni się również w zależności od modelu i może uwzględniać same klatki lub klatki z dźwiękiem.
Wymagania i sprawdzone metody dotyczące plików wejściowych i żądań multimodalnych:
W sekcji Więcej informacji o modelach Gemini znajdziesz krótkie podsumowanie wymagań dotyczących obsługiwanych plików na podstawie modelu (np. maksymalna liczba plików i maksymalny rozmiar pliku).
Dokumentacja Google Cloud zawiera szczegółowe informacje o wymaganiach i sprawdzonych metodach dotyczących plików wejściowych i żądań multimodalnych (np. o obsługiwanych typach MIME oraz o tym, kiedy należy podać w żądaniu plik wejściowy).
Wymagania dotyczące pakietów SDK Vertex AI dla Firebase
Maksymalny rozmiar żądania w przypadku pakietów SDK Vertex AI dla Firebase to 20 MB. Jeśli żądanie jest zbyt duże, pojawia się błąd HTTP 413.
Jeśli rozmiar pliku spowoduje, że łączny rozmiar żądania przekroczy 20 MB, użyj adresu URL Cloud Storage dla Firebase, aby uwzględnić ten plik w żądaniu multimodalnym.
Jeśli plik jest mały, często można go przekazać bezpośrednio jako dane wbudowane. Pamiętaj jednak, że plik udostępniany jako dane wbudowane jest podczas przesyłania zakodowany w formacie base64, co zwiększa rozmiar żądania. Przykłady pokazujące, jak dołączać pliki jako dane wbudowane, znajdziesz w artykule Generowanie tekstu na podstawie promptów multimodalnych przy użyciu interfejsu Gemini API.