Obsługiwane pliki wejściowe i wymagania interfejsu Vertex AI Gemini API

Gdy wywołujesz interfejs Vertex AI Gemini API z poziomu aplikacji za pomocą pakietu SDK Vertex AI dla Firebase, możesz poprosić model Gemini o wygenerowanie tekstu. na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (lub typy danych wejściowych), np. tekst wraz z obrazami, plikami PDF, filmami lub dźwiękami.

W przypadku części danych nietekstowych (np. plików multimedialnych) musisz użyć obsługiwane typy plików, określ obsługiwany typ MIME i upewnij się, spełniają wymagania i są zgodne ze sprawdzonymi metodami.

  • Obsługiwane pliki wejściowe różnią się w zależności od modelu i mogą obejmować obrazy, pliki PDF, filmy audio.

    • Pamiętaj, że obsługiwane wejście wideo różni się w zależności od modelu i może uwzględniać tylko ramki lub klatki z dźwiękiem.
  • Wymagania i sprawdzone metody dotyczące plików wejściowych i żądań multimodalnych:

    • W Dowiedz się więcej o modelach Gemini. znajdziesz krótkie podsumowanie wymagań dotyczących obsługiwanych plików na podstawie w modelu (na przykład maksymalna liczba plików i maksymalny rozmiar plików).

    • Szczegółowe informacje znajdziesz w dokumentacji Google Cloud. o wymagania oraz sprawdzone metody na potrzeby plików wejściowych i żądań multimodalnych (np. obsługiwanych typów MIME) i kiedy należy dostarczyć plik wejściowy do żądania).

Wymagania dotyczące pakietów SDK Vertex AI dla Firebase

W przypadku pakietów SDK Vertex AI dla Firebase maksymalny rozmiar żądania to 20 MB. Jeśli żądanie jest zbyt duże, pojawia się błąd HTTP 413.