File input yang didukung dan persyaratan untuk Vertex AI Gemini API

Saat memanggil Vertex AI Gemini API dari aplikasi Anda menggunakan Vertex AI for Firebase SDK, Anda dapat memerintahkan model Gemini untuk menghasilkan teks berdasarkan input multimodal. Perintah multimodal dapat mencakup beberapa modalitas (atau jenis input), seperti teks beserta gambar, PDF, video, dan audio.

Untuk bagian non-teks pada input (seperti file media), Anda harus menggunakan jenis file yang didukung, menentukan jenis MIME yang didukung, dan memastikan file serta permintaan multimodal Anda memenuhi persyaratan dan mengikuti praktik terbaik.

  • File input yang didukung bervariasi menurut model dan dapat menyertakan gambar, PDF, video, dan audio.

    • Perlu diperhatikan bahwa input video yang didukung juga bervariasi menurut model dan dapat menyertakan frame saja atau frame dengan audio.
  • Persyaratan dan praktik terbaik untuk file input dan permintaan multimodal:

    • Dalam Mempelajari model Gemini, Anda dapat menemukan ringkasan cepat persyaratan untuk file yang didukung berdasarkan model (misalnya, jumlah file maksimum dan ukuran file maksimum).

    • Dalam dokumentasi Google Cloud, Anda dapat mempelajari informasi mendetail tentang persyaratan dan praktik terbaik untuk file input dan permintaan multimodal (misalnya, jenis MIME yang didukung, dan kapan harus menyediakan file input dalam permintaan).

Persyaratan khusus untuk Vertex AI for Firebase SDK

Untuk Vertex AI for Firebase SDK, ukuran permintaan maksimum adalah 20 MB. Anda akan mendapatkan error HTTP 413 jika permintaan terlalu besar.