Saat memanggil Vertex AI Gemini API dari aplikasi Anda menggunakan Vertex AI for Firebase SDK, Anda dapat memerintahkan model Gemini untuk menghasilkan teks berdasarkan input multimodal. Perintah multimodal dapat mencakup beberapa modalitas (atau jenis input), seperti teks beserta gambar, PDF, video, dan audio.
Untuk bagian non-teks pada input (seperti file media), Anda harus menggunakan jenis file yang didukung, menentukan jenis MIME yang didukung, dan memastikan file serta permintaan multimodal Anda memenuhi persyaratan dan mengikuti praktik terbaik.
File input yang didukung bervariasi menurut model dan dapat menyertakan gambar, PDF, video, dan audio.
- Perlu diperhatikan bahwa input video yang didukung juga bervariasi menurut model dan dapat menyertakan frame saja atau frame dengan audio.
Persyaratan dan praktik terbaik untuk file input dan permintaan multimodal:
Dalam Mempelajari model Gemini, Anda dapat menemukan ringkasan cepat persyaratan untuk file yang didukung berdasarkan model (misalnya, jumlah file maksimum dan ukuran file maksimum).
Dalam dokumentasi Google Cloud, Anda dapat mempelajari informasi mendetail tentang persyaratan dan praktik terbaik untuk file input dan permintaan multimodal (misalnya, jenis MIME yang didukung, dan kapan harus menyediakan file input dalam permintaan).
Persyaratan khusus untuk Vertex AI for Firebase SDK
Untuk Vertex AI for Firebase SDK, ukuran permintaan maksimum adalah 20 MB. Anda akan mendapatkan error HTTP 413 jika permintaan terlalu besar.
Jika ukuran file akan membuat total ukuran permintaan melebihi 20 MB, gunakan URL Cloud Storage for Firebase untuk menyertakan file dalam permintaan multimodal.
Jika file berukuran kecil, Anda sering kali dapat meneruskannya langsung sebagai data inline. Namun, perhatikan bahwa file yang disediakan sebagai data inline dienkode ke base64 selama pengiriman, yang akan meningkatkan ukuran permintaan. Untuk contoh yang menunjukkan cara menyertakan file sebagai data inline, lihat Membuat teks dari perintah multimodal menggunakan Gemini API.