Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

Gemini 2.0 Flash and Flash-Lite models will be retired on March 3, 2026. To avoid service disruption, update to a newer model like gemini-2.5-flash-lite. Learn more.

Persyaratan dan file input yang didukung

Saat memanggil Gemini API dari aplikasi menggunakan SDK Firebase AI Logic, Anda dapat meminta model Gemini untuk membuat teks berdasarkan input multimodal, seperti gambar, video, dan audio, serta dokumen (seperti PDF).

Anda harus menggunakan jenis file yang didukung, menentukan jenis MIME yang didukung, dan memastikan bahwa file dan permintaan multimodal Anda memenuhi persyaratan dan mengikuti praktik terbaik.

Halaman ini khusus untuk penggunaan GenerativeModel dan menjelaskan hal berikut:

Opsi untuk memberikan file dalam permintaan Anda.
Detail tentang jenis MIME yang didukung, praktik terbaik, dan batasan untuk input file berikut:
Gambar | Video | Audio | Dokumen (seperti PDF).

Opsi untuk menyediakan file dalam permintaan multimodal

Pilih penyedia Gemini API Anda untuk melihat konten khusus penyedia di halaman ini

Dalam setiap permintaan multimodal, Anda harus selalu memberikan hal berikut:

mimeType file. Lihat jenis MIME yang didukung setiap file input di bagian yang berlaku di halaman ini.
File. Anda dapat memberikan file sebagai data inline atau memberikan file menggunakan URL-nya.

Ukuran dan jumlah file yang dapat Anda berikan dalam permintaan ditentukan oleh jenis file input, cara Anda memberikan file, dan model yang digunakan (untuk mengetahui detailnya, lihat bagian setiap jenis file input di halaman ini).

Opsi 1: Menyediakan file sebagai data inline

Perhatikan hal-hal berikut tentang file yang diberikan sebagai data inline:

Hanya file kecil yang dapat dikirim sebagai data inline karena batas ukuran total permintaan adalah 20 MB.
File dienkode ke base64 saat dalam transit (yang meningkatkan ukuran file).

Untuk contoh yang menunjukkan cara menyertakan file sebagai data inline, lihat Membuat teks dari input teks dan file (multimodal). Perhatikan bahwa SDK untuk platform Android dan Apple dapat menangani gambar sebaris dalam permintaan tanpa perlu menentukan jenis MIME. Pelajari lebih lanjut.

Opsi 2: Berikan file menggunakan URL

Berikut adalah jenis URL yang dapat diterima saat menggunakan Gemini Developer API:

URL video YouTube: Video YouTube harus bersifat publik atau tidak publik.

Anda dapat menentukan satu URL video YouTube per permintaan.

Gambar: Persyaratan, praktik terbaik, dan batasan

Gambar: Persyaratan

Di bagian ini, pelajari jenis MIME yang didukung dan batas per permintaan untuk gambar.

Jenis MIME yang didukung

Model multimodal Gemini mendukung jenis MIME gambar berikut:

PNG - image/png
JPEG - image/jpeg
WebP - image/webp

Batas per permintaan

Tidak ada batasan khusus untuk jumlah piksel dalam gambar. Namun, gambar yang lebih besar akan diperkecil dan diberi padding agar sesuai dengan resolusi maksimum 3072 x 3072 sambil mempertahankan rasio aspek aslinya.

File maksimum per permintaan: 3.000 file gambar

Gambar: Tokenisasi

Berikut cara penghitungan token untuk gambar:

Jika kedua dimensi gambar kurang dari atau sama dengan 384 piksel, maka 258 token akan digunakan.
Jika salah satu dimensi gambar lebih besar dari 384 piksel, maka gambar akan dipangkas menjadi petak. Setiap ukuran petak secara default adalah dimensi terkecil (lebar atau tinggi) dibagi dengan 1,5. Jika perlu, setiap petak disesuaikan agar tidak lebih kecil dari 256 piksel dan tidak lebih besar dari 768 piksel. Setiap petak kemudian diubah ukurannya menjadi 768x768 dan menggunakan 258 token.

Gambar: Praktik terbaik

Saat menggunakan gambar, gunakan praktik terbaik dan informasi berikut untuk mendapatkan hasil terbaik:

Jika Anda ingin mendeteksi teks dalam gambar, gunakan perintah dengan satu gambar untuk menghasilkan hasil yang lebih baik daripada perintah dengan beberapa gambar.
Jika perintah Anda berisi satu gambar, tempatkan gambar sebelum perintah teks dalam permintaan Anda.
Jika prompt Anda berisi beberapa gambar, dan Anda ingin merujuknya nanti dalam prompt atau meminta model merujuknya dalam respons model, sebaiknya beri setiap gambar indeks sebelum gambar. Gunakan a b c atau image 1 image 2 image 3 untuk indeks Anda. Berikut adalah contoh penggunaan gambar berindeks dalam prompt:
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
Gunakan gambar dengan resolusi yang lebih tinggi; gambar ini akan memberikan hasil yang lebih baik.
Sertakan beberapa contoh dalam perintah.
Putar gambar ke orientasi yang tepat sebelum menambahkannya ke perintah.
Hindari gambar yang buram.

Gambar: Batasan

Meskipun model multimodal Gemini sangat efektif dalam banyak kasus penggunaan multimodal, penting untuk memahami batasan model tersebut:

Moderasi konten: Model menolak memberikan jawaban pada gambar yang melanggar kebijakan keamanan kami.
Penalaran spasial: Model tidak akurat dalam menemukan teks atau objek dalam gambar. Objek tersebut hanya dapat menampilkan perkiraan jumlah objek.
Penggunaan medis: Model ini tidak cocok untuk menafsirkan gambar medis (misalnya, sinar-X dan CT scan) atau memberikan saran medis.
Pengenalan orang: Model tidak dimaksudkan untuk digunakan mengidentifikasi orang yang bukan selebritas dalam gambar.
Akurasi: Model mungkin berhalusinasi atau membuat kesalahan saat menafsirkan gambar berkualitas rendah, diputar, atau beresolusi sangat rendah. Model juga dapat berhalusinasi saat menafsirkan teks tulisan tangan dalam dokumen gambar.

Video: Persyaratan, praktik terbaik, dan batasan

Video: Persyaratan

Di bagian ini, pelajari jenis MIME yang didukung dan batas per permintaan untuk video.

Jenis MIME yang didukung

Model multimodal Gemini mendukung jenis MIME video berikut:

FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

Batas per permintaan

File maksimum per permintaan: 10 file video

Video: Tokenisasi

Berikut cara penghitungan token untuk video:

Trek audio dienkode dengan frame video. Trek audio juga dipecah menjadi potongan 1 detik yang masing-masing terdiri dari 32 token. Frame video dan token audio disisipkan bersama dengan stempel waktunya. Stempel waktu direpresentasikan sebagai 5 token.
Untuk video yang diambil sampelnya pada atau di bawah 1 frame per detik (fps), stempel waktu untuk satu jam pertama video ditampilkan sebagai 5 token per frame video. Stempel waktu yang tersisa direpresentasikan sebagai 7 token per frame video.
Untuk video yang diambil sampelnya di atas 1 frame per detik (fps), stempel waktu untuk satu jam pertama video ditampilkan sebagai 9 token per frame video. Stempel waktu yang tersisa direpresentasikan sebagai 11 token per frame video.

Video: Praktik terbaik

Saat menggunakan video, gunakan praktik terbaik dan informasi berikut untuk mendapatkan hasil terbaik:

Jika perintah Anda berisi satu video, tempatkan video sebelum perintah teks.
Jika Anda memerlukan pelokalan stempel waktu dalam video dengan audio, minta model untuk membuat stempel waktu yang mengikuti format seperti yang dijelaskan dalam "Format stempel waktu".

Video: Batasan

Meskipun model multimodal Gemini sangat efektif dalam banyak kasus penggunaan multimodal, penting untuk memahami batasan model tersebut:

Moderasi konten: Model menolak memberikan jawaban pada video yang melanggar kebijakan keamanan kami.
Pengenalan suara non-ucapan: Model yang mendukung audio mungkin keliru mengenali suara yang bukan ucapan.

Audio: Persyaratan dan batasan

Audio: Persyaratan

Di bagian ini, pelajari jenis MIME yang didukung dan batas per permintaan untuk audio.

Jenis MIME yang didukung

Model multimodal Gemini mendukung jenis MIME audio berikut:

AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

Batas per permintaan

File maksimum per permintaan: 1 file audio

Audio: Batasan

Meskipun model multimodal Gemini sangat efektif dalam banyak kasus penggunaan multimodal, penting untuk memahami batasan model tersebut:

Pengenalan suara non-ucapan: Model yang mendukung audio mungkin keliru mengenali suara yang bukan ucapan.
Stempel waktu khusus audio: Untuk secara akurat membuat stempel waktu untuk file khusus audio, Anda harus mengonfigurasi parameter audio_timestamp di generation_config.

Dokumen (seperti PDF): Persyaratan, praktik terbaik, dan batasan

Dokumen: Persyaratan

Di bagian ini, pelajari jenis MIME yang didukung dan batas per permintaan untuk dokumen (seperti PDF).

Jenis MIME yang didukung

Model multimodal Gemini mendukung jenis MIME dokumen berikut:

PDF - application/pdf
Teks - text/plain

Batas per permintaan

PDF diperlakukan sebagai gambar, sehingga satu halaman PDF diperlakukan sebagai satu gambar. Jumlah halaman yang diizinkan dalam perintah dibatasi hingga jumlah gambar yang dapat didukung oleh model multimodal Gemini.

File maksimum per permintaan: 3.000 file
Halaman maksimum per file: 1.000 halaman per file
Ukuran maksimum per file: 50 MB per file

Dokumen: Tokenisasi

Tokenisasi PDF

PDF diperlakukan sebagai gambar, sehingga setiap halaman PDF di-tokenisasi dengan cara yang sama seperti gambar.

Selain itu, biaya untuk PDF mengikuti harga gambar Gemini. Misalnya, jika Anda menyertakan PDF dua halaman dalam panggilan API Gemini, Anda akan dikenai biaya input untuk memproses dua gambar.

Dokumen: Praktik terbaik

Saat menggunakan PDF, gunakan praktik terbaik dan informasi berikut untuk mendapatkan hasil terbaik:

Jika perintah Anda berisi satu PDF, tempatkan PDF sebelum perintah teks dalam permintaan Anda.
Jika Anda memiliki dokumen yang panjang, pertimbangkan untuk membaginya menjadi beberapa PDF untuk memprosesnya.
Gunakan PDF yang dibuat dengan teks yang dirender sebagai teks, bukan menggunakan teks dalam gambar yang dipindai. Format ini memastikan teks dapat dibaca oleh mesin sehingga model lebih mudah mengedit, menelusuri, dan memanipulasi teks dibandingkan dengan PDF gambar yang dipindai. Praktik ini memberikan hasil yang optimal saat bekerja dengan dokumen yang berisi banyak teks seperti kontrak.

Dokumen: Batasan

Meskipun model multimodal Gemini sangat efektif dalam banyak kasus penggunaan multimodal, penting untuk memahami batasan model:

Penalaran spasial: Model tidak akurat dalam menemukan teks atau objek dalam PDF. Objek tersebut hanya dapat menampilkan perkiraan jumlah objek.
Akurasi: Model mungkin berhalusinasi saat menafsirkan teks tulisan tangan dalam dokumen PDF.

Persyaratan dan file input yang didukung Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Opsi untuk menyediakan file dalam permintaan multimodal

Opsi 1: Menyediakan file sebagai data inline

Opsi 2: Berikan file menggunakan URL

Gambar: Persyaratan, praktik terbaik, dan batasan

Gambar: Persyaratan

Jenis MIME yang didukung

Batas per permintaan

Gambar: Tokenisasi

Gambar: Praktik terbaik

Gambar: Batasan

Video: Persyaratan, praktik terbaik, dan batasan

Video: Persyaratan

Jenis MIME yang didukung

Batas per permintaan

Video: Tokenisasi

Video: Praktik terbaik

Video: Batasan

Audio: Persyaratan dan batasan

Audio: Persyaratan

Jenis MIME yang didukung

Batas per permintaan

Audio: Batasan

Dokumen (seperti PDF): Persyaratan, praktik terbaik, dan batasan

Dokumen: Persyaratan

Jenis MIME yang didukung

Batas per permintaan

Dokumen: Tokenisasi

Dokumen: Praktik terbaik

Dokumen: Batasan

Persyaratan dan file input yang didukung