Rangkaian model Gemini dianggap sebagai multimodal karena model ini mampu pemrosesan informasi dari berbagai modalitas, termasuk gambar, video, dan teks. Misalnya, Anda dapat mengirim foto sepiring makanan ke model Gemini dan memintanya untuk memberi Anda resep kue tersebut.
Perintah | Respons |
Kasih resep kue ini. |
**BAHAN** - 1 k (2 batang) mentega tanpa garam, dilunakkan - 3/4 c. gula pasir - 3/4 c. gula merah, kemasan - 1 sdt . ekstrak vanila - 2 telur besar - 2 1/4 c. tepung serbaguna - 1 sdt. soda kue - 1 sdt. garam ... |
Anda dapat berinteraksi dengan berbagai model model Gemini menggunakan Gemini API disediakan oleh Vertex AI pada Google Cloud. Untuk aplikasi seluler dan web, Anda dapat menggunakan Vertex AI in Firebase SDK untuk memanggil Gemini API dan berinteraksi dengan Model Gemini langsung dari aplikasi Anda.
Halaman ini memberikan informasi berikut tentang model Gemini:
Perbandingan tingkat tinggi kasus penggunaan berbagai jenis Gemini yang didukung, termasuk jenis inputnya yang didukung.
Perbandingan detail untuk setiap model, misalnya token input maksimum atau durasi maksimum video.
Deskripsi pembuatan versi model Gemini, khususnya versi stabil, diupdate otomatis, dan pratinjau mereka.
Daftar nama model yang tersedia untuk disertakan dalam kode selama inisialisasi.
Daftar bahasa yang didukung untuk model Gemini.
Model yang tersedia
Anda dapat menggunakan salah satu model Gemini berikut dengan Vertex AI in Firebase:
Flash Gemini 1.5
Model multimodal yang mendukung input dan output yang sama tipe sebagai 1.5 Pro, tetapi dengan pemahaman konteks panjang dari 1 juta token. Gemini 1.5 Flash dirancang khusus untuk perangkat bervolume tinggi dan hemat biaya menggunakan berbagai aplikasi obrolan.Gemini 1.5 Pro
Model multimodal yang mendukung penambahan gambar, audio, video, dan file PDF dalam prompt teks atau chat untuk respons teks atau kode. Selain itu, ia mendukung pemahaman konteks panjang dengan 2 juta token.Gemini 1.0 Pro Vision
Model multimodal yang dirancang untuk menangani penambahan teks gambar dan video untuk respons teks atau kode. Tidak bisa digunakan untuk chat.Gemini 1.0 Pro
Model yang dirancang untuk menangani tugas natural language, multiturn mengobrol dengan teks dan kode, serta pembuatan kode.
Langsung ke nama model untuk disertakan dalam kode Anda
Kasus penggunaan dan kemampuan untuk setiap model
Setiap model Gemini memiliki kemampuan yang berbeda untuk mendukung berbagai kasus penggunaan. Anda dapat mempelajari lebih lanjut di dokumentasi Google Cloud tentang setiap Model Gemini.
Input dan output yang didukung untuk setiap model
Flash Gemini 1.5 | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
Jenis input | ||||
Teks | ||||
Kode | ||||
Gambar | ||||
Video (hanya frame) | ||||
Video (frame dan audio) | ||||
Audio | ||||
Jenis output | ||||
Teks | ||||
Kode |
Untuk mempelajari jenis file yang didukung, lihat File input yang didukung dan persyaratan untuk Vertex AI Gemini API.
Kemampuan dan fitur umum yang didukung untuk setiap model
Flash Gemini 1.5 | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
Pembuatan teks dari prompt hanya teks | |||||
Pembuatan teks dari perintah multimodal | |||||
Output JSON (mode skema terbatas) (segera hadir di Vertex AI in Firebase SDK) |
|||||
Chat multi-giliran | |||||
Panggilan fungsi | |||||
Panggilan fungsi dasar | |||||
Panggilan fungsi paralel | |||||
Mode panggilan fungsi | |||||
Menghitung token dan karakter yang dapat ditagih | |||||
Petunjuk sistem |
Informasi mendetail tentang setiap model
Properti | Flash Gemini 1.5 | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
Batas token total (kombinasi input dan output) * | 1.048.576 token | 2.097.152 token | 16.384 token | 32.760 token |
Batas token output * | 8.192 token | 8.192 token | 2.048 token | 8.192 token |
Jumlah maksimum gambar per permintaan | 3.000 gambar | 3.000 gambar | 16 gambar | T/A |
Ukuran gambar berenkode base64 maksimum | 7 MB | 7 MB | 7 MB | T/A |
Ukuran PDF maksimum | 30 MB | 30 MB | 30 MB | T/A |
Jumlah maksimum file video per permintaan | 10 file video | 10 file video | 1 file video | T/A |
Durasi video maksimum (hanya frame) | ~60 menit video | ~60 menit video | 2 menit | T/A |
Durasi video maksimum (frame dan audio) | ~45 menit video | ~45 menit video | T/A | T/A |
Jumlah maksimum file audio per permintaan | 1 file audio | 1 file audio | T/A | T/A |
Durasi audio maksimum | ~8,4 jam audio | ~8,4 jam audio | T/A | T/A |
* Untuk semua model Gemini, token setara dengan sekitar 4 karakter,
jadi 100 token sekitar 60-80 kata bahasa Inggris. Anda dapat menentukan jumlah total
token dalam permintaan Anda menggunakan
countTokens
Di sini Anda dapat menemukan informasi yang lebih mendetail tentang model dan file input:
Pelajari tentang perbedaan antara model multimodal dalam dokumentasi Google Cloud.
Pelajari jenis file yang didukung, cara menentukan jenis MIME, dan cara membuatnya memastikan bahwa file dan permintaan multimodal memenuhi persyaratan dan mengikuti praktik terbaik dalam File input yang didukung dan persyaratan untuk Vertex AI Gemini API.
Pembuatan versi model
Model Gemini ditawarkan dalam mode stabil, diupdate otomatis, dan pratinjau versi.
Versi Stabil dianggap Tersedia Secara Umum.
- Versi stabil memiliki nama model yang ditambahkan dengan
nomor versi tiga digit yang spesifik, misalnya
gemini-1.0-pro-001
- Versi stabil memiliki nama model yang ditambahkan dengan
nomor versi tiga digit yang spesifik, misalnya
Versi diperbarui otomatis selalu mengarah ke versi stabil terbaru model itu; jika versi stabil baru dirilis, versi diperbarui otomatis secara otomatis mulai menunjuk ke versi stabil yang baru.
- Versi yang diupdate otomatis memiliki nama model tanpa
tambahan, misalnya
gemini-1.0-pro
- Versi yang diupdate otomatis memiliki nama model tanpa
tambahan, misalnya
Versi Pratinjau memiliki kemampuan baru dan dianggap tidak stabil. Perhatikan bahwa versi pratinjau selalu mengarah ke versi pratinjau terbaru dari model itu; jika versi pratinjau baru dirilis, semua versi pratinjau yang sudah ada akan otomatis mulai mengarahkan ke versi pratinjau baru tersebut.
- Versi pratinjau memiliki tambahan nama model
bersama dengan rilis awal model tanggal (-preview
), misalnya-MMDD
(dirilis pada 9 April 2024).gemini-1.5-pro-preview-0409
- Versi pratinjau memiliki tambahan nama model
Pelajari kebijakan versi model Gemini yang tersedia beserta siklus prosesnya dalam dokumentasi Google Cloud.
Nama model yang tersedia
Nama model adalah nilai eksplisit yang Anda sertakan dalam kode selama inisialisasi model generatif (yang merupakan langkah wajib untuk memanggil Gemini API). Untuk contoh inisialisasi bahasa Anda, lihat panduan memulai.
Nama model Flash Gemini 1.5
Nama model | Deskripsi | Tahap rilis | Tanggal rilis awal | Tanggal penghentian |
---|---|---|---|---|
Versi stabil | ||||
gemini-1.5-flash-001 |
Versi stabil terbaru Gemini 1.5 Flash | Ketersediaan Umum | 2024-05-24 | Mulai 24-05-2025 |
Versi yang diupdate otomatis | ||||
gemini-1.5-flash |
Mengarah ke versi Flash 1.5 stabil terbaru (saat ini gemini-1.5-flash-001 |
Ketersediaan Umum | 2024-05-24 | --- |
Versi pratinjau | ||||
gemini-1.5-flash-preview-0514 |
Versi pratinjau terbaru Gemini 1.5 Flash | Pratinjau Publik | 2024-05-14 | 2024-06-24 |
Nama model Gemini 1.5 Pro
Nama model | Deskripsi | Tahap rilis | Tanggal rilis awal | Tanggal penghentian |
---|---|---|---|---|
Versi stabil | ||||
gemini-1.5-pro-001 |
Gemini 1.5 Pro versi stabil terbaru | Ketersediaan Umum | 2024-05-24 | Mulai 24-05-2025 |
Versi yang diupdate otomatis | ||||
gemini-1.5-pro |
Mengarah ke versi 1.5 Pro stabil terbaru (saat ini gemini-1.5-pro-001 |
Ketersediaan Umum | 2024-05-24 | --- |
Versi pratinjau | ||||
gemini-1.5-pro-preview-0514 |
Versi pratinjau terbaru Gemini 1.5 Pro | Pratinjau Publik | 2024-05-14 | 2024-06-24 |
gemini-1.5-pro-preview-0409 |
Mengarah ke gemini-1.5-pro-preview-0514 (yang merupakan versi pratinjau terbaru) |
Pratinjau Publik | 2024-04-09 | 2024-06-14 |
Nama model Gemini 1.0 Pro Vision
Nama model | Deskripsi | Tahap rilis | Tanggal rilis awal | Tanggal penghentian |
---|---|---|---|---|
Versi stabil | ||||
gemini-1.0-pro-vision-001 |
Gemini 1.0 Pro Vision versi stabil terbaru | Ketersediaan Umum | 2024-02-15 | Mulai 15-02-2025 |
Versi yang diupdate otomatis | ||||
gemini-1.0-pro-vision |
Mengarah ke versi stabil terbaru dari 1.5 Pro Vision (saat ini gemini-1.5-pro-vision-001 |
Ketersediaan Umum | 2024-01-04 | --- |
Nama model Gemini 1.0 Pro
Nama model | Deskripsi | Tahap rilis | Tanggal rilis awal | Tanggal penghentian |
---|---|---|---|---|
Versi stabil | ||||
gemini-1.0-pro-002 |
Gemini 1.0 Pro versi stabil terbaru | Ketersediaan Umum | 2024-04-09 | Mulai 09-04-2025 |
gemini-1.0-pro-001 |
Versi stabil Gemini 1.0 Pro | Ketersediaan Umum | 2024-02-15 | Mulai 15-02-2025 |
Versi yang diupdate otomatis | ||||
gemini-1.0-pro |
Mengarah ke versi 1.0 Pro stabil terbaru (saat ini gemini-1.0-pro-002 |
Ketersediaan Umum | 2024-02-15 | --- |
Bahasa yang didukung
Semua model Gemini dapat memahami dan merespons bahasa berikut:
Arab (ar), Bengali (bn), Bulgaria (bg), China Aksara Sederhana dan Tradisional (zh), Kroasia (jam), Ceko (cs), Denmark (da), Belanda (nl), Inggris (en), Estonia (et), Finlandia (fi), Prancis (fr), Jerman (de), Yunani (el), Ibrani (iw), Hindi (hi), Hungaria (hu), Indonesia (id), Italia (it), Jepang (ja), Korea (ko), Latvia (lv), Lituania (lt), Norwegia (no), Polandia (pl), Portugis (pt), Rumania (ro), Rusia (ru), Serbia (sr), Slovakia (sk), Slovenia (sl), Spanyol (es), Swahili (sw), Swedia (sv), Thai (th), Turki (tr), Ukraina (uk), Vietnam (vi)
Gemini 1.5 Pro dan Gemini 1.5 Flash model dapat memahami dan merespons dalam bahasa tambahan berikut:
Afrikaans (af), Amharik (am), Assam (as), Azerbaijani (az), Belarusia (be), Bosnia (bs), Katalan (ca), Cebuano (ceb), Korsika (co), Wales (cy), Dhivehi (dv), Esperanto (eo), Basque (eu), Persia (fa), Filipina (Tagalog) (fil), Frisia (fy), Irlandia (ga), Gaelik Skotlandia (gd), Galisia (gl), Gujarati (gu), Hausa (ha), Hawaii (haw), Hmong (hmn), Kreol Haiti (ht), Armenia (hy), Igbo (ig), Islandia (is), Jawa (jv), Georgia (ka), Kazakh (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdi (ku), Kirgiz (ky), Latin (la), Luksemburg (lb), Lao (lo), Malagasi (mg), Maori (mi), Makedonia (mk), Malayalam (ml), Mongolia (mn), Meiteilon (Manipuri) (mni-Mtei), Marathi (mr), Melayu (ms), Malta (mt), Myanmar (Burma) (saya), Nepali (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (atau), Punjabi (pa), Pashto (ps), Sindhi (sd), Sinhala (Sinhala) (si), Samoa (sm), Shona (sn), Somalia (so), Albania (sq), Sesotho (st), Sunda (su), Tamil (ta), Telugu (te), Tajik (tg), Uyghur (ug), Urdu (ur), Uzbek (uz), Xhosa (xh), Yiddi (yi), Yoruba (yo), Zulu (zu)
Langkah berikutnya
Coba kemampuan Gemini API
- Membuat percakapan multi-giliran (chat).
- Buat teks dari dialog khusus teks.
- Buat teks dari dialog multimodal (termasuk teks, gambar, PDF, video, dan audio).
- Gunakan panggilan fungsi untuk menghubungkan generatif ke sistem dan informasi eksternal.