Gemini 系列模型屬於多模態模型,因為它們能夠處理圖片、影片和文字等多種形式的資訊。舉例來說,您可以向 Gemini 模型傳送一盤餅乾的相片,然後要求模型提供這些餅乾的食譜。
提示 | 回應 |
請提供這些餅乾的食譜。 |
**食材** - 1 杯 (2 條) 無鹽奶油,軟化 - 3/4 杯細砂糖 - 3/4 杯砂糖 - 1 茶匙 香草萃取物 - 2 顆大雞蛋 - 2 1/4 杯通用麵粉 - 1 茶匙小蘇打 - 1 茶匙鹽 ... |
您可以使用 Google Cloud 上 Vertex AI 提供的 Gemini API 與 Gemini 系列模型互動。針對行動和網頁應用程式,您可以使用 Vertex AI in Firebase SDK 呼叫 Gemini API,並直接透過應用程式與 Gemini 模型互動。
本頁面提供 Gemini 模型的以下資訊:
比較各種 Gemini 模型的用途 (包括支援的輸入類型)。
比較各模型的詳細資料,例如輸入符記數量上限或影片長度上限。
說明 Gemini 模型的版本化方式,特別是穩定、自動更新和預先發布版本。
在初始化期間,要納入程式碼中的可用模型名稱清單。
Gemini 模型支援的語言清單。
可用的模型
您可以使用下列任何 Gemini 模型搭配 Vertex AI in Firebase:
Gemini 1.5 Flash
多模態模型,支援與 1.5 Pro 相同的輸入和輸出類型,但可理解 100 萬個符記的長脈絡。Gemini 1.5 Flash 專為大量且經濟實惠的應用程式設計。Gemini 1.5 Pro
多模態模型,支援在文字或對話提示中加入圖片、音訊、影片和 PDF 檔案,並取得文字或程式碼回覆。 此外,它還支援 200 萬個符記的長篇脈絡理解。Gemini 1.0 Pro Vision
多模態模型,可處理文字、圖片和影片,並提供文字或程式碼回覆。無法用於即時通訊。Gemini 1.0 Pro
模型:專門處理自然語言工作、多輪文字和程式碼對話,也能生成程式碼。
各模型的用途和功能
每個 Gemini 模型都有不同的功能,可支援各種用途。如要進一步瞭解各個 Gemini 型號,請參閱 Google Cloud 說明文件。
每個模型支援的輸入和輸出
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
輸入類型 | ||||
文字 | ||||
程式碼 | ||||
圖片 | ||||
影片 (僅限影格) | ||||
影片 (影格和音訊) | ||||
音訊 | ||||
輸出類型 | ||||
文字 | ||||
使用回應結構定義的結構化輸出內容 (例如 JSON) | ||||
程式碼 |
如要瞭解支援的檔案類型,請參閱「支援的輸入檔案和 Vertex AI Gemini API 的相關規定」。
每個模型支援的功能和一般功能
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
從純文字輸入內容產生文字 | |||||
根據多模態輸入內容產生文字 | |||||
使用回應結構定義的結構化輸出內容 (例如 JSON) | |||||
多輪對話 | |||||
函式呼叫 | |||||
基本函式呼叫 | |||||
並行函式呼叫 | |||||
函式呼叫模式 | |||||
計算符記和可計費的字元 | |||||
系統操作說明 |
每個模型的詳細資訊
屬性 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
符記總數限制 (輸入和輸出總和) * | 1,048,576 個符記 | 2,097,152 個符記 | 16,384 個符記 | 32,760 個符記 |
輸出符記限制 * | 8,192 個符記 | 8,192 個符記 | 2,048 個符記 | 8,192 個符記 |
每個要求的圖片數量上限 | 3,000 張圖片 | 3,000 張圖片 | 16 張圖片 | 不適用 |
最大 Base64 編碼圖片大小 | 7 MB | 7 MB | 7 MB | 不適用 |
PDF 大小上限 | 30 MB | 30 MB | 30 MB | 不適用 |
每個要求的影片檔案數量上限 | 10 個影片檔案 | 10 個影片檔案 | 1 個影片檔案 | 不適用 |
影片長度上限 (僅限影格) | 約 60 分鐘的影片 | 約 60 分鐘的影片 | 2 分鐘 | 不適用 |
影片長度上限 (影格和音訊) | 約 45 分鐘的影片 | 約 45 分鐘的影片 | 不適用 | 不適用 |
每個要求的音訊檔案數量上限 | 1 個音訊檔案 | 1 個音訊檔案 | 不適用 | 不適用 |
音訊長度上限 | 約 8.4 小時的音訊 | 約 8.4 小時的音訊 | 不適用 | 不適用 |
* 對於所有 Gemini 模型,一個符號相當於約 4 個半形字元,因此 100 個符號約等於 60 到 80 個英文單字。您可以使用 countTokens
判斷要求中的權杖總數。
如要瞭解支援的檔案類型、如何指定 MIME 類型,以及如何確保檔案和多模態要求符合規定並遵循最佳做法,請參閱「支援的輸入檔案和 Vertex AI Gemini API 的相關規定」。
模型版本管理
Gemini 模型提供穩定、自動更新和預覽版本。
穩定版視為正式發布版。
- 穩定版會在模型名稱後方附加特定的三位數版本號碼,例如
。gemini-1.5-pro-002
- 穩定版會在模型名稱後方附加特定的三位數版本號碼,例如
自動更新版本一律會指向該模型的最新穩定版本;如果發布新的穩定版本,自動更新版本會自動開始指向該新穩定版本。
- 自動更新版本的模型名稱沒有附加字元,例如
。gemini-1.5-pro
- 自動更新版本的模型名稱沒有附加字元,例如
預先發布版具有新功能,且被視為不穩定。請注意,預先發布版一律會指向該模型的最新預先發布版;如果發布新的預先發布版,所有現有的預先發布版都會自動開始指向該新預先發布版。
- 預覽版本會在模型名稱後方加上
,並附上模型的初始發布日期 (-preview
),例如-MMDD
(2024 年 4 月 9 日發布)。gemini-1.5-pro-preview-0409
- 預覽版本會在模型名稱後方加上
如要進一步瞭解可用的 Gemini 模型版本及其生命週期,請參閱 Google Cloud 說明文件。
可用的型號名稱
模型名稱是您在初始化生成模型時在程式碼中加入的明確值 (這是呼叫 Gemini API 的必要步驟)。如需所用語言的初始化範例,請參閱入門指南。
Gemini 1.5 Flash 型號名稱
模型名稱 | 說明 | 發布階段 | 第一版發布日期 | 停用日期 |
---|---|---|---|---|
穩定版 | ||||
gemini-1.5-flash-002 |
Gemini 1.5 Flash 的最新穩定版 | 正式發布版 | 2024-09-24 | 最早於 2025-09-24 |
gemini-1.5-flash-001 |
Gemini 1.5 Flash 的初始穩定版 | 正式發布版 | 2024-05-24 | 最早於 2025-05-24 |
自動更新版本 | ||||
gemini-1.5-flash |
指向 1.5 Flash 的最新穩定版 (目前為 gemini-1.5-flash-002 |
正式發布版 | 2024-09-24 | --- |
Gemini 1.5 Pro 型號名稱
模型名稱 | 說明 | 發布階段 | 第一版發布日期 | 停用日期 |
---|---|---|---|---|
穩定版 | ||||
gemini-1.5-pro-002 |
Gemini 1.5 Pro 的最新穩定版 | 正式發布版 | 2024-09-24 | 最早於 2025-09-24 |
gemini-1.5-pro-001 |
Gemini 1.5 Pro 的初始穩定版本 | 正式發布版 | 2024-05-24 | 最早於 2025-05-24 |
自動更新版本 | ||||
gemini-1.5-pro |
指向 1.5 Pro 的最新穩定版本 (目前為 gemini-1.5-pro-002 |
正式發布版 | 2024-09-24 | --- |
Gemini 1.0 Pro Vision 模型名稱
模型名稱 | 說明 | 發布階段 | 第一版發布日期 | 停用日期 |
---|---|---|---|---|
穩定版 | ||||
gemini-1.0-pro-vision-001 |
Gemini 1.0 Pro Vision 的最新穩定版 | 正式發布版 | 2024-02-15 | 最早於 2025-02-15 |
自動更新版本 | ||||
gemini-1.0-pro-vision |
指向 1.5 Pro Vision 的最新穩定版本 (目前為 gemini-1.5-pro-vision-001 |
正式發布版 | 2024-01-04 | --- |
Gemini 1.0 Pro 模型名稱
模型名稱 | 說明 | 發布階段 | 第一版發布日期 | 停用日期 |
---|---|---|---|---|
穩定版 | ||||
gemini-1.0-pro-002 |
Gemini 1.0 Pro 的最新穩定版 | 正式發布版 | 2024-04-09 | 最早於 2025 年 4 月 9 日 |
gemini-1.0-pro-001 |
Gemini 1.0 Pro 穩定版 | 正式發布版 | 2024-02-15 | 最早於 2025-02-15 |
自動更新版本 | ||||
gemini-1.0-pro |
指向 1.0 Pro 的最新穩定版 (目前為 gemini-1.0-pro-002 |
正式發布版 | 2024-02-15 | --- |
支援的語言
所有 Gemini 模型都能以以下語言理解及回覆:
阿拉伯文 (ar)、孟加拉文 (bn)、保加利亞文 (bg)、簡體中文和繁體中文 (zh)、克羅埃西亞文 (hr)、捷克文 (cs)、丹麥文 (da)、荷蘭文 (nl)、英文 (en)、愛沙尼亞文 (et)、芬蘭文 (fi)、法文 (fr)、德文 (de)、希臘文 (el)、希伯來文 (iw)、北印度文 (hi)、匈牙利文 (hu)、印尼文 (id)、義大利文 (it)、日文 (ja)、韓文 (ko)、拉脫維亞文 (lv)、立陶宛文 (lt)、挪威文 (no)、波蘭文 (pl)、葡萄牙文 (pt)、羅馬尼亞文 (ro)、俄文 (ru)、塞爾維亞文 (sr)、斯洛伐克文 (sk)、斯洛維尼亞文 (sl)、西班牙文 (es)、斯瓦希里文 (sw)、瑞典文 (sv)、泰文 (th)、土耳其文 (tr)、烏克蘭文 (uk)、越南文 (vi)
Gemini 1.5 Pro 和 Gemini 1.5 Flash 模型可理解並以以下其他語言回覆:
Afrikaans (af)、Amharic (am)、Assamese (as)、Azerbaijani (az)、 Belarusian (be)、Bosnian (bs)、Catalan (ca)、Cebuano (ceb)、Corsican (co)、 Welsh (cy)、Dhivehi (dv)、Esperanto (eo)、Basque (eu)、Persian (fa)、 Filipino (Tagalog) (fil)、Frisian (fy)、Irish (ga)、Scots Gaelic (gd)、 Galician (gl)、Gujarati (gu)、Hausa (ha)、Hawaiian (haw)、Hmong (hmn)、 Haitian Creole (ht)、Armenian (hy)、Igbo (ig)、Icelandic (is)、Javanese (jv)、 Georgian (ka)、Kazakh (kk)、Khmer (km)、Kannada (kn)、Krio (kri)、 Kurdish (ku)、Kyrgyz (ky)、Latin (la)、Luxembourgish (lb)、Lao (lo)、 Malagasy (mg)、Maori (mi)、Macedonian (mk)、Malayalam (ml)、Mongolian (mn)、 Meiteilon (Manipuri) (mni-Mtei)、Marathi (mr)、Malay (ms)、Maltese (mt)、 Myanmar (Burmese) (my)、Nepali (ne)、Nyanja (Chichewa) (ny)、 Odia (Oriya) (or)、Punjabi (pa)、Pashto (ps)、Sindhi (sd)、 Sinhala (Sinhalese) (si)、Samoan (sm)、Shona (sn)、Somali (so)、Albanian (sq)、 Sesotho (st)、Sundanese (su)、Tamil (ta)、Telugu (te)、Tajik (tg)、 Uyghur (ug)、Urdu (ur)、Uzbek (uz)、Xhosa (xh)、Yiddish (yi)、Yoruba (yo)、 Zulu (zu)
後續步驟
試用 Gemini API 的功能
- 建構多輪對話 (聊天)。
- 使用文字提示來生成文字。
- 使用多模態提示 (包括文字、圖片、PDF、影片和音訊) 來生成文字。
- 從文字和多模態提示產生結構化輸出內容 (例如 JSON)。
- 使用函式呼叫功能,將生成模型連結至外部系統和資訊。