使用Vertex AI Gemini API Vertex AI in Firebase SDK,您可以提示 Gemini 模型生成文字 根據多模態輸入內容多模態提示可以包含多個模態 例如文字、圖片、PDF、影片和音訊
如果是輸入內容的非文字部分 (例如媒體檔案),您必須使用 指定支援的 MIME 類型,並確認 檔案和多模態要求,並且符合這些需求條件,並遵循最佳做法。
本頁說明支援的 MIME 類型、最佳做法和限制 :
Vertex AI in Firebase SDK 專屬規定
Vertex AI in Firebase 個 SDK 的要求總大小上限為 20 MB。如果要求過大,您會收到 HTTP 413 錯誤。
如果檔案大小會導致要求總大小超過 20 MB,則 使用 Cloud Storage for Firebase 網址在多模態要求中加入檔案。
如果檔案很小,通常可以透過內嵌資料直接傳遞。 但請注意,以內嵌資料形式提供的檔案會編碼成 base64 ,這會增加要求的大小。舉例說明如何 將檔案納入內嵌資料,請參閱 使用 Gemini API,根據多模態提示生成文字。
圖片:相關規定、最佳做法和限制
圖片:相關規定
本節說明支援的 MIME 類型,以及每項要求的 所以映像檔較小
支援的 MIME 類型
Gemini 多模態模型支援下列圖片 MIME 類型:
圖片 MIME 類型 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG:image/png |
|||
JPEG - image/jpeg |
每項要求的限制
圖片中的像素數量沒有具體限制。不過 較大的圖片會縮小並配合 3072 x 解析度上限 3072,同時保留原始長寬比。
以下是提示要求中允許的圖片檔數量上限:
- Gemini 1.0 Pro Vision:16 張圖片
- Gemini 1.5 Flash 和 Gemini 1.5 Pro:3,000 張圖片
映像檔:權杖化
以下為圖片的符記計算方式:
- Gemini 1.0 Pro Vision:每個圖片帳戶 258 個符記
- Gemini 1.5 Flash 和
Gemini 1.5 Pro:
- 如果圖片的兩個尺寸都小於或等於 384 像素 則會使用 258 個符記
- 如果圖片的某個尺寸大於 384 像素,則 圖片就會裁剪成圖塊每個圖塊尺寸都會預設為最小尺寸 寬度或高度除以 1.5如有需要,每個圖塊都是 調整為不小於 256 像素,也不要大於 768 像素。接著,每個資訊方塊都會調整為 768x768 的大小,並使用 258 個符記。
圖片:最佳做法
使用圖片時,請遵守下列最佳做法和資訊, 最佳成效:
- 如要偵測圖片中的文字,請使用包含一張圖片的提示, 結果會比包含多張圖片的提示更好
- 如果提示包含一張圖片,請將該圖片置於文字前方 提示。
- 如果要在提示中參照多張圖片
或讓模型在回應中參照這些內容
但可在圖片之前為每張圖片提供索引使用
或a
b
c
索引。以下範例說明如何在 提示:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - 使用解析度較高的圖片;若是如此
- 在提示中提供幾個範例。
- 將圖片旋轉到正確方向,再新增至 提示。
- 避免使用模糊不清的圖片。
圖片:限制
雖然 Gemini 多模態模型對於多種多模態用途來說很強大 的情況,請務必瞭解模型的限制:
- 內容審核:模型拒絕提供答案 違反安全政策的圖片
- 空間推理:模型在定位時的精確度 圖片中的文字或物件可能只會傳回 如需儲存大量結構化物件 建議使用 Cloud Bigtable
- 醫療用途:這類模型不適合用於解讀 醫療影像 (例如 X 光和 CT 掃描) 或提供醫療 視為醫療、法律、財務或其他專業建議
- 人員辨識:模型不應用於 辨識圖片中不是名人的人
- 準確度:模型可能會產生幻覺或誤判 則適合用來解釋畫質不佳、旋轉或極低解析度的圖片 模型在解讀手寫文字時也可能會產生幻覺 圖片文件
影片:相關規定、最佳做法和限制
影片:需求條件
本節說明支援的 MIME 類型,以及每項要求的 影片。
支援的 MIME 類型
Gemini 多模態模型支援下列影片 MIME 類型:
影片 MIME 類型 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/mov |
|||
MPEG:video/mpeg |
|||
MPEGPS - video/mpegps |
|||
MPG - video/mpg |
|||
MP4 - video/mp4 |
|||
WebM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
每項要求的限制
以下是提示要求中可加入的影片檔案數量上限:
- Gemini 1.0 Pro Vision:1 個影片檔案
- Gemini 1.5 Flash 和 Gemini 1.5 Pro:10 個影片檔案
影片:權杖化
影片符記的計算方式如下:
- 所有 Gemini 多模態模型:影片取樣至
每秒 1 個影格 (fps) 。每個影片影格可算是 258 秒 符記 - Gemini 1.5 Flash 和
Gemini 1.5 Pro:音軌經過編碼
搭配影片影格音軌也細分為
每個
1 秒中繼 ,每個符記可代表 32 個權杖。影片 影格和音訊符記會與時間戳記交錯。 時間戳記會以 7 個符記表示。
影片:最佳做法
使用影片時,請遵守下列最佳做法和資訊, 最佳成效:
- 如果提示中含有單一影片,請將影片置於文字前方 提示。
- 如要在含有音訊的影片中將時間戳記本地化,請向模型提出要求
以
MM:SS
格式產生時間戳記,其中前兩筆 數字代表分鐘,末兩碼代表秒數。使用 類似的格式。 請注意,如果使用 Gemini 1.0 Pro Vision,請注意以下事項:
- 每個提示只使用一部影片。
- 模型只會處理 影片。
- 模型會將影片中的 影片。但無法轉移音訊。如果您發現模型缺少某些 請試著縮短影片內容 擷取了大部分的影片內容。
- 模型不會處理任何音訊資訊或時間戳記 中繼資料。因此,模型在用途上可能無法正常運作 需要音訊輸入,例如字幕音訊或時間相關 例如速度或節奏
影片:限制
雖然 Gemini 多模態模型對於多種多模態用途來說很強大 的情況,請務必瞭解模型的限制:
- 內容審核:模型拒絕提供答案 檢舉違反安全政策的影片
- 非語音辨識:支援的模型 音訊可能會誤認出非語音。
- 高速動作:模型可能會出錯
會解讀影片中的高速動作
每秒 1 個影格 (fps) 的取樣率。 - 語音轉錄標點符號: (如果使用 Gemini 1.5 Flash),模型可能會 傳回不含標點符號的語音轉錄內容。
音訊:相關規定和限制
音訊:需求條件
本節說明支援的 MIME 類型,以及每項要求的 音訊。
支援的 MIME 類型
Gemini 多模態模型支援下列音訊 MIME 類型:
音訊 MIME 類型 | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG:audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
無障礙車輛 - audio/wav |
||
WebM - audio/webm |
每項要求的限制
提示要求中最多可加入
音訊:限制
雖然 Gemini 多模態模型對於多種多模態用途來說很強大 的情況,請務必瞭解模型的限制:
- 非語音辨識:支援的模型 音訊可能會誤認出非語音。
- 純音訊時間戳記:支援音訊的模型 無法針對包含音訊檔案的要求準確產生時間戳記。這個 包含區隔和時間本地化時間戳記。時間戳記可以 由含有音訊的影片正確生成。
- 語音轉錄標點符號: (如果使用 Gemini 1.5 Flash),模型可能會 傳回不含標點符號的語音轉錄內容。
文件 (例如 PDF):相關規定、最佳做法和限制
文件:需求條件
本節說明支援的 MIME 類型,以及每項要求的 文件 (例如 PDF)。
支援的 MIME 類型
Gemini 多模態模型支援下列文件 MIME 類型:
文件 MIME 類型 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF - application/pdf |
每項要求的限制
系統會將 PDF 視為圖片,因此系統會將單一 PDF 檔視為一頁 圖片。提示中可包含的網頁數量有限 模型可支援的映像檔類型
- Gemini 1.0 Pro Vision:16 頁
- Gemini 1.5 Pro 和 Gemini 1.5 Flash:1000 頁
文件:權杖化
系統會將 PDF 視為圖片,因此每個 PDF 頁面都會在同一組 轉換成圖片
此外,PDF 檔案的費用 Gemini 映像檔定價。 舉例來說,如果您在 Gemini API 呼叫中加入兩頁 PDF 檔案, 會產生處理兩張圖片的輸入費。
文件:最佳做法
製作 PDF 檔案時,請遵守下列最佳做法和資訊, 最佳成效:
- 如果提示包含單一 PDF,請將 PDF 檔案放在文字前 提示。
- 如果文件內容較長,建議您分割成多份 PDF 檔案 來處理這個工作
- 使用將文字轉譯成文字的 PDF,不要使用 掃描圖片這個格式可確保機器可讀取文字 與掃描結果相比,模型能更輕鬆地編輯、搜尋及操控 圖片 PDF 檔案這種做法可以在使用 或含有大量文字的文件 例如合約
文件:限制
雖然 Gemini 多模態模型對於多種多模態用途來說很強大 的情況,請務必瞭解模型的限制:
- 空間推理:模型在定位時的精確度 文字或物件可能只會傳回 如需儲存大量結構化物件 建議使用 Cloud Bigtable
- 準確度:模型在解讀資料時可能會產生幻覺 PDF 文件的手寫文字。