使用 Vertex AI in Firebase SDK 從應用程式呼叫 Vertex AI Gemini API 時,您可以要求 Gemini 模型根據多模態輸入內容產生文字。多模態提示可包含多種模態 (或輸入類型),例如文字、圖片、PDF、影片和音訊。
針對輸入內容的非文字部分 (例如媒體檔案),您必須使用支援的檔案類型、指定支援的 MIME 類型,並確保檔案和多模態要求符合規定並遵循最佳做法。
本頁面說明下列項目的支援 MIME 類型、最佳做法和限制:
Vertex AI in Firebase SDK 專屬規定
以 Vertex AI in Firebase SDK 來說,要求總大小上限為 20 MB。如果要求過大,就會收到 HTTP 413 錯誤。
如果檔案大小會使總要求大小超過 20 MB,請使用 Cloud Storage for Firebase 網址,在多模態要求中加入檔案。
如果檔案很小,通常可以直接以內嵌資料的形式傳遞。不過,請注意,以內嵌資料形式提供的檔案會在傳輸期間編碼為 base64,這會增加要求的大小。如需顯示如何將檔案做為內嵌資料加入的範例,請參閱「使用 Gemini API 從多模態提示產生文字」。
圖片:相關規定、最佳做法和限制
圖片:規定
在本節中,瞭解圖片支援的 MIME 類型和每個要求的限制。
支援的 MIME 類型
Gemini 多模態模型支援下列圖片 MIME 類型:
圖片 MIME 類型 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
|||
WebP - image/webp |
每項要求的限制
圖片的像素數量沒有特定限制。不過,較大的圖片會縮小並填滿,以便符合 3072 x 3072 的最大解析度,同時保留原始顯示比例。
以下是提示要求中允許的圖片檔案數量上限:
- Gemini 1.0 Pro Vision:16 張圖片
- Gemini 1.5 Flash 和 Gemini 1.5 Pro:3,000 張圖片
映像檔:權杖化
以下是圖片的符記計算方式:
- Gemini 1.0 Pro Vision:每個圖片可存放 258 個符記。
- Gemini 1.5 Flash 和 Gemini 1.5 Pro:
- 如果圖片的長邊和短邊都小於或等於 384 像素,則會使用 258 個符記。
- 如果圖片的一個尺寸大於 384 像素,系統會將圖片裁剪成圖塊。每個圖塊尺寸都會預設為最小維度 (寬度或高度) 除以 1.5。如有需要,系統會調整每個圖塊,使其不小於 256 像素,也不超過 768 像素。然後,每個資訊方塊的大小都會調整為 768x768,並使用 258 個符記。
圖片:最佳做法
使用圖片時,請採用下列最佳做法和資訊,以獲得最佳成效:
- 如果您想在圖片中偵測文字,請使用單張圖片的提示,這樣比使用多張圖片的提示更能獲得更好的結果。
- 如果提示包含單一圖片,請在要求中將圖片放在文字提示之前。
- 如果提示包含多張圖片,且您想在稍後的提示中參照這些圖片,或是讓模型在模型回應中參照這些圖片,建議您在圖片前為每張圖片指定索引。請為索引使用
或a
b
c
。以下範例說明如何在提示中使用已建立索引的圖片:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - 使用解析度較高的圖片,可獲得更好的結果。
- 在提示中加入幾個範例。
- 請先將圖片旋轉至正確方向,再將圖片新增至提示中。
- 避免使用模糊不清的圖片。
圖片:限制
雖然 Gemini 多模態模型在許多多模態用途中都能發揮強大效能,但請務必瞭解模型的限制:
- 內容審核:模型拒絕針對違反 Google 安全政策的圖片提供解答。
- 空間推理:模型無法精確找出圖片中的文字或物件。可能只會傳回物件的近似計數。
- 醫療用途:模型不適合用來解讀醫療圖像 (例如 X 光和 CT 掃描) 或提供醫療建議。
- 人物辨識:模型並非用於辨識圖片中非名人的人物。
- 準確度:模型在解讀低品質、旋轉或極低解析度的圖片時,可能會產生幻覺或出錯。模型在解讀圖片文件中的手寫文字時,可能也會產生幻覺。
影片:規定、最佳做法和限制
影片:規定
在本節中,瞭解影片支援的 MIME 類型和每項要求的限制。
支援的 MIME 類型
Gemini 多模態模型支援下列影片 MIME 類型:
影片 MIME 類型 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/quicktime |
|||
MPEG:video/mpeg |
|||
MPEGPS - video/mpegps |
|||
MPG - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
每項要求的限制
以下是提示要求中允許的影片檔案數量上限:
- Gemini 1.0 Pro Vision:1 個影片檔案
- Gemini 1.5 Flash 和 Gemini 1.5 Pro:10 個影片檔案
影片:權杖化
以下是影片的符記計算方式:
- 所有 Gemini 多模態模型:影片的取樣率為
每秒 1 個影格 (fps) 。每個影片影格會佔用 258 個符記。 - Gemini 1.5 Flash 和 Gemini 1.5 Pro:音軌採用影片影格編碼。另外,音軌也細分為「1 秒的中繼檔案」
,每個路由 32 個權杖負責。影片影格和音訊符記會與其時間戳記交錯排列。時間戳記以 7 個符記表示。
影片:最佳做法
使用影片時,請參考下列最佳做法和資訊,以獲得最佳成效:
- 如果提示包含單一影片,請將影片放在文字提示之前。
- 如果需要在含有音訊的影片中進行時間戳記本地化,請要求模型以
MM:SS
格式產生時間戳記,其中前兩位數字代表分鐘,後兩位數字代表秒數。針對詢問時間戳記的問題,請使用相同的格式。 如果您使用 Gemini 1.0 Pro Vision,請注意下列事項:
- 每個提示最多只能使用一部影片。
- 模型只會處理影片前兩分鐘的資訊。
- 模型會將影片處理為影片中不連續的圖片影格。不含音訊。如果發現模型遺漏了影片中的部分內容,請嘗試縮短影片長度,讓模型擷取更多影片內容。
- 模型不會處理任何音訊資訊或時間戳記中繼資料。因此,在需要音訊輸入的用途 (例如音訊字幕) 或時間相關資訊 (例如速度或節奏) 的情況下,模型可能無法發揮良好的效能。
影片:限制
雖然 Gemini 多模態模型在許多多模態用途上都相當強大,但請務必瞭解模型的限制:
- 內容審核:模型拒絕針對違反 Google 安全政策的影片提供解答。
- 非語音聲響辨識:支援音訊的模型可能會誤認非語音的聲響。
- 高速動作:由於固定的
每秒 1 格 (fps) 取樣率,模型可能會在解讀影片中的高速動作時出錯。 - 轉錄標點符號:(如果使用 Gemini 1.5 Flash) 模型可能會傳回不含標點符號的轉錄內容。
音訊:規定和限制
音訊:必要條件
在本節中,瞭解音訊支援的 MIME 類型和每項要求的上限。
支援的 MIME 類型
Gemini 多模態模型支援下列音訊 MIME 類型:
音訊 MIME 類型 | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
每項要求的限制
提示要求中最多可包含
音訊:限制
雖然 Gemini 多模態模型在許多多模態用途中都能發揮強大效能,但請務必瞭解模型的限制:
- 非語音聲響辨識:支援音訊的模型可能會誤認非語音的聲響。
- 純音訊時間戳記:如要準確產生純音訊檔案的時間戳記,您必須在
generation_config
中設定audio_timestamp
參數。 - 轉錄標點符號:(如果使用 Gemini 1.5 Flash) 模型可能會傳回不含標點符號的轉錄內容。
文件 (例如 PDF 檔案):相關規定、最佳做法和限制
文件:規定
本節將說明系統支援的 MIME 類型,以及每個文件 (例如 PDF) 的請求限制。
支援的 MIME 類型
Gemini 多模態模型支援下列文件 MIME 類型:
文件 MIME 類型 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF - application/pdf |
|||
文字 - text/plain |
每項要求的限制
PDF 會視為圖片,因此 PDF 的單一頁面會視為一張圖片。提示中允許的頁面數量,取決於模型可支援的圖片數量:
- Gemini 1.0 Pro Vision:16 頁
- Gemini 1.5 Pro 和 Gemini 1.5 Flash:1,000 頁
文件:權杖化
PDF 代碼化
PDF 會視為圖片,因此 PDF 的每個頁面都會以與圖片相同的方式進行符記。
另請注意,PDF 的費用與 Gemini 圖片定價相同。 舉例來說,如果您在 Gemini API 呼叫中加入兩頁 PDF,就會產生處理兩張圖片的輸入費用。
純文字代碼化
純文字文件會以文字符號化。舉例來說,如果您在 Gemini API 呼叫中加入 100 字的純文字文件,系統就會收取 100 個字的輸入費用。
文件:最佳做法
使用 PDF 時,請參考下列最佳做法和資訊,以獲得最佳結果:
- 如果提示包含 PDF 檔案,請將 PDF 檔放在要求中的文字提示之前。
- 如果您有長篇文件,建議將其拆成多個 PDF 檔案來處理。
- 使用以文字呈現的文字建立的 PDF,而非使用掃描圖片中的文字。這個格式可確保文字可供機器讀取,讓模型更容易編輯、搜尋及操作,相較於掃描的圖像 PDF 檔案。這個做法在處理合約等含有大量文字的文件時,可提供最佳結果。
文件:限制
雖然 Gemini 多模態模型在許多多模態用途上都相當強大,但請務必瞭解模型的限制:
- 空間推理:模型無法精確定位 PDF 中的文字或物件。可能只會傳回物件的近似計數。
- 準確度:模型在解讀 PDF 文件中的手寫文字時,可能會產生錯誤。