Vertex AI Gemini DesAPI 支援的輸入檔案和規定

使用 Vertex AI in Firebase SDK 從應用程式呼叫 Vertex AI Gemini API 時,您可以要求 Gemini 模型根據多模態輸入內容產生文字。多模態提示可包含多種模態 (或輸入類型),例如文字、圖片、PDF、影片和音訊。

針對輸入內容的非文字部分 (例如媒體檔案),您必須使用支援的檔案類型、指定支援的 MIME 類型,並確保檔案和多模態要求符合規定並遵循最佳做法。

本頁面說明下列項目的支援 MIME 類型、最佳做法和限制:

Vertex AI in Firebase SDK 專屬規定

Vertex AI in Firebase SDK 來說,要求總大小上限為 20 MB。如果要求過大,就會收到 HTTP 413 錯誤。



圖片:相關規定、最佳做法和限制

圖片:規定

在本節中,瞭解圖片支援的 MIME 類型和每個要求的限制。

支援的 MIME 類型

Gemini 多模態模型支援下列圖片 MIME 類型:

圖片 MIME 類型 Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG - image/png
JPEG - image/jpeg
WebP - image/webp

每項要求的限制

圖片的像素數量沒有特定限制。不過,較大的圖片會縮小並填滿,以便符合 3072 x 3072 的最大解析度,同時保留原始顯示比例。

以下是提示要求中允許的圖片檔案數量上限:

  • Gemini 1.0 Pro Vision:16 張圖片
  • Gemini 1.5 Flash 和 Gemini 1.5 Pro:3,000 張圖片

映像檔:權杖化

以下是圖片的符記計算方式:

  • Gemini 1.0 Pro Vision:每個圖片可存放 258 個符記。
  • Gemini 1.5 Flash 和 Gemini 1.5 Pro
    • 如果圖片的長邊和短邊都小於或等於 384 像素,則會使用 258 個符記。
    • 如果圖片的一個尺寸大於 384 像素,系統會將圖片裁剪成圖塊。每個圖塊尺寸都會預設為最小維度 (寬度或高度) 除以 1.5。如有需要,系統會調整每個圖塊,使其不小於 256 像素,也不超過 768 像素。然後,每個資訊方塊的大小都會調整為 768x768,並使用 258 個符記。

圖片:最佳做法

使用圖片時,請採用下列最佳做法和資訊,以獲得最佳成效:

  • 如果您想在圖片中偵測文字,請使用單張圖片的提示,這樣比使用多張圖片的提示更能獲得更好的結果。
  • 如果提示包含單一圖片,請在要求中將圖片放在文字提示之前。
  • 如果提示包含多張圖片,且您想在稍後的提示中參照這些圖片,或是讓模型在模型回應中參照這些圖片,建議您在圖片前為每張圖片指定索引。請為索引使用 a b cimage 1 image 2 image 3。以下範例說明如何在提示中使用已建立索引的圖片:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • 使用解析度較高的圖片,可獲得更好的結果。
  • 在提示中加入幾個範例。
  • 請先將圖片旋轉至正確方向,再將圖片新增至提示中。
  • 避免使用模糊不清的圖片。

圖片:限制

雖然 Gemini 多模態模型在許多多模態用途中都能發揮強大效能,但請務必瞭解模型的限制:

  • 內容審核:模型拒絕針對違反 Google 安全政策的圖片提供解答。
  • 空間推理:模型無法精確找出圖片中的文字或物件。可能只會傳回物件的近似計數。
  • 醫療用途:模型不適合用來解讀醫療圖像 (例如 X 光和 CT 掃描) 或提供醫療建議。
  • 人物辨識:模型並非用於辨識圖片中非名人的人物。
  • 準確度:模型在解讀低品質、旋轉或極低解析度的圖片時,可能會產生幻覺或出錯。模型在解讀圖片文件中的手寫文字時,可能也會產生幻覺。



影片:規定、最佳做法和限制

影片:規定

在本節中,瞭解影片支援的 MIME 類型和每項要求的限制。

支援的 MIME 類型

Gemini 多模態模型支援下列影片 MIME 類型:

影片 MIME 類型 Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV - video/x-flv
MOV - video/quicktime
MPEG:video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

每項要求的限制

以下是提示要求中允許的影片檔案數量上限:

  • Gemini 1.0 Pro Vision:1 個影片檔案
  • Gemini 1.5 Flash 和 Gemini 1.5 Pro:10 個影片檔案

影片:權杖化

以下是影片的符記計算方式:

  • 所有 Gemini 多模態模型:影片的取樣率為每秒 1 個影格 (fps)。每個影片影格會佔用 258 個符記。
  • Gemini 1.5 Flash 和 Gemini 1.5 Pro:音軌採用影片影格編碼。另外,音軌也細分為「1 秒的中繼檔案」,每個路由 32 個權杖負責。影片影格和音訊符記會與其時間戳記交錯排列。時間戳記以 7 個符記表示。

影片:最佳做法

使用影片時,請參考下列最佳做法和資訊,以獲得最佳成效:

  • 如果提示包含單一影片,請將影片放在文字提示之前。
  • 如果需要在含有音訊的影片中進行時間戳記本地化,請要求模型以 MM:SS 格式產生時間戳記,其中前兩位數字代表分鐘,後兩位數字代表秒數。針對詢問時間戳記的問題,請使用相同的格式。
  • 如果您使用 Gemini 1.0 Pro Vision,請注意下列事項:

    • 每個提示最多只能使用一部影片。
    • 模型只會處理影片前兩分鐘的資訊。
    • 模型會將影片處理為影片中不連續的圖片影格。不含音訊。如果發現模型遺漏了影片中的部分內容,請嘗試縮短影片長度,讓模型擷取更多影片內容。
    • 模型不會處理任何音訊資訊或時間戳記中繼資料。因此,在需要音訊輸入的用途 (例如音訊字幕) 或時間相關資訊 (例如速度或節奏) 的情況下,模型可能無法發揮良好的效能。

影片:限制

雖然 Gemini 多模態模型在許多多模態用途上都相當強大,但請務必瞭解模型的限制:

  • 內容審核:模型拒絕針對違反 Google 安全政策的影片提供解答。
  • 非語音聲響辨識:支援音訊的模型可能會誤認非語音的聲響。
  • 高速動作:由於固定的 每秒 1 格 (fps) 取樣率,模型可能會在解讀影片中的高速動作時出錯。
  • 轉錄標點符號(如果使用 Gemini 1.5 Flash) 模型可能會傳回不含標點符號的轉錄內容。



音訊:規定和限制

音訊:必要條件

在本節中,瞭解音訊支援的 MIME 類型和每項要求的上限。

支援的 MIME 類型

Gemini 多模態模型支援下列音訊 MIME 類型:

音訊 MIME 類型 Gemini 1.5 Flash Gemini 1.5 Pro
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

每項要求的限制

提示要求中最多可包含 1 個音訊檔案

音訊:限制

雖然 Gemini 多模態模型在許多多模態用途中都能發揮強大效能,但請務必瞭解模型的限制:

  • 非語音聲響辨識:支援音訊的模型可能會誤認非語音的聲響。
  • 純音訊時間戳記:如要準確產生純音訊檔案的時間戳記,您必須在 generation_config 中設定 audio_timestamp 參數。
  • 轉錄標點符號(如果使用 Gemini 1.5 Flash) 模型可能會傳回不含標點符號的轉錄內容。



文件 (例如 PDF 檔案):相關規定、最佳做法和限制

文件:規定

本節將說明系統支援的 MIME 類型,以及每個文件 (例如 PDF) 的請求限制。

支援的 MIME 類型

Gemini 多模態模型支援下列文件 MIME 類型:

文件 MIME 類型 Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PDF - application/pdf
文字 - text/plain

每項要求的限制

PDF 會視為圖片,因此 PDF 的單一頁面會視為一張圖片。提示中允許的頁面數量,取決於模型可支援的圖片數量:

  • Gemini 1.0 Pro Vision:16 頁
  • Gemini 1.5 Pro 和 Gemini 1.5 Flash:1,000 頁

文件:權杖化

PDF 代碼化

PDF 會視為圖片,因此 PDF 的每個頁面都會以與圖片相同的方式進行符記。

另請注意,PDF 的費用與 Gemini 圖片定價相同。 舉例來說,如果您在 Gemini API 呼叫中加入兩頁 PDF,就會產生處理兩張圖片的輸入費用。

純文字代碼化

純文字文件會以文字符號化。舉例來說,如果您在 Gemini API 呼叫中加入 100 字的純文字文件,系統就會收取 100 個字的輸入費用。

文件:最佳做法

使用 PDF 時,請參考下列最佳做法和資訊,以獲得最佳結果:

  • 如果提示包含 PDF 檔案,請將 PDF 檔放在要求中的文字提示之前。
  • 如果您有長篇文件,建議將其拆成多個 PDF 檔案來處理。
  • 使用以文字呈現的文字建立的 PDF,而非使用掃描圖片中的文字。這個格式可確保文字可供機器讀取,讓模型更容易編輯、搜尋及操作,相較於掃描的圖像 PDF 檔案。這個做法在處理合約等含有大量文字的文件時,可提供最佳結果。

文件:限制

雖然 Gemini 多模態模型在許多多模態用途上都相當強大,但請務必瞭解模型的限制:

  • 空間推理:模型無法精確定位 PDF 中的文字或物件。可能只會傳回物件的近似計數。
  • 準確度:模型在解讀 PDF 文件中的手寫文字時,可能會產生錯誤。