Vertex AI Gemini API 支援的輸入檔案和規定

使用Vertex AI Gemini API Vertex AI in Firebase SDK,您可以提示 Gemini 模型生成文字 根據多模態輸入內容多模態提示可以包含多個模態 例如文字、圖片、PDF、影片和音訊

如果是輸入內容的非文字部分 (例如媒體檔案),您必須使用 指定支援的 MIME 類型,並確認 檔案和多模態要求,並且符合這些需求條件,並遵循最佳做法。

本頁說明支援的 MIME 類型、最佳做法和限制 :

Vertex AI in Firebase SDK 專屬規定

Vertex AI in Firebase 個 SDK 的要求總大小上限為 20 MB。如果要求過大,您會收到 HTTP 413 錯誤。



圖片:相關規定、最佳做法和限制

圖片:相關規定

本節說明支援的 MIME 類型,以及每項要求的 所以映像檔較小

支援的 MIME 類型

Gemini 多模態模型支援下列圖片 MIME 類型:

圖片 MIME 類型 Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG:image/png
JPEG - image/jpeg

每項要求的限制

圖片中的像素數量沒有具體限制。不過 較大的圖片會縮小並配合 3072 x 解析度上限 3072,同時保留原始長寬比。

以下是提示要求中允許的圖片檔數量上限:

  • Gemini 1.0 Pro Vision:16 張圖片
  • Gemini 1.5 Flash 和 Gemini 1.5 Pro:3,000 張圖片

映像檔:權杖化

以下為圖片的符記計算方式:

  • Gemini 1.0 Pro Vision:每個圖片帳戶 258 個符記
  • Gemini 1.5 Flash 和 Gemini 1.5 Pro
    • 如果圖片的兩個尺寸都小於或等於 384 像素 則會使用 258 個符記
    • 如果圖片的某個尺寸大於 384 像素,則 圖片就會裁剪成圖塊每個圖塊尺寸都會預設為最小尺寸 寬度或高度除以 1.5如有需要,每個圖塊都是 調整為不小於 256 像素,也不要大於 768 像素。接著,每個資訊方塊都會調整為 768x768 的大小,並使用 258 個符記。

圖片:最佳做法

使用圖片時,請遵守下列最佳做法和資訊, 最佳成效:

  • 如要偵測圖片中的文字,請使用包含一張圖片的提示, 結果會比包含多張圖片的提示更好
  • 如果提示包含一張圖片,請將該圖片置於文字前方 提示。
  • 如果要在提示中參照多張圖片 或讓模型在回應中參照這些內容 但可在圖片之前為每張圖片提供索引使用 a b cimage 1 image 2 image 3 索引。以下範例說明如何在 提示:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • 使用解析度較高的圖片;若是如此
  • 在提示中提供幾個範例。
  • 將圖片旋轉到正確方向,再新增至 提示。
  • 避免使用模糊不清的圖片。

圖片:限制

雖然 Gemini 多模態模型對於多種多模態用途來說很強大 的情況,請務必瞭解模型的限制:

  • 內容審核:模型拒絕提供答案 違反安全政策的圖片
  • 空間推理:模型在定位時的精確度 圖片中的文字或物件可能只會傳回 如需儲存大量結構化物件 建議使用 Cloud Bigtable
  • 醫療用途:這類模型不適合用於解讀 醫療影像 (例如 X 光和 CT 掃描) 或提供醫療 視為醫療、法律、財務或其他專業建議
  • 人員辨識:模型不應用於 辨識圖片中不是名人的人
  • 準確度:模型可能會產生幻覺或誤判 則適合用來解釋畫質不佳、旋轉或極低解析度的圖片 模型在解讀手寫文字時也可能會產生幻覺 圖片文件



影片:相關規定、最佳做法和限制

影片:需求條件

本節說明支援的 MIME 類型,以及每項要求的 影片。

支援的 MIME 類型

Gemini 多模態模型支援下列影片 MIME 類型:

影片 MIME 類型 Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV - video/x-flv
MOV - video/mov
MPEG:video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WebM - video/webm
WMV - video/wmv
3GPP - video/3gpp

每項要求的限制

以下是提示要求中可加入的影片檔案數量上限:

  • Gemini 1.0 Pro Vision:1 個影片檔案
  • Gemini 1.5 Flash 和 Gemini 1.5 Pro:10 個影片檔案

影片:權杖化

影片符記的計算方式如下:

  • 所有 Gemini 多模態模型:影片取樣至 每秒 1 個影格 (fps)。每個影片影格可算是 258 秒 符記
  • Gemini 1.5 Flash 和 Gemini 1.5 Pro:音軌經過編碼 搭配影片影格音軌也細分為 每個 1 秒中繼,每個符記可代表 32 個權杖。影片 影格和音訊符記會與時間戳記交錯。 時間戳記會以 7 個符記表示。

影片:最佳做法

使用影片時,請遵守下列最佳做法和資訊, 最佳成效:

  • 如果提示中含有單一影片,請將影片置於文字前方 提示。
  • 如要在含有音訊的影片中將時間戳記本地化,請向模型提出要求 以 MM:SS 格式產生時間戳記,其中前兩筆 數字代表分鐘,末兩碼代表秒數。使用 類似的格式。
  • 請注意,如果使用 Gemini 1.0 Pro Vision,請注意以下事項:

    • 每個提示只使用一部影片。
    • 模型只會處理 影片。
    • 模型會將影片中的 影片。但無法轉移音訊。如果您發現模型缺少某些 請試著縮短影片內容 擷取了大部分的影片內容。
    • 模型不會處理任何音訊資訊或時間戳記 中繼資料。因此,模型在用途上可能無法正常運作 需要音訊輸入,例如字幕音訊或時間相關 例如速度或節奏

影片:限制

雖然 Gemini 多模態模型對於多種多模態用途來說很強大 的情況,請務必瞭解模型的限制:

  • 內容審核:模型拒絕提供答案 檢舉違反安全政策的影片
  • 非語音辨識:支援的模型 音訊可能會誤認出非語音。
  • 高速動作:模型可能會出錯 會解讀影片中的高速動作 每秒 1 個影格 (fps) 的取樣率。
  • 語音轉錄標點符號(如果使用 Gemini 1.5 Flash),模型可能會 傳回不含標點符號的語音轉錄內容。



音訊:相關規定和限制

音訊:需求條件

本節說明支援的 MIME 類型,以及每項要求的 音訊。

支援的 MIME 類型

Gemini 多模態模型支援下列音訊 MIME 類型:

音訊 MIME 類型 Gemini 1.5 Flash Gemini 1.5 Pro
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG:audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
無障礙車輛 - audio/wav
WebM - audio/webm

每項要求的限制

提示要求中最多可加入 1 個音訊檔案

音訊:限制

雖然 Gemini 多模態模型對於多種多模態用途來說很強大 的情況,請務必瞭解模型的限制:

  • 非語音辨識:支援的模型 音訊可能會誤認出非語音。
  • 純音訊時間戳記:支援音訊的模型 無法針對包含音訊檔案的要求準確產生時間戳記。這個 包含區隔和時間本地化時間戳記。時間戳記可以 由含有音訊的影片正確生成。
  • 語音轉錄標點符號(如果使用 Gemini 1.5 Flash),模型可能會 傳回不含標點符號的語音轉錄內容。



文件 (例如 PDF):相關規定、最佳做法和限制

文件:需求條件

本節說明支援的 MIME 類型,以及每項要求的 文件 (例如 PDF)。

支援的 MIME 類型

Gemini 多模態模型支援下列文件 MIME 類型:

文件 MIME 類型 Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PDF - application/pdf

每項要求的限制

系統會將 PDF 視為圖片,因此系統會將單一 PDF 檔視為一頁 圖片。提示中可包含的網頁數量有限 模型可支援的映像檔類型

  • Gemini 1.0 Pro Vision:16 頁
  • Gemini 1.5 Pro 和 Gemini 1.5 Flash:1000 頁

文件:權杖化

系統會將 PDF 視為圖片,因此每個 PDF 頁面都會在同一組 轉換成圖片

此外,PDF 檔案的費用 Gemini 映像檔定價。 舉例來說,如果您在 Gemini API 呼叫中加入兩頁 PDF 檔案, 會產生處理兩張圖片的輸入費。

文件:最佳做法

製作 PDF 檔案時,請遵守下列最佳做法和資訊, 最佳成效:

  • 如果提示包含單一 PDF,請將 PDF 檔案放在文字前 提示。
  • 如果文件內容較長,建議您分割成多份 PDF 檔案 來處理這個工作
  • 使用將文字轉譯成文字的 PDF,不要使用 掃描圖片這個格式可確保機器可讀取文字 與掃描結果相比,模型能更輕鬆地編輯、搜尋及操控 圖片 PDF 檔案這種做法可以在使用 或含有大量文字的文件 例如合約

文件:限制

雖然 Gemini 多模態模型對於多種多模態用途來說很強大 的情況,請務必瞭解模型的限制:

  • 空間推理:模型在定位時的精確度 文字或物件可能只會傳回 如需儲存大量結構化物件 建議使用 Cloud Bigtable
  • 準確度:模型在解讀資料時可能會產生幻覺 PDF 文件的手寫文字。