Live API 的限制和規格


本頁面說明使用 Live API 和其模型的各種限制和規格。

工作階段相關限制

對於 Live API工作階段是指持續連線,輸入和輸出內容會透過同一連線持續串流。

如果工作階段超出任何下列限制,連線就會終止。

  • 連線時間長度限制為 10 分鐘左右。

  • 工作階段長度取決於輸入模式:

    • 純音訊輸入工作階段的時間上限為 15 分鐘。
    • 影片和音訊輸入內容的長度上限為 2 分鐘。
  • 工作階段脈絡窗口最多可容納 12.8 萬個權杖。

頻率限制

Live API對每個 Firebase 專案的並行工作階段數,以及每分鐘權杖數 (TPM) 都有速率限制。

  • Gemini Developer API

  • Vertex AI Gemini API

    • 每個 Firebase 專案 1,000 個並行工作階段
    • 每分鐘 400 萬個權杖

音訊格式

Live API 支援下列音訊格式:

  • 輸入音訊格式:原始 16 位元 PCM 音訊,16 kHz 小端序
  • 輸出音訊格式:原始 16 位元 PCM 音訊,24 kHz 小端序

  • 支援的 MIME 類型audio/x-aacaudio/flacaudio/mp3audio/m4aaudio/mpegaudio/mpgaaudio/mp4audio/oggaudio/pcmaudio/wavaudio/webm

如要傳達輸入音訊的取樣率,請將每個含有音訊的 Blob 的 MIME 類型設為 audio/pcm;rate=16000 等值。

影片格式

Live API 預期會收到一連串不連續的圖像影格,並支援每秒 1 個影格 (FPS) 的視訊影格輸入。

  • 建議輸入:原生 768x768 解析度,每秒 1 格。

  • 支援的 MIME 類型video/x-flvvideo/quicktimevideo/mpegvideo/mpegsvideo/mpgvideo/mp4video/webmvideo/wmvvideo/3gpp

請注意,這項規格不適合用於需要分析快速變動影片的用途,例如高速運動的逐場賽事。Live API

回覆語音

Live API 支援下列回覆語音選項。如要試聽各個語音,請參閱「Chirp 3:HD 語音」。

如未指定回覆語音,預設為 Puck

瞭解如何指定回覆語音

Zephyr -- 明亮
Kore -- 堅實
Orus -- 堅實
Autonoe -- 明亮
Umbriel -- 輕鬆
Erinome -- 清晰
Laomedeia -- 活潑
Schedar -- 平穩
Achird -- 友善
Sadachbia -- 活潑
Puck -- Upbeat
Fenrir -- Excitable
Aoede -- Breezy
Enceladus -- Breathy
Algieba -- Smooth
Algenib -- Gravelly
Achernar -- Soft
Gacrux -- Mature
Zubenelgenubi -- Casual
Sadaltager -- Knowledgeable
Charon -- 資訊豐富
Leda -- 年輕
Callirrhoe -- 輕鬆
Iapetus -- 清晰
Despina -- 流暢
Rasalgethi -- 資訊豐富
Alnilam -- 堅定
Pulcherrima -- 積極
Vindemiatrix -- 溫和
Sulafat -- 溫暖

語言

Live API支援下列語言。 瞭解如何影響回覆語言

語言 BCP-47 代碼 語言 BCP-47 代碼
阿拉伯文 (埃及) ar-EG 德文 (德國) de-DE
英文 (美國) en-US 西班牙文 (美國) es-US
法文 (法國) fr-FR 北印度文 (印度) hi-IN
印尼文 (印尼) id-ID 義大利文 (義大利) it-IT
日文 (日本) ja-JP 韓文 (韓國) ko-KR
葡萄牙文 (巴西) pt-BR 俄文 (俄羅斯) ru-RU
荷蘭文 (荷蘭) nl-NL 波蘭文 (波蘭) pl-PL
泰文 (泰國) th-TH 土耳其文 (土耳其) tr-TR
越南文 (越南) vi-VN 羅馬尼亞文 (羅馬尼亞) ro-RO
烏克蘭文 (烏克蘭) uk-UA 孟加拉文 (孟加拉) bn-BD
英文 (印度) en-IN 和 hi-IN 組合 馬拉地文 (印度) mr-IN
泰米爾文 (印度) ta-IN 泰盧固文 (印度) te-IN