Live API の制限と仕様


このページでは、 Live APIとそのモデルの使用に関するさまざまな上限と仕様について説明します。

セッション関連の上限

Live API の場合、Live API セッションとは、入力 と出力が同じ接続で継続的にストリーミングされる永続的な接続を指します。

セッションが次の上限のいずれかを超えると、接続は 終了します。

  • 接続時間 は約 10 分に制限されています。

  • セッション時間 は入力モードによって異なります。

    • 音声のみの入力セッションは 15 分に制限されています。
    • 動画と音声の入力は 2 分に制限されています。
  • セッション コンテキスト ウィンドウ は 128k トークンに制限されています。

接続が終了する前に 終了通知が届くため、 さらなる対応を行うことができます。

セッションの管理について 学習する

レート上限

Live API には、 Firebase プロジェクトごとの同時実行セッション数と 1 分あたりのトークン数(TPM)の両方にレート上限があります。

  • Gemini Developer API:

  • Vertex AI Gemini API:

    • Firebase プロジェクトあたり 1,000 の同時実行セッション
    • 1 分あたり 400 万個のトークン

音声形式

Live API は次の音声形式をサポートしています。

  • 入力音声形式: RAW 16 ビット PCM 音声、16kHz、リトル エンディアン
  • 出力音声形式: RAW 16 ビット PCM 音声、24kHz、リトル エンディアン

  • サポートされている MIME タイプ: audio/x-aacaudio/flacaudio/mp3audio/m4aaudio/mpegaudio/mpgaaudio/mp4audio/oggaudio/pcmaudio/wavaudio/webm

入力音声のサンプルレートを伝えるには、音声を含む各 Blob の MIME タイプを audio/pcm;rate=16000 などの値に設定します。

動画フォーマット

Live API は、個別の画像フレームのシーケンスを想定しており、動画 フレーム入力を 1 フレーム / 秒(FPS)でサポートしています。

  • 推奨される入力: 1 FPS で 768x768 のネイティブ解像度。

  • サポートされている MIME タイプ: video/x-flvvideo/quicktimevideo/mpegvideo/mpegsvideo/mpgvideo/mp4video/webmvideo/wmvvideo/3gpp

この仕様により、Live API は、動きの速いスポーツのプレイごとの分析など、変化の速い動画の分析を必要とするユースケースには適していません。

レスポンス音声

Live API は、次のレスポンス音声オプションをサポートしています。各音声のデモについては、 Chirp 3: HD 音声をご覧ください。

レスポンス音声を指定しない場合、デフォルトは Puck です。

レスポンス音声を 指定する方法について学習する

Zephyr -- 明るい
Kore -- しっかりした
Orus -- しっかりした
Autonoe -- 明るい
Umbriel -- のんびりした
Erinome -- クリア
Laomedeia -- 陽気な
Schedar -- 均一
Achird -- フレンドリー
Sadachbia -- 活気のある
Puck -- 陽気な
Fenrir -- 興奮した
Aoede -- さわやかな
Enceladus -- 息苦しい
Algieba -- スムーズ
Algenib -- ざらざらした
Achernar -- ソフト
Gacrux -- 成熟した
Zubenelgenubi -- カジュアル
Sadaltager -- 知識豊富な
Charon -- 有益な
Leda -- 若々しい
Callirrhoe -- のんびりした
Iapetus -- クリア
Despina -- スムーズ
Rasalgethi -- 有益な
Alnilam -- しっかりした
Pulcherrima -- 前向きな
Vindemiatrix -- 優しい
Sulafat -- 温かい

言語

Live API は次の言語をサポートしています。 レスポンス言語に影響を与える方法について学習する

言語 BCP-47 コード 言語 BCP-47 コード
アラビア語(エジプト) ar-EG ドイツ語(ドイツ) de-DE
英語(米国) en-US スペイン語(米国) es-US
フランス語(フランス) fr-FR ヒンディー語(インド) hi-IN
インドネシア語(インドネシア) id-ID イタリア語(イタリア) it-IT
日本語(日本) ja-JP 韓国語(韓国) ko-KR
ポルトガル語(ブラジル) pt-BR ロシア語(ロシア) ru-RU
オランダ語(オランダ) nl-NL ポーランド語(ポーランド) pl-PL
タイ語(タイ) th-TH トルコ語(トルコ) tr-TR
ベトナム語(ベトナム) vi-VN ルーマニア語(ルーマニア) ro-RO
ウクライナ語(ウクライナ) uk-UA ベンガル語(バングラデシュ) bn-BD
英語(インド) en-IN と hi-IN のバンドル マラーティー語(インド) mr-IN
タミル語(インド) ta-IN テルグ語(インド) te-IN