このページでは、 Live API とそのモデルを使用する際の上限と仕様について説明します。
セッション関連の上限
Live API の場合、セッションとは、接続を介して入力 と出力が継続的にストリーミングされる永続的な接続を指します。
セッションが次の上限のいずれかを超えると、接続は 終了します。ただし、Live API には、セッション関連の上限を処理するためのオプションが用意されています(下記を参照) 。
セッション コンテキスト ウィンドウ は 128k トークンに制限されています。
このコンテキスト ウィンドウの上限により、入力モードに基づくセッションの最大長は次のようになります。
- 音声のみの入力セッションは
15 分 に制限されています。 - 動画と音声の入力は
2 分 に制限されています。
- 音声のみの入力セッションは
接続時間 は約
10 分 に制限されています。接続が終了する約
60 秒 前に、 終了通知 が届きます。
セッション関連の上限を処理するためのオプションは次のとおりです。
セッション コンテキスト ウィンドウを圧縮して 、サーバーがコンテキスト サイズを上限内に自動的に維持するようにします。
セッションを再開 して、ネットワークが一時的に切断された場合や、 終了通知を受信した後に会話のコンテキストが失われるのを防ぎます。
セッションの管理について詳しくは、 こちらをご覧ください。
レート上限
Live API には、 Firebase プロジェクトごとの同時実行セッション数と 1 分あたりのトークン数(TPM)の両方にレート上限があります。
Gemini Developer API:
- 上限は、プロジェクトの Gemini Developer API 「使用量階層」によって異なります( レート上限に関するドキュメントを参照)。
Vertex AI Gemini API:
- Firebase プロジェクトあたり 1,000 の同時実行セッション
- 1 分あたり 400 万個のトークン
音声形式
Live API は次の音声形式をサポートしています。
- 入力音声形式: RAW 16 ビット PCM 音声、16kHz、リトル エンディアン
出力音声形式: RAW 16 ビット PCM 音声、24kHz、リトル エンディアン
サポートされている MIME タイプ:
audio/x-aac、audio/flac、audio/mp3、audio/m4a、audio/mpeg、audio/mpga、audio/mp4、audio/ogg、audio/pcm、audio/wav、audio/webm
入力音声のサンプルレートを伝えるには、音声を含む各 Blob の MIME タイプを audio/pcm;rate=16000 などの値に設定します。
動画フォーマット
Live API は、個別の画像フレームのシーケンスを想定しており、動画 フレーム入力を 1 フレーム / 秒(FPS)でサポートしています。
推奨される入力: 1 FPS で 768x768 のネイティブ解像度。
サポートされている MIME タイプ:
video/x-flv、video/quicktime、video/mpeg、video/mpegs、video/mpg、video/mp4、video/webm、video/wmv、video/3gpp
この仕様により、Live API は、動きの速いスポーツのプレイごとの分析など、変化の速い動画の分析を必要とするユースケースには適していません。
レスポンス音声
Live API は、次のレスポンス音声オプションをサポートしています。各音声のデモについては、 Chirp 3: HD 音声をご覧ください。
レスポンス音声を指定しない場合、デフォルトは Puck です。
レスポンス音声を指定する方法について詳しくは、こちらをご覧ください。
Zephyr -- 明るいKore -- しっかりしたOrus -- しっかりしたAutonoe -- 明るいUmbriel -- のんびりしたErinome -- 明瞭なLaomedeia -- 陽気なSchedar -- 均一なAchird -- フレンドリーなSadachbia -- 活気のある
|
Puck -- 陽気なFenrir -- 興奮したAoede -- さわやかなEnceladus -- 息苦しいAlgieba -- スムーズなAlgenib -- ざらざらしたAchernar -- ソフトなGacrux -- 成熟したZubenelgenubi -- カジュアルなSadaltager -- 知識豊富な
|
Charon -- 情報提供的なLeda -- 若々しいCallirrhoe -- のんびりしたIapetus -- 明瞭なDespina -- スムーズなRasalgethi -- 情報提供的なAlnilam -- しっかりしたPulcherrima -- 前向きなVindemiatrix -- 優しいSulafat -- 温かい
|
言語
Live API は次の言語をサポートしています。 レスポンス言語に 影響を与える方法について詳しくは、こちらをご覧ください。
| 言語 | BCP-47 コード | 言語 | BCP-47 コード |
|---|---|---|---|
| アラビア語(エジプト) | ar-EG | ドイツ語(ドイツ) | de-DE |
| 英語(米国) | en-US | スペイン語(米国) | es-US |
| フランス語(フランス) | fr-FR | ヒンディー語(インド) | hi-IN |
| インドネシア語(インドネシア) | id-ID | イタリア語(イタリア) | it-IT |
| 日本語(日本) | ja-JP | 韓国語(韓国) | ko-KR |
| ポルトガル語(ブラジル) | pt-BR | ロシア語(ロシア) | ru-RU |
| オランダ語(オランダ) | nl-NL | ポーランド語(ポーランド) | pl-PL |
| タイ語(タイ) | th-TH | トルコ語(トルコ) | tr-TR |
| ベトナム語(ベトナム) | vi-VN | ルーマニア語(ルーマニア) | ro-RO |
| ウクライナ語(ウクライナ) | uk-UA | ベンガル語(バングラデシュ) | bn-BD |
| 英語(インド) | en-IN と hi-IN のバンドル | マラーティー語(インド) | mr-IN |
| タミル語(インド) | ta-IN | テルグ語(インド) | te-IN |