このページでは、 Live APIとそのモデルの使用に関するさまざまな上限と仕様について説明します。
セッション関連の上限
Live API の場合、Live API セッションとは、入力 と出力が同じ接続で継続的にストリーミングされる永続的な接続を指します。
セッションが次の上限のいずれかを超えると、接続は 終了します。
接続時間 は約 10 分に制限されています。
セッション時間 は入力モードによって異なります。
- 音声のみの入力セッションは 15 分に制限されています。
- 動画と音声の入力は 2 分に制限されています。
セッション コンテキスト ウィンドウ は 128k トークンに制限されています。
接続が終了する前に 終了通知が届くため、 さらなる対応を行うことができます。
セッションの管理について 学習する。
レート上限
Live API には、 Firebase プロジェクトごとの同時実行セッション数と 1 分あたりのトークン数(TPM)の両方にレート上限があります。
Gemini Developer API:
- 上限は、プロジェクトの Gemini Developer API 「使用量階層」によって異なります( レート上限のドキュメントを参照)。
Vertex AI Gemini API:
- Firebase プロジェクトあたり 1,000 の同時実行セッション
- 1 分あたり 400 万個のトークン
音声形式
Live API は次の音声形式をサポートしています。
- 入力音声形式: RAW 16 ビット PCM 音声、16kHz、リトル エンディアン
出力音声形式: RAW 16 ビット PCM 音声、24kHz、リトル エンディアン
サポートされている MIME タイプ:
audio/x-aac、audio/flac、audio/mp3、audio/m4a、audio/mpeg、audio/mpga、audio/mp4、audio/ogg、audio/pcm、audio/wav、audio/webm
入力音声のサンプルレートを伝えるには、音声を含む各 Blob の MIME タイプを audio/pcm;rate=16000 などの値に設定します。
動画フォーマット
Live API は、個別の画像フレームのシーケンスを想定しており、動画 フレーム入力を 1 フレーム / 秒(FPS)でサポートしています。
推奨される入力: 1 FPS で 768x768 のネイティブ解像度。
サポートされている MIME タイプ:
video/x-flv、video/quicktime、video/mpeg、video/mpegs、video/mpg、video/mp4、video/webm、video/wmv、video/3gpp
この仕様により、Live API は、動きの速いスポーツのプレイごとの分析など、変化の速い動画の分析を必要とするユースケースには適していません。
レスポンス音声
Live API は、次のレスポンス音声オプションをサポートしています。各音声のデモについては、 Chirp 3: HD 音声をご覧ください。
レスポンス音声を指定しない場合、デフォルトは Puck です。
レスポンス音声を 指定する方法について学習する。
Zephyr -- 明るいKore -- しっかりしたOrus -- しっかりしたAutonoe -- 明るいUmbriel -- のんびりしたErinome -- クリアLaomedeia -- 陽気なSchedar -- 均一Achird -- フレンドリーSadachbia -- 活気のある
|
Puck -- 陽気なFenrir -- 興奮したAoede -- さわやかなEnceladus -- 息苦しいAlgieba -- スムーズAlgenib -- ざらざらしたAchernar -- ソフトGacrux -- 成熟したZubenelgenubi -- カジュアルSadaltager -- 知識豊富な
|
Charon -- 有益なLeda -- 若々しいCallirrhoe -- のんびりしたIapetus -- クリアDespina -- スムーズRasalgethi -- 有益なAlnilam -- しっかりしたPulcherrima -- 前向きなVindemiatrix -- 優しいSulafat -- 温かい
|
言語
Live API は次の言語をサポートしています。 レスポンス言語に影響を与える方法について学習する 。
| 言語 | BCP-47 コード | 言語 | BCP-47 コード |
|---|---|---|---|
| アラビア語(エジプト) | ar-EG | ドイツ語(ドイツ) | de-DE |
| 英語(米国) | en-US | スペイン語(米国) | es-US |
| フランス語(フランス) | fr-FR | ヒンディー語(インド) | hi-IN |
| インドネシア語(インドネシア) | id-ID | イタリア語(イタリア) | it-IT |
| 日本語(日本) | ja-JP | 韓国語(韓国) | ko-KR |
| ポルトガル語(ブラジル) | pt-BR | ロシア語(ロシア) | ru-RU |
| オランダ語(オランダ) | nl-NL | ポーランド語(ポーランド) | pl-PL |
| タイ語(タイ) | th-TH | トルコ語(トルコ) | tr-TR |
| ベトナム語(ベトナム) | vi-VN | ルーマニア語(ルーマニア) | ro-RO |
| ウクライナ語(ウクライナ) | uk-UA | ベンガル語(バングラデシュ) | bn-BD |
| 英語(インド) | en-IN と hi-IN のバンドル | マラーティー語(インド) | mr-IN |
| タミル語(インド) | ta-IN | テルグ語(インド) | te-IN |