このページでは、Live API とそのモデルの使用に関するさまざまな制限と仕様について説明します。
セッション関連の上限
Live API の場合、セッションとは、入力と出力が同じ接続で継続的にストリーミングされる永続的な接続を指します。
セッションが次のいずれかの制限を超えると、接続が終了します。
接続時間は 10 分程度に制限されています。
セッションの長さは、入力モードによって異なります。
- 音声のみの入力セッションは 15 分に制限されます。
- 動画と音声の入力は 2 分に制限されます。
セッション コンテキスト ウィンドウは 128,000 トークンに制限されています。
レート上限
Live API には、Firebase プロジェクトごとの同時セッション数と 1 分あたりのトークン数(TPM)の両方に対するレート制限があります。
Gemini Developer API:
- 上限は、プロジェクトの Gemini Developer API「使用量階層」によって異なります(レート上限のドキュメントを参照)。
Vertex AI Gemini API:
- Firebase プロジェクトあたり 1,000 の同時実行セッション
- 1 分あたり 400 万個のトークン
音声形式
Live API は、次の音声形式をサポートしています。
- 入力音声形式: RAW 16 ビット PCM 音声、16kHz、リトル エンディアン
出力音声形式: RAW 16 ビット PCM 音声、24kHz、リトル エンディアン
サポートされている MIME タイプ:
audio/x-aac、audio/flac、audio/mp3、audio/m4a、audio/mpeg、audio/mpga、audio/mp4、audio/ogg、audio/pcm、audio/wav、audio/webm
入力音声のサンプリング レートを伝えるには、音声を含む各 Blob の MIME タイプを audio/pcm;rate=16000 などの値に設定します。
動画フォーマット
Live API は、一連の離散画像フレームを想定しており、1 フレーム/秒(FPS)の動画フレーム入力をサポートしています。
推奨される入力: 1 FPS で 768x768 のネイティブ解像度。
サポートされている MIME タイプ:
video/x-flv、video/quicktime、video/mpeg、video/mpegs、video/mpg、video/mp4、video/webm、video/wmv、video/3gpp
この仕様により、Live API は、動きの速いスポーツのプレイごとの分析など、変化の速い動画の分析を必要とするユースケースには適していません。
レスポンスの声
Live API は、次の音声レスポンス オプションをサポートしています。各音声のデモについては、Chirp 3: HD 音声をご覧ください。
レスポンス音声が指定されていない場合、デフォルトは Puck です。
レスポンスの音声を指定する方法をご確認ください。
Zephyr -- 明るいKore -- しっかりしたOrus -- しっかりしたAutonoe -- 明るいUmbriel -- のんびりしたErinome -- クリアLaomedeia -- アップビートSchedar -- 均等Achird -- フレンドリーSadachbia -- 活気のある
|
Puck -- UpbeatFenrir -- ExcitableAoede -- BreezyEnceladus -- BreathyAlgieba -- SmoothAlgenib -- GravellyAchernar -- SoftGacrux -- MatureZubenelgenubi -- CasualSadaltager -- Knowledgeable
|
Charon -- InformativeLeda -- YouthfulCallirrhoe -- Easy-goingIapetus -- ClearDespina -- SmoothRasalgethi -- InformativeAlnilam -- FirmPulcherrima -- ForwardVindemiatrix -- GentleSulafat -- Warm
|
言語
Live API は次の言語をサポートしています。レスポンスの言語に影響を与える方法について学習する。
| 言語 | BCP-47 コード | 言語 | BCP-47 コード |
|---|---|---|---|
| アラビア語(エジプト) | ar-EG | ドイツ語(ドイツ) | de-DE |
| 英語(米国) | en-US | スペイン語(米国) | es-US |
| フランス語(フランス) | fr-FR | ヒンディー語(インド) | hi-IN |
| インドネシア語(インドネシア) | id-ID | イタリア語(イタリア) | it-IT |
| 日本語(日本) | ja-JP | 韓国語(韓国) | ko-KR |
| ポルトガル語(ブラジル) | pt-BR | ロシア語(ロシア) | ru-RU |
| オランダ語(オランダ) | nl-NL | ポーランド語(ポーランド) | pl-PL |
| タイ語(タイ) | th-TH | トルコ語(トルコ) | tr-TR |
| ベトナム語(ベトナム) | vi-VN | ルーマニア語(ルーマニア) | ro-RO |
| ウクライナ語(ウクライナ) | uk-UA | ベンガル語(バングラデシュ) | bn-BD |
| 英語(インド) | en-IN と hi-IN のバンドル | マラーティー語(インド) | mr-IN |
| タミル語(インド) | ta-IN | テルグ語(インド) | te-IN |