Auf dieser Seite werden verschiedene Einschränkungen und Spezifikationen für die Verwendung der Live API und ihrer Modelle beschrieben.
Sitzungsbezogene Beschränkungen
Für Live API bezieht sich eine Sitzung auf eine persistente Verbindung, über die Ein- und Ausgabe kontinuierlich über dieselbe Verbindung gestreamt werden.
Wenn die Sitzung eines der folgenden Limits überschreitet, wird die Verbindung beendet.
Die Verbindungsdauer ist auf etwa 10 Minuten begrenzt.
Die Sitzungslänge hängt von den Eingabemodalitäten ab:
- Eingabesitzungen, die nur Audio enthalten, sind auf 15 Minuten begrenzt.
- Video- und Audioeingaben sind auf 2 Minuten begrenzt.
Das Sitzungskontextfenster ist auf 128.000 Tokens begrenzt.
Ratenlimits
Für Live API gelten Ratenlimits sowohl für gleichzeitige Sitzungen pro Firebase-Projekt als auch für Tokens pro Minute (TPM).
Gemini Developer API:
- Die Limits variieren je nach Gemini Developer API-Nutzungsebene Ihres Projekts (siehe Dokumentation zu Ratenbeschränkungen).
Vertex AI Gemini API:
- 1.000 gleichzeitige Sitzungen pro Firebase-Projekt
- 4 Millionen Tokens pro Minute
Audioformate
Das Live API unterstützt die folgenden Audioformate:
- Eingabeaudioformat:Rohes 16‑Bit-PCM-Audio mit 16 kHz, Little Endian
Audioausgabeformat:Rohes 16‑Bit-PCM-Audio mit 24 kHz, Little Endian
Unterstützte MIME-Typen:
audio/x-aac,audio/flac,audio/mp3,audio/m4a,audio/mpeg,audio/mpga,audio/mp4,audio/ogg,audio/pcm,audio/wav,audio/webm
Um die Abtastrate des eingegebenen Audiosignals anzugeben, legen Sie den MIME-Typ jedes Audio-Blobs auf einen Wert wie audio/pcm;rate=16000 fest.
Videoformate
Für Live API wird eine Sequenz diskreter Bildframes erwartet. Videoframes werden mit 1 fps (Bild pro Sekunde) unterstützt.
Empfohlene Eingabe: native Auflösung von 768 × 768 Pixeln bei 1 FPS.
Unterstützte MIME-Typen:
video/x-flv,video/quicktime,video/mpeg,video/mpegs,video/mpg,video/mp4,video/webm,video/wmv,video/3gpp
Aufgrund dieser Spezifikation ist Live API nicht für Anwendungsfälle geeignet, bei denen sich Videos schnell ändern, z. B. für die Analyse von Spielzügen bei schnellen Sportarten.
Stimmen für Antworten
Live API unterstützt die folgenden Optionen für die Antwortstimme. Hier finden Sie Demos der einzelnen Stimmen.
Wenn Sie keine Antwortstimme angeben, wird standardmäßig Puck verwendet.
Informationen zum Festlegen der Stimme für Antworten
Zephyr – HellKore – FestOrus – FestAutonoe – HellUmbriel – UnbeschwertErinome – KlarLaomedeia – FröhlichSchedar – GleichmäßigAchird – FreundlichSadachbia – Lebhaft
|
Puck – FröhlichFenrir – AufgeregtAoede – LeichtEnceladus – HauchigAlgieba – SanftAlgenib – RauAchernar – WeichGacrux – ReifZubenelgenubi – LockerSadaltager – Wissend
|
Charon – InformativeLeda – JugendlichCallirrhoe – GelassenIapetus – KlarDespina – SanftRasalgethi – InformativeAlnilam – EntschlossenPulcherrima – DirektVindemiatrix – SanftSulafat – Warm
|
Sprachen
Live API unterstützt die folgenden Sprachen. Informationen zum Festlegen der Antwortsprache
| Sprache | BCP-47-Code | Sprache | BCP-47-Code |
|---|---|---|---|
| Arabisch (Ägypten) | ar-EG | Deutsch (Deutschland) | de-DE |
| Englisch (USA) | en-US | Spanisch (USA) | es-US |
| Französisch (Frankreich) | fr-FR | Hindi (Indien) | hi-IN |
| Indonesisch (Indonesien) | id-ID | Italienisch (Italien) | it-IT |
| Japanisch (Japan) | ja-JP | Koreanisch (Korea) | ko-KR |
| Portugiesisch (Brasilien) | pt-BR | Russisch (Russland) | ru-RU |
| Niederländisch (Niederlande) | nl-NL | Polnisch (Polen) | pl-PL |
| Thailändisch (Thailand) | th-TH | Türkisch (Türkei) | tr-TR |
| Vietnamesisch (Vietnam) | vi-VN | Rumänisch (Rumänien) | ro-RO |
| Ukrainisch (Ukraine) | uk-UA | Bengalisch (Bangladesch) | bn-BD |
| Englisch (Indien) | en-IN- und hi-IN-Set | Marathi (Indien) | mr-IN |
| Tamil (Indien) | ta-IN | Telugu (Indien) | te-IN |