Limits und Spezifikationen der Live API


Auf dieser Seite werden verschiedene Limits und Spezifikationen für die Verwendung der Live API und ihrer Modelle beschrieben.

Sitzungsbezogene Limits

Bei der Live API, bezieht sich eine Sitzung auf eine dauerhafte Verbindung, bei der Eingaben und Ausgaben kontinuierlich über eine Verbindung gestreamt werden.

Wenn die Sitzung eines der folgenden Limits überschreitet, wird die Verbindung beendet. Die Live API bietet jedoch einige Optionen (siehe unten), um diese sitzungsbezogenen Limits zu verwalten.

  • Das Kontextfenster der Sitzung ist auf 128.000 Tokens begrenzt.

    Aufgrund dieses Limits für das Kontextfenster ergeben sich die folgenden ungefähren maximalen Sitzungslängen basierend auf den Eingabemodalitäten:

    • Sitzungen mit reiner Audioeingabe sind auf 15 Minuten begrenzt.
    • Sitzungen mit Video- und Audioeingabe sind auf 2 Minuten begrenzt.
  • Die Verbindungslänge ist auf etwa 10 Minuten begrenzt.

    Sie erhalten etwa 60 Sekunden vor dem Ende der Verbindung eine Benachrichtigung _going away_.

Hier sind einige Optionen zum Verwalten von sitzungsbezogenen Limits:

Weitere Informationen zum Verwalten von Sitzungen.

Ratenlimits

Die Live API hat Ratenlimits für gleichzeitige Sitzungen pro Firebase-Projekt sowie für Tokens pro Minute (TPM).

  • Gemini Developer API:

    • Die Limits variieren je nach Gemini Developer API "Nutzungsklasse" der Gemini Developer API Ihres Projekts. Weitere Informationen finden Sie in der Dokumentation zu den Ratenlimits.
  • Vertex AI Gemini API:

    • 1.000 gleichzeitige Sitzungen pro Firebase-Projekt
    • 4 Millionen Tokens pro Minute

Audioformate

Die Live API unterstützt die folgenden Audioformate:

  • Audioformat für die Eingabe:Raw 16-Bit-PCM-Audio mit 16 kHz, Little Endian
  • Audioformat für die Ausgabe:Raw 16-Bit-PCM-Audio mit 24 kHz, Little Endian

  • Unterstützte MIME-Typen: audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm

Um die Abtastrate der Audioeingabe anzugeben, legen Sie den MIME-Typ jedes Audio-Blobs auf einen Wert wie audio/pcm;rate=16000 fest.

Videoformate

Die Live API erwartet eine Sequenz diskreter Bildframes und unterstützt die Eingabe von Video frames mit 1 Frame pro Sekunde (FPS).

  • Empfohlene Eingabe: native Auflösung von 768 × 768 bei 1 FPS.

  • Unterstützte MIME-Typen: video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp

Aufgrund dieser Spezifikation ist die Live API nicht für Anwendungsfälle geeignet, bei denen schnell wechselnde Videos analysiert werden müssen, z. B. für Spielberichte bei rasanten Sportarten.

Antwortstimmen

Die Live API unterstützt die folgenden Optionen für Antwortstimmen. Demos der einzelnen Stimmen finden Sie unter Chirp 3: HD-Stimmen.

Wenn Sie keine Antwortstimme angeben, wird standardmäßig Puck verwendet.

Informationen zum Angeben der Antwortstimme specify the response voice.

ZephyrHelle Stimme
KoreFeste Stimme
OrusFeste Stimme
AutonoeHelle Stimme
UmbrielEntspannte Stimme
ErinomeKlare Stimme
LaomedeiaFröhliche Stimme
SchedarGleichmäßige Stimme
AchirdFreundliche Stimme
SadachbiaLebhafte Stimme
PuckFröhliche Stimme
FenrirAufgeregte Stimme
AoedeLeichte Stimme
EnceladusHauchige Stimme
AlgiebaSanfte Stimme
AlgenibRauhe Stimme
AchernarLeise Stimme
GacruxReife Stimme
ZubenelgenubiLocker
SadaltagerWissende Stimme
CharonInformative Stimme
LedaJunge Stimme
CallirrhoeEntspannte Stimme
IapetusKlare Stimme
DespinaSanfte Stimme
RasalgethiInformative Stimme
AlnilamFeste Stimme
PulcherrimaDirekte Stimme
VindemiatrixSanfte Stimme
SulafatWarme Stimme

Sprachen

Die Live API unterstützt die folgenden Sprachen. Informationen zum Beeinflussen der Antwortsprache .

Sprache BCP-47-Code Sprache BCP-47-Code
Arabisch (Ägypten) ar-EG Deutsch (Deutschland) de-DE
Englisch (USA) en-US Spanisch (USA) es-US
Französisch (Frankreich) fr-FR Hindi (Indien) hi-IN
Indonesisch (Indonesien) id-ID Italienisch (Italien) it-IT
Japanisch (Japan) ja-JP Koreanisch (Korea) ko-KR
Portugiesisch (Brasilien) pt-BR Russisch (Russland) ru-RU
Niederländisch (Niederlande) nl-NL Polnisch (Polen) pl-PL
Thailändisch (Thailand) th-TH Türkisch (Türkei) tr-TR
Vietnamesisch (Vietnam) vi-VN Rumänisch (Rumänien) ro-RO
Ukrainisch (Ukraine) uk-UA Bengalisch (Bangladesch) bn-BD
Englisch (Indien) en-IN &hi-IN bundle Marathi (Indien) mr-IN
Tamil (Indien) ta-IN Telugu (Indien) te-IN