Limits und Spezifikationen der Live API


Auf dieser Seite werden verschiedene Einschränkungen und Spezifikationen für die Verwendung von Live API und seinen Modellen beschrieben.

Sitzungsbezogene Beschränkungen

Für die Live API bezieht sich eine Sitzung auf eine dauerhafte Verbindung, bei der Ein- und Ausgabe kontinuierlich über eine Verbindung gestreamt werden.

Wenn die Sitzung eines der folgenden Limits überschreitet, wird die Verbindung beendet. Live API bietet jedoch einige Optionen (siehe unten), um diese sitzungsbezogenen Limits zu umgehen.

  • Das Sitzungskontextfenster ist auf 128.000 Tokens begrenzt.

    Aufgrund dieses Kontextfensterlimits ergeben sich die folgenden ungefähren maximalen Sitzungslängen basierend auf den Eingabemodalitäten:

    • Eingabesitzungen, die nur Audio enthalten, sind auf 15 Minuten begrenzt.
    • Video- und Audioeingaben sind auf 2 Minuten begrenzt.
  • Die Verbindungsdauer ist auf etwa 10 Minuten begrenzt.

    Sie erhalten 60 Sekunden vor dem Ende der Verbindung eine Benachrichtigung über die bevorstehende Beendigung.

Hier sind einige Optionen für den Umgang mit sitzungsbezogenen Limits:

Weitere Informationen zum Verwalten von Sitzungen

Ratenlimits

Für Live API gelten Ratenlimits sowohl für gleichzeitige Sitzungen pro Firebase-Projekt als auch für Tokens pro Minute (TPM).

  • Gemini Developer API:

  • Vertex AI Gemini API:

    • 1.000 gleichzeitige Sitzungen pro Firebase-Projekt
    • 4 Millionen Tokens pro Minute

Audioformate

Die Live API unterstützt die folgenden Audioformate:

  • Eingabeaudioformat:Rohes 16‑Bit-PCM-Audio mit 16 kHz, Little Endian
  • Audioausgabeformat:Rohes 16‑Bit-PCM-Audio mit 24 kHz, Little Endian

  • Unterstützte MIME-Typen: audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm

Um die Abtastrate von Audioeingaben anzugeben, legen Sie den MIME-Typ jedes Audio-Blobs auf einen Wert wie audio/pcm;rate=16000 fest.

Videoformate

Für Live API wird eine Sequenz diskreter Bildframes erwartet. Die Eingabe von Videoframes mit 1 fps (Bild pro Sekunde) wird unterstützt.

  • Empfohlene Eingabe: native Auflösung von 768 × 768 Pixeln bei 1 FPS.

  • Unterstützte MIME-Typen: video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp

Aufgrund dieser Spezifikation ist Live API nicht für Anwendungsfälle geeignet, bei denen schnell wechselnde Videos analysiert werden müssen, z. B. die Spielzüge bei schnellen Sportarten.

Stimmen für Antworten

Live API unterstützt die folgenden Optionen für die Antwortstimme. Hier finden Sie Demos, wie die einzelnen Stimmen klingen.

Wenn Sie keine Antwortstimme angeben, wird standardmäßig Puck verwendet.

Informationen zum Festlegen der Stimme für Antworten

Zephyr – Hell
Kore – Entschlossen
Orus – Entschlossen
Autonoe – Hell
Umbriel – Gelassen
Erinome – Klar
Laomedeia – Optimistisch
Schedar – Ausgeglichen
Achird – Freundlich
Sadachbia – Lebhaft
Puck – Fröhlich
Fenrir – Aufgeregt
Aoede – Leicht
Enceladus – Hauchig
Algieba – Sanft
Algenib – Rau
Achernar – Weich
Gacrux – Reif
Zubenelgenubi – Locker
Sadaltager – Wissend
Charon – Informative
Leda – Jugendlich
Callirrhoe – Gelassen
Iapetus – Klar
Despina – Sanft
Rasalgethi – Informative
Alnilam – Bestimmt
Pulcherrima – Direkt
Vindemiatrix – Sanft
Sulafat – Warm

Sprachen

Live API unterstützt die folgenden Sprachen. Informationen zum Festlegen der Antwortsprache

Sprache BCP-47-Code Sprache BCP-47-Code
Arabisch (Ägypten) ar-EG Deutsch (Deutschland) de-DE
Englisch (USA) en-US Spanisch (USA) es-US
Französisch (Frankreich) fr-FR Hindi (Indien) hi-IN
Indonesisch (Indonesien) id-ID Italienisch (Italien) it-IT
Japanisch (Japan) ja-JP Koreanisch (Korea) ko-KR
Portugiesisch (Brasilien) pt-BR Russisch (Russland) ru-RU
Niederländisch (Niederlande) nl-NL Polnisch (Polen) pl-PL
Thailändisch (Thailand) th-TH Türkisch (Türkei) tr-TR
Vietnamesisch (Vietnam) vi-VN Rumänisch (Rumänien) ro-RO
Ukrainisch (Ukraine) uk-UA Bengalisch (Bangladesch) bn-BD
Englisch (Indien) en-IN- und hi-IN-Set Marathi (Indien) mr-IN
Tamil (Indien) ta-IN Telugu (Indien) te-IN