Limites et spécifications de l'API Live


Cette page décrit différentes limites et spécifications pour l'utilisation de l' Live API et de ses modèles.

Limites liées aux sessions

Pour l'Live API, une session fait référence à une connexion persistante dans laquelle les entrées et les sorties sont diffusées en continu sur la même connexion.

Si la session dépasse l'une des limites suivantes, la connexion est interrompue.

  • La durée de la connexion est limitée à environ 10 minutes.

  • La durée de la session dépend des modalités d'entrée :

    • Les sessions d'entrée audio uniquement sont limitées à 15 minutes.
    • Les entrées vidéo et audio sont limitées à 2 minutes.
  • La fenêtre de contexte de la session est limitée à 128 000 jetons.

Vous recevrez une notification de fin de session avant la fin de la connexion, ce qui vous permettra de prendre d'autres mesures.

En savoir plus sur la gestion des sessions.

Limites de débit

Le Live API est soumis à des limites de débit pour les sessions simultanées par projet Firebase, ainsi qu'à des jetons par minute (JPM).

  • Gemini Developer API:

  • Vertex AI Gemini API:

    • 1 000 sessions simultanées par projet Firebase
    • 4 millions de jetons par minute

Formats audio

Le Live API est compatible avec les formats audio suivants :

  • Format audio d'entrée : audio PCM 16 bits brut à 16 kHz little-endian
  • Format audio de sortie : audio PCM 16 bits brut à 24 kHz little-endian

  • Types MIME compatibles : audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm

Pour indiquer la fréquence d'échantillonnage de l'audio d'entrée, définissez le type MIME de chaque objet blob contenant de l'audio sur une valeur telle que audio/pcm;rate=16000.

Formats vidéo

Le Live API attend une séquence d'images discrètes et accepte les entrées d'images vidéo à 1 image par seconde (IPS).

  • Entrée recommandée : résolution native de 768 x 768 à 1 IPS.

  • Types MIME compatibles : video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp

Notez que cette spécification rend les Live API inadaptés aux cas d'utilisation qui nécessitent l'analyse de vidéos en évolution rapide, comme les actions de jeu dans les sports à grande vitesse.

Voix de réponse

Le Live API est compatible avec les options de voix de réponse suivantes. Pour obtenir des démos de ce que chaque voix donne, consultez Chirp 3 : voix HD.

Si vous ne spécifiez pas de voix de réponse, la valeur par défaut est Puck.

Découvrez comment spécifier la voix de réponse.

Zephyr : Lumineuse
Kore : Ferme
Orus : Ferme
Autonoe : Lumineuse
Umbriel : Décontractée
Erinome : Clair
Laomedeia : Entraînante
Schedar : Égale
Achird : Amicale
Sadachbia : Animée
Puck : Entraînante
Fenrir : Excitée
Aoede : Légère
Enceladus : Voix basse
Algieba : Douce
Algenib : Graveleuse
Achernar : Douce
Gacrux : Mature
Zubenelgenubi : Décontractée
Sadaltager : Informée
Charon : Informative
Leda : Jeune
Callirrhoe : Décontractée
Iapetus : Clair
Despina : Douce
Rasalgethi : Informative
Alnilam : Ferme
Pulcherrima : Directe
Vindemiatrix : Douce
Sulafat : Chaleureuse

Langues

Le Live API est compatible avec les langues suivantes. Découvrez comment influencer la langue de la réponse.

Langue Code BCP-47 Langue Code BCP-47
Arabe (Égypte) ar-EG Allemand (Allemagne) de-DE
Anglais (États-Unis) en-US Espagnol (États-Unis) es-US
Français (France) fr-FR Hindi (Inde) hi-IN
Indonésien (Indonésie) id-ID Italien (Italie) it-IT
Japonais (Japon) ja-JP Coréen (Corée) ko-KR
Portugais (Brésil) pt-BR Russe (Russie) ru-RU
Néerlandais (Pays-Bas) nl-NL Polonais (Pologne) pl-PL
Thaï (Thaïlande) th-TH Turc (Turquie) tr-TR
Vietnamien (Viêt Nam) vi-VN Roumain (Roumanie) ro-RO
Ukrainien (Ukraine) uk-UA Bengali (Bangladesh) bn-BD
Anglais (Inde) Pack en-IN et hi-IN Marathi (Inde) mr-IN
Tamoul (Inde) ta-IN Télougou (Inde) te-IN