Cette page décrit les différentes limites et spécifications d'utilisation de la Live API et de ses modèles.
Limites liées aux sessions
Pour le Live API, une session fait référence à une connexion persistante dans laquelle les entrées et les sorties sont diffusées en continu sur une connexion.
Si la session dépasse l'une des limites suivantes, la connexion est interrompue. Notez toutefois que le Live API propose certaines options (voir ci-dessous) pour gérer ces limites liées aux sessions.
La fenêtre de contexte de la session est limitée à 128 000 jetons.
En raison de cette limite de fenêtre de contexte, voici les durées maximales approximatives des sessions en fonction des modalités d'entrée :
- Les sessions d'entrée audio uniquement sont limitées à
15 minutes . - Les entrées vidéo et audio sont limitées à
deux minutes .
- Les sessions d'entrée audio uniquement sont limitées à
La durée de la connexion est limitée à environ
10 minutes .Vous recevrez une notification going awayenviron
60 secondes avant la fin de la connexion.
Voici quelques options pour gérer les limites liées aux sessions :
Compressez la fenêtre de contexte de la session afin que le serveur maintienne automatiquement la taille du contexte dans la limite.
Reprenez une session pour éviter de perdre le contexte de la conversation en cas de brèves déconnexions réseau ou après avoir reçu une notification going away.
En savoir plus sur la gestion des sessions.
Limites de débit
Le Live API est soumis à des limites de débit pour les sessions simultanées par projet Firebase, ainsi que pour les jetons par minute (TPM).
Gemini Developer API:
Vertex AI Gemini API:
- 1 000 sessions simultanées par projet Firebase
- 4 millions de jetons par minute
Formats audio
Le Live API est compatible avec les formats audio suivants :
- Format audio d'entrée : audio PCM 16 bits brut à 16 kHz little-endian
Format audio de sortie : audio PCM 16 bits brut à 24 kHz little-endian
Types MIME compatibles :
audio/x-aac,audio/flac,audio/mp3,audio/m4a,audio/mpeg,audio/mpga,audio/mp4,audio/ogg,audio/pcm,audio/wav,audio/webm
Pour indiquer la fréquence d'échantillonnage de l'entrée audio, définissez le type MIME de chaque objet blob contenant de l'audio sur une valeur telle que audio/pcm;rate=16000.
Formats vidéo
Le Live API attend une séquence d'images discrètes et accepte les entrées d'images vidéo à raison d'une image par seconde (FPS).
Entrée recommandée : résolution native de 768 x 768 à 1 FPS.
Types MIME compatibles :
video/x-flv,video/quicktime,video/mpeg,video/mpegs,video/mpg,video/mp4,video/webm,video/wmv,video/3gpp
Notez que cette spécification rend les Live API inadaptés aux cas d'utilisation qui nécessitent l'analyse de vidéos en évolution rapide, comme les actions de jeu dans les sports à grande vitesse.
Voix de réponse
Le Live API est compatible avec les options de voix de réponse suivantes. Pour obtenir des démos de ce que chaque voix donne, consultez Chirp 3 : voix HD.
Si vous ne spécifiez pas de voix de réponse, la valeur par défaut est Puck.
Découvrez comment spécifier la voix de réponse.
Zephyr -- LumineuseKore -- FermeOrus -- FermeAutonoe -- LumineuseUmbriel -- DécontractéeErinome -- ClairLaomedeia -- EntraînanteSchedar -- ÉgaleAchird -- AmicaleSadachbia -- Animée
|
Puck -- EntraînanteFenrir -- ExcitéeAoede -- LégèreEnceladus -- Voix basseAlgieba -- DouceAlgenib -- GraveleuseAchernar -- DouceGacrux -- MatureZubenelgenubi -- DécontractéeSadaltager -- Informée
|
Charon -- InformativeLeda -- JeuneCallirrhoe -- DécontractéeIapetus -- ClairDespina -- DouceRasalgethi -- InformativeAlnilam -- FermePulcherrima -- DirecteVindemiatrix -- DouceSulafat -- Chaleureuse
|
Langues
Le Live API est compatible avec les langues suivantes. Découvrez comment influencer la langue de la réponse.
| Langue | Code BCP-47 | Langue | Code BCP-47 |
|---|---|---|---|
| Arabe (Égypte) | ar-EG | Allemand (Allemagne) | de-DE |
| Anglais (États-Unis) | en-US | Espagnol (États-Unis) | es-US |
| Français (France) | fr-FR | Hindi (Inde) | hi-IN |
| Indonésien (Indonésie) | id-ID | Italien (Italie) | it-IT |
| Japonais (Japon) | ja-JP | Coréen (Corée) | ko-KR |
| Portugais (Brésil) | pt-BR | Russe (Russie) | ru-RU |
| Néerlandais (Pays-Bas) | nl-NL | Polonais (Pologne) | pl-PL |
| Thaï (Thaïlande) | th-TH | Turc (Turquie) | tr-TR |
| Vietnamien (Viêt Nam) | vi-VN | Roumain (Roumanie) | ro-RO |
| Ukrainien (Ukraine) | uk-UA | Bengali (Bangladesh) | bn-BD |
| Anglais (Inde) | Groupe en-IN et hi-IN | Marathi (Inde) | mr-IN |
| Tamoul (Inde) | ta-IN | Télougou (Inde) | te-IN |