Cette page décrit les différentes limites et spécifications pour l'utilisation de Live API et de ses modèles.
Limites liées aux sessions
Pour Live API, une session fait référence à une connexion persistante où les entrées et les sorties sont diffusées en continu sur la même connexion.
Si la session dépasse l'une des limites suivantes, la connexion est interrompue.
La durée de la connexion est limitée à environ 10 minutes.
La durée de la session dépend des modalités d'entrée :
- Les sessions d'entrée audio uniquement sont limitées à 15 minutes.
- Les entrées vidéo et audio sont limitées à deux minutes.
La fenêtre de contexte de session est limitée à 128 000 jetons.
Limites de débit
Live API est soumis à des limites de débit pour les sessions simultanées par projet Firebase et pour les jetons par minute (TPM).
Gemini Developer API :
- Les limites varient en fonction du Gemini Developer API "niveau d'utilisation" de votre projet (consultez la documentation sur les limites de débit).
Vertex AI Gemini API :
- 1 000 sessions simultanées par projet Firebase
- 4 millions de jetons par minute
Formats audio
L'outil Live API accepte les formats audio suivants :
- Format audio d'entrée : audio PCM 16 bits brut à 16 kHz little-endian
Format audio de sortie : audio PCM 16 bits brut à 24 kHz little-endian
Types MIME acceptés :
audio/x-aac,audio/flac,audio/mp3,audio/m4a,audio/mpeg,audio/mpga,audio/mp4,audio/ogg,audio/pcm,audio/wav,audio/webm
Pour indiquer la fréquence d'échantillonnage de l'entrée audio, définissez le type MIME de chaque Blob contenant de l'audio sur une valeur telle que audio/pcm;rate=16000.
Formats vidéo
Live API s'attend à une séquence de frames d'image distincts et accepte les frames vidéo à 1 FPS (frame par seconde).
Entrée recommandée : résolution native de 768 x 768 à 1 FPS.
Types MIME acceptés :
video/x-flv,video/quicktime,video/mpeg,video/mpegs,video/mpg,video/mp4,video/webm,video/wmv,video/3gpp
Notez que cette spécification rend Live API inadapté aux cas d'utilisation nécessitant l'analyse de vidéos à évolution rapide, comme les actions de jeu dans les sports à grande vitesse.
Voix de réponse
Live API accepte les options de voix de réponse suivantes. Pour obtenir des démos de chaque voix, consultez Chirp 3 : voix HD.
Si vous ne spécifiez pas de voix de réponse, la valeur par défaut est Puck.
Découvrez comment spécifier la voix de la réponse.
Zephyr : LumineuxKore : FermeOrus : FermeAutonoe : LumineuxUmbriel : DétenduErinome : ClairLaomedeia : EntraînantSchedar : ÉquilibréAchird : AmicalSadachbia : Vif
|
Puck -- EntraînantFenrir -- ExaltéAoede -- DétenduEnceladus -- Voix douceAlgieba -- Voix calmeAlgenib -- Voix rauqueAchernar -- Voix douceGacrux -- Voix matureZubenelgenubi -- Voix décontractéeSadaltager -- Voix experte
|
Charon -- InformatifLeda -- JeuneCallirrhoe -- DécontractéIapetus -- ClairDespina -- FluideRasalgethi -- InformatifAlnilam -- FermePulcherrima -- DirectVindemiatrix -- DouxSulafat -- Chaleureux
|
Langues
Live API est compatible avec les langues suivantes. Découvrez comment influencer la langue de la réponse.
| Langue | Code BCP-47 | Langue | Code BCP-47 |
|---|---|---|---|
| Arabe (Égypte) | ar-EG | Allemand (Allemagne) | de-DE |
| Anglais (États-Unis) | en-US | Espagnol (États-Unis) | es-US |
| Français (France) | fr-FR | Hindi (Inde) | hi-IN |
| Indonésien (Indonésie) | id-ID | Italien (Italie) | it-IT |
| Japonais (Japon) | ja-JP | Coréen (Corée) | ko-KR |
| Portugais (Brésil) | pt-BR | Russe (Russie) | ru-RU |
| Néerlandais (Pays-Bas) | nl-NL | Polonais (Pologne) | pl-PL |
| Thaï (Thaïlande) | th-TH | Turc (Turquie) | tr-TR |
| Vietnamien (Viêt Nam) | vi-VN | Roumain (Roumanie) | ro-RO |
| Ukrainien (Ukraine) | uk-UA | Bengali (Bangladesh) | bn-BD |
| Anglais (Inde) | Pack en-IN et hi-IN | Marathi (Inde) | mr-IN |
| Tamoul (Inde) | ta-IN | Télougou (Inde) | te-IN |