Limites et spécifications de l'API Live


Cette page décrit les différentes limites et spécifications pour l'utilisation de Live API et de ses modèles.

Limites liées aux sessions

Pour Live API, une session fait référence à une connexion persistante où les entrées et les sorties sont diffusées en continu sur la même connexion.

Si la session dépasse l'une des limites suivantes, la connexion est interrompue.

  • La durée de la connexion est limitée à environ 10 minutes.

  • La durée de la session dépend des modalités d'entrée :

    • Les sessions d'entrée audio uniquement sont limitées à 15 minutes.
    • Les entrées vidéo et audio sont limitées à deux minutes.
  • La fenêtre de contexte de session est limitée à 128 000 jetons.

Limites de débit

Live API est soumis à des limites de débit pour les sessions simultanées par projet Firebase et pour les jetons par minute (TPM).

  • Gemini Developer API :

  • Vertex AI Gemini API :

    • 1 000 sessions simultanées par projet Firebase
    • 4 millions de jetons par minute

Formats audio

L'outil Live API accepte les formats audio suivants :

  • Format audio d'entrée : audio PCM 16 bits brut à 16 kHz little-endian
  • Format audio de sortie : audio PCM 16 bits brut à 24 kHz little-endian

  • Types MIME acceptés : audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm

Pour indiquer la fréquence d'échantillonnage de l'entrée audio, définissez le type MIME de chaque Blob contenant de l'audio sur une valeur telle que audio/pcm;rate=16000.

Formats vidéo

Live API s'attend à une séquence de frames d'image distincts et accepte les frames vidéo à 1 FPS (frame par seconde).

  • Entrée recommandée : résolution native de 768 x 768 à 1 FPS.

  • Types MIME acceptés : video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp

Notez que cette spécification rend Live API inadapté aux cas d'utilisation nécessitant l'analyse de vidéos à évolution rapide, comme les actions de jeu dans les sports à grande vitesse.

Voix de réponse

Live API accepte les options de voix de réponse suivantes. Pour obtenir des démos de chaque voix, consultez Chirp 3 : voix HD.

Si vous ne spécifiez pas de voix de réponse, la valeur par défaut est Puck.

Découvrez comment spécifier la voix de la réponse.

Zephyr : Lumineux
Kore : Ferme
Orus : Ferme
Autonoe : Lumineux
Umbriel : Détendu
Erinome : Clair
Laomedeia : Entraînant
Schedar : Équilibré
Achird : Amical
Sadachbia : Vif
Puck -- Entraînant
Fenrir -- Exalté
Aoede -- Détendu
Enceladus -- Voix douce
Algieba -- Voix calme
Algenib -- Voix rauque
Achernar -- Voix douce
Gacrux -- Voix mature
Zubenelgenubi -- Voix décontractée
Sadaltager -- Voix experte
Charon -- Informatif
Leda -- Jeune
Callirrhoe -- Décontracté
Iapetus -- Clair
Despina -- Fluide
Rasalgethi -- Informatif
Alnilam -- Ferme
Pulcherrima -- Direct
Vindemiatrix -- Doux
Sulafat -- Chaleureux

Langues

Live API est compatible avec les langues suivantes. Découvrez comment influencer la langue de la réponse.

Langue Code BCP-47 Langue Code BCP-47
Arabe (Égypte) ar-EG Allemand (Allemagne) de-DE
Anglais (États-Unis) en-US Espagnol (États-Unis) es-US
Français (France) fr-FR Hindi (Inde) hi-IN
Indonésien (Indonésie) id-ID Italien (Italie) it-IT
Japonais (Japon) ja-JP Coréen (Corée) ko-KR
Portugais (Brésil) pt-BR Russe (Russie) ru-RU
Néerlandais (Pays-Bas) nl-NL Polonais (Pologne) pl-PL
Thaï (Thaïlande) th-TH Turc (Turquie) tr-TR
Vietnamien (Viêt Nam) vi-VN Roumain (Roumanie) ro-RO
Ukrainien (Ukraine) uk-UA Bengali (Bangladesh) bn-BD
Anglais (Inde) Pack en-IN et hi-IN Marathi (Inde) mr-IN
Tamoul (Inde) ta-IN Télougou (Inde) te-IN