En esta página, se describen varios límites y especificaciones para usar la Live API y sus modelos.
Límites relacionados con la sesión
En el caso de la Live API, una sesión se refiere a una conexión persistente en la que la entrada y la salida se transmiten de forma continua a través de una conexión.
Si la sesión supera cualquiera de los siguientes límites, se finaliza la conexión. Sin embargo, ten en cuenta que el Live API proporciona algunas opciones (consulta a continuación) para controlar estos límites relacionados con la sesión.
La ventana de contexto de la sesión está limitada a 128,000 tokens.
Debido a este límite de ventana de contexto, estas son las duraciones máximas aproximadas de la sesión según las modalidades de entrada:
- Las sesiones de entrada solo de audio están limitadas a
15 minutos . - La entrada de video y audio está limitada a
2 minutos .
- Las sesiones de entrada solo de audio están limitadas a
La duración de la conexión está limitada a unos
10 minutos .Recibirás una notificación de desconexión unos
60 segundos antes de que finalice la conexión.
Estas son algunas opciones para controlar los límites relacionados con la sesión:
Comprime la ventana de contexto de la sesión para que el servidor mantenga automáticamente el tamaño del contexto dentro del límite.
Reanuda una sesión para evitar perder el contexto de la conversación durante desconexiones breves de la red o después de recibir una notificación de desconexión.
Obtén más información para administrar sesiones.
Límites de frecuencia
El Live API tiene límites de frecuencia para las sesiones simultáneas por proyecto de Firebase, así como para los tokens por minuto (TPM).
Gemini Developer API:
- Los límites varían según el Gemini Developer API "nivel de uso" de la API de Gemini Developer de tu proyecto (consulta su documentación sobre límites de frecuencia)
Vertex AI Gemini API:
- 1,000 sesiones simultáneas por proyecto de Firebase
- 4 millones de tokens por minuto
Formatos de audio
El Live API admite los siguientes formatos de audio:
- Formato de audio de entrada: Audio PCM sin procesar de 16 bits a 16 kHz little-endian
Formato de audio de salida: Audio PCM sin procesar de 16 bits a 24 kHz little-endian
Tipos MIME admitidos:
audio/x-aac,audio/flac,audio/mp3,audio/m4a,audio/mpeg,audio/mpga,audio/mp4,audio/ogg,audio/pcm,audio/wav,audio/webm
Para transmitir la tasa de muestreo del audio de entrada, establece el tipo de MIME de cada BLOB que contenga audio en un valor como audio/pcm;rate=16000.
Formatos de video
El Live API espera una secuencia de fotogramas de imagen discretos y admite la entrada de fotogramas de video a 1 fotograma por segundo (FPS).
Entrada recomendada: Resolución nativa de 768 x 768 a 1 FPS.
Tipos MIME admitidos:
video/x-flv,video/quicktime,video/mpeg,video/mpegs,video/mpg,video/mp4,video/webm,video/wmv,video/3gpp
Ten en cuenta que esta especificación hace que el Live API no sea adecuado para casos de uso que requieren analizar videos que cambian rápidamente, como la reproducción jugada por jugada en deportes de alta velocidad.
Voces de respuesta
El Live API admite las siguientes opciones de voz de respuesta. Para ver demostraciones de cómo suena cada voz, consulta Chirp 3: Voces en HD.
Si no especificas una voz de respuesta, el valor predeterminado es Puck.
Obtén información para especificar la voz de respuesta.
Zephyr -- BrillanteKore -- FirmeOrus -- FirmeAutonoe -- BrillanteUmbriel -- TranquilaErinome -- ClaraLaomedeia -- AnimadaSchedar -- ParejaAchird -- AmigableSadachbia -- Animada
|
Puck -- AnimadaFenrir -- ExcitadaAoede -- LigeraEnceladus -- EntrecortadaAlgieba -- SuaveAlgenib -- GraveAchernar -- SuaveGacrux -- MaduraZubenelgenubi -- InformalSadaltager -- Informada
|
Charon -- InformativaLeda -- JovenCallirrhoe -- TranquilaIapetus -- ClaraDespina -- SuaveRasalgethi -- InformativaAlnilam -- FirmePulcherrima -- DirectaVindemiatrix -- SuaveSulafat -- Cálida
|
Idiomas
El Live API admite los siguientes idiomas. Obtén información para influir en el idioma de respuesta.
| Idioma | Código BCP-47 | Idioma | Código BCP-47 |
|---|---|---|---|
| Árabe (Egipto) | ar-EG | Alemán (Alemania) | de-DE |
| Inglés (EE.UU.) | en-US | Español (EE.UU.) | es-US |
| Francés (Francia) | fr-FR | Hindi (India) | hi-IN |
| Indonesio (Indonesia) | id-ID | Italiano (Italia) | it-IT |
| Japonés (Japón) | ja-JP | Coreano (Corea) | ko-KR |
| Portugués (Brasil) | pt-BR | Ruso (Rusia) | ru-RU |
| Holandés (Países Bajos) | nl-NL | Polaco (Polonia) | pl-PL |
| Tailandés (Tailandia) | th-TH | Turco (Türkiye) | tr-TR |
| Vietnamita (Vietnam) | vi-VN | Rumano (Rumania) | ro-RO |
| Ucraniano (Ucrania) | uk-UA | Bengalí (Bangladés) | bn-BD |
| Inglés (India) | Paquete en-IN y hi-IN | Maratí (India) | mr-IN |
| Tamil (India) | ta-IN | Telugu (India) | te-IN |