Límites y especificaciones de la API de Live


En esta página, se describen varios límites y especificaciones para usar la Live API y sus modelos.

Límites relacionados con la sesión

En el caso de la Live API, una sesión hace referencia a una conexión persistente en la que la entrada y la salida se transmiten de forma continua a través de la misma conexión.

Si la sesión supera cualquiera de los siguientes límites, se finaliza la conexión.

  • La duración de la conexión se limita a unos 10 minutos.

  • La duración de la sesión depende de las modalidades de entrada:

    • Las sesiones de entrada solo de audio se limitan a 15 minutos.
    • La entrada de video y audio se limita a 2 minutos.
  • La ventana de contexto de la sesión se limita a 128,000 tokens.

Recibirás una notificación de desaparición antes de que finalice la conexión, lo que te permitirá realizar más acciones.

Obtén más información sobre cómo administrar sesiones.

Límites de frecuencia

El Live API tiene límites de frecuencia para las sesiones simultáneas por proyecto de Firebase, así como para los tokens por minuto (TPM).

  • Gemini Developer API:

  • Vertex AI Gemini API:

    • 1,000 sesiones simultáneas por proyecto de Firebase
    • 4 millones de tokens por minuto

Formatos de audio

El Live API admite los siguientes formatos de audio:

  • Formato de audio de entrada: Audio PCM sin procesar de 16 bits a 16 kHz little-endian
  • Formato de audio de salida: Audio PCM sin procesar de 16 bits a 24 kHz little-endian

  • Tipos MIME admitidos: audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm

Para transmitir la frecuencia de muestreo del audio de entrada, establece el tipo MIME de cada BLOB que contenga audio en un valor como audio/pcm;rate=16000.

Formatos de video

El Live API espera una secuencia de fotogramas de imagen discretos y admite la entrada de fotogramas de video a 1 fotograma por segundo (FPS).

  • Entrada recomendada: Resolución nativa de 768 x 768 a 1 FPS.

  • Tipos MIME admitidos: video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp

Ten en cuenta que esta especificación hace que el Live API no sea adecuado para casos de uso que requieren analizar videos que cambian rápidamente, como la reproducción jugada por jugada en deportes de alta velocidad.

Voces de respuesta

El Live API admite las siguientes opciones de voz de respuesta. Para ver demostraciones de cómo suena cada voz, consulta Chirp 3: Voces en HD.

Si no especificas una voz de respuesta, la predeterminada es Puck.

Obtén información para especificar la voz de respuesta.

Zephyr -- Brillante
Kore -- Firme
Orus -- Firme
Autonoe -- Brillante
Umbriel -- Tranquila
Erinome -- Clara
Laomedeia -- Animada
Schedar -- Pareja
Achird -- Amigable
Sadachbia -- Animada
Puck -- Animada
Fenrir -- Excitante
Aoede -- Ligera
Enceladus -- Entrecortada
Algieba -- Suave
Algenib -- Grave
Achernar -- Suave
Gacrux -- Madura
Zubenelgenubi -- Informal
Sadaltager -- Conocedora
Charon -- Informativa
Leda -- Joven
Callirrhoe -- Tranquila
Iapetus -- Clara
Despina -- Suave
Rasalgethi -- Informativa
Alnilam -- Firme
Pulcherrima -- Directa
Vindemiatrix -- Suave
Sulafat -- Cálida

Idiomas

El Live API admite los siguientes idiomas. Obtén información para influir en el idioma de respuesta.

Idioma Código BCP-47 Idioma Código BCP-47
Árabe (Egipto) ar-EG Alemán (Alemania) de-DE
Inglés (EE.UU.) en-US Español (EE.UU.) es-US
Francés (Francia) fr-FR Hindi (India) hi-IN
Indonesio (Indonesia) id-ID Italiano (Italia) it-IT
Japonés (Japón) ja-JP Coreano (Corea) ko-KR
Portugués (Brasil) pt-BR Ruso (Rusia) ru-RU
Holandés (Países Bajos) nl-NL Polaco (Polonia) pl-PL
Tailandés (Tailandia) th-TH Turco (Türkiye) tr-TR
Vietnamita (Vietnam) vi-VN Rumano (Rumania) ro-RO
Ucraniano (Ucrania) uk-UA Bengalí (Bangladés) bn-BD
Inglés (India) Paquete en-IN y hi-IN Maratí (India) mr-IN
Tamil (India) ta-IN Telugu (India) te-IN