Límites y especificaciones de la API de Live


En esta página, se describen varios límites y especificaciones para usar Live API y sus modelos.

Límites relacionados con la sesión

En el caso de Live API, una sesión hace referencia a una conexión persistente en la que la entrada y la salida se transmiten de forma continua a través de una conexión.

Si la sesión supera cualquiera de los siguientes límites, se finalizará la conexión. Sin embargo, ten en cuenta que Live API proporciona algunas opciones (consulta a continuación) para controlar estos límites relacionados con las sesiones.

  • La ventana de contexto de la sesión está limitada a 128,000 tokens.

    Debido a este límite de la ventana de contexto, estas son las longitudes máximas aproximadas de las sesiones según las modalidades de entrada:

    • Las sesiones de entrada solo de audio tienen un límite de 15 minutos.
    • La entrada de audio y video se limita a 2 minutos.
  • La duración de la conexión se limita a unos 10 minutos.

    Recibirás una notificación de finalización unos 60 segundos antes de que finalice la conexión.

Estas son algunas opciones para controlar los límites relacionados con las sesiones:

Obtén más información para administrar sesiones.

Límites de frecuencia

Live API tiene límites de frecuencia para las sesiones simultáneas por proyecto de Firebase y para los tokens por minuto (TPM).

  • Gemini Developer API

  • Vertex AI Gemini API

    • 1,000 sesiones simultáneas por proyecto de Firebase
    • 4 millones de tokens por minuto

Formatos de audio

La herramienta Live API admite los siguientes formatos de audio:

  • Formato de audio de entrada: Audio PCM sin procesar de 16 bits a 16 kHz little-endian
  • Formato de audio de salida: Audio PCM sin procesar de 16 bits a 24 kHz little-endian

  • Tipos de MIME admitidos: audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm

Para transmitir la tasa de muestreo del audio de entrada, establece el tipo de MIME de cada Blob que contenga audio en un valor como audio/pcm;rate=16000.

Formatos de video

Live API espera una secuencia de fotogramas de imágenes discretos y admite la entrada de fotogramas de video a 1 fotograma por segundo (FPS).

  • Entrada recomendada: Resolución nativa de 768 x 768 a 1 FPS.

  • Tipos de MIME admitidos: video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp

Ten en cuenta que esta especificación hace que Live API no sea adecuado para los casos de uso que requieren analizar videos de cambios rápidos, como el seguimiento jugada por jugada en deportes de alta velocidad.

Voces de respuesta

Live API admite las siguientes opciones de voz de respuesta. Para ver demostraciones de cómo suena cada voz, consulta Chirp 3: Voces en HD.

Si no especificas una voz de respuesta, la predeterminada es Puck.

Obtén más información para especificar la voz de la respuesta.

Zephyr: Brillante
Kore: Firme
Orus: Firme
Autonoe: Brillante
Umbriel: Tranquilo
Erinome: Claro
Laomedeia: Optimista
Schedar: Uniforme
Achird: Amable
Sadachbia: Animado
Puck: Optimista
Fenrir: Entusiasmado
Aoede: Ligero
Enceladus: Susurrante
Algieba: Suave
Algenib: Grave
Achernar: Suave
Gacrux: Maduro
Zubenelgenubi: Informal
Sadaltager: Informativo
Charon -- Informativo
Leda -- Juvenil
Callirrhoe -- Relajado
Iapetus -- Claro
Despina -- Suave
Rasalgethi -- Informativo
Alnilam -- Firme
Pulcherrima -- Directo
Vindemiatrix -- Suave
Sulafat -- Cálido

Idiomas

Live API admite los siguientes idiomas. Obtén más información para influir en el idioma de la respuesta.

Idioma Código BCP-47 Idioma Código BCP-47
Árabe (Egipto) ar-EG Alemán (Alemania) de-DE
Inglés (EE.UU.) en-US Español (EE.UU.) es-US
Francés (Francia) fr-FR Hindi (India) hi-IN
Indonesio (Indonesia) id-ID Italiano (Italia) it-IT
Japonés (Japón) ja-JP Coreano (Corea) ko-KR
Portugués (Brasil) pt-BR Ruso (Rusia) ru-RU
Holandés (Países Bajos) nl-NL Polaco (Polonia) pl-PL
Tailandés (Tailandia) th-TH Turco (Türkiye) tr-TR
Vietnamita (Vietnam) vi-VN Rumano (Rumania) ro-RO
Ucraniano (Ucrania) uk-UA Bengalí (Bangladés) bn-BD
Inglés (India) Paquete en hi-IN y en-IN Maratí (India) mr-IN
Tamil (India) ta-IN Telugu (India) te-IN