Limites e especificações da API Live 


Esta página descreve vários limites e especificações para usar a Live API e os modelos dela.

Limites relacionados à sessão

Para a Live API, uma sessão se refere a uma conexão persistente em que a entrada e a saída são transmitidas continuamente pela mesma conexão.

Se a sessão exceder qualquer um dos limites a seguir, a conexão será encerrada.

  • A duração da conexão é limitada a cerca de 10 minutos.

  • A duração da sessão depende das modalidades de entrada:

    • As sessões de entrada somente de áudio são limitadas a 15 minutos.
    • As entradas de vídeo e áudio são limitadas a 2 minutos.
  • A janela de contexto da sessão é limitada a 128 mil tokens.

Você vai receber uma notificação de encerramento antes do fim da conexão, permitindo que você tome outras medidas.

Saiba mais sobre como gerenciar sessões.

Limites de taxas

O Live API tem limites de taxas para sessões simultâneas por projeto do Firebase e para tokens por minuto (TPM).

  • Gemini Developer API:

    • Os limites variam de acordo com o Gemini Developer API "nível de uso" da API Gemini Developer do seu projeto. Consulte a documentação sobre limites de taxas.
  • Vertex AI Gemini API:

    • 1.000 sessões simultâneas por projeto do Firebase
    • 4 milhões de tokens por minuto

Formatos de áudio

O Live API oferece suporte aos seguintes formatos de áudio:

  • Formato de áudio de entrada:áudio PCM bruto de 16 bits a 16 kHz little-endian
  • Formato de áudio de saída:áudio PCM bruto de 16 bits a 24 kHz little-endian

  • Tipos MIME aceitos: audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm

Para transmitir a taxa de amostragem do áudio de entrada, defina o tipo MIME de cada blob que contém áudio para um valor como audio/pcm;rate=16000.

Formatos de vídeo

O Live API espera uma sequência de frames de imagem discretos e oferece suporte à entrada de frames de vídeo a 1 quadro por segundo (QPS).

  • Entrada recomendada: resolução nativa de 768 x 768 a 1 QPS.

  • Tipos MIME aceitos: video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp

Essa especificação torna o Live API inadequado para casos de uso que exigem a análise de vídeos em rápida mudança, como transmissões de esportes de alta velocidade.

Vozes de resposta

O Live API oferece suporte às seguintes opções de voz de resposta. Para demonstrações de como cada voz soa, consulte Chirp 3: vozes em alta definição.

Se você não especificar uma voz de resposta, o padrão será Puck.

Saiba como especificar a voz de resposta.

Zephyr -- Brilhante
Kore -- Firme
Orus -- Firme
Autonoe -- Brilhante
Umbriel -- Descontraída
Erinome -- Clara
Laomedeia -- Animada
Schedar -- Equilibrada
Achird -- Amigável
Sadachbia -- Animada
Puck -- Animada
Fenrir -- Excitável
Aoede -- Leve
Enceladus -- Ofegante
Algieba -- Suave
Algenib -- Grave
Achernar -- Suave
Gacrux -- Madura
Zubenelgenubi -- Casual
Sadaltager -- Conhecedora
Charon -- Informativa
Leda -- Jovem
Callirrhoe -- Descontraída
Iapetus -- Clara
Despina -- Suave
Rasalgethi -- Informativa
Alnilam -- Firme
Pulcherrima -- Direta
Vindemiatrix -- Gentil
Sulafat -- Acolhedora

Idiomas

O Live API oferece suporte aos seguintes idiomas. Saiba como influenciar o idioma da resposta.

Idioma Código BCP-47 Idioma Código BCP-47
Árabe (egípcio) ar-EG Alemão (Alemanha) de-DE
Inglês (EUA) en-US Espanhol (EUA) es-US
Francês (França) fr-FR Híndi (Índia) hi-IN
Indonésio (Indonésia) id-ID Italiano (Itália) it-IT
Japonês (Japão) ja-JP Coreano (Coreia) ko-KR
Português (Brasil) pt-BR Russo (Rússia) ru-RU
Holandês (Holanda) nl-NL Polonês (Polônia) pl-PL
Tailandês (Tailândia) th-TH Turco (Turquia) tr-TR
Vietnamita (Vietnã) vi-VN Romeno (Romênia) ro-RO
Ucraniano (Ucrânia) uk-UA Bengali (Bangladesh) bn-BD
Inglês (Índia)‎ Pacote en-IN e hi-IN Marati (Índia) mr-IN
Tâmil (Índia) ta-IN Telugu (Índia) te-IN