Limiti e specifiche dell'API Live 


Questa pagina descrive vari limiti e specifiche per l'utilizzo del Live API e dei relativi modelli.

Limiti relativi alle sessioni

Per l'Live API, una sessione si riferisce a una connessione persistente in cui l'input e l'output vengono trasmessi in streaming continuamente su una connessione.

Se la sessione supera uno qualsiasi dei seguenti limiti, la connessione viene terminata. Tieni presente, tuttavia, che il Live API fornisce alcune opzioni (vedi di seguito) per gestire questi limiti relativi alle sessioni.

  • La finestra contestuale della sessione è limitata a 128.000 token.

    A causa di questo limite della finestra contestuale, ecco le durate massime approssimative delle sessioni in base alle modalità di input:

    • Le sessioni di input solo audio sono limitate a 15 minuti.
    • L'input video + audio è limitato a 2 minuti.
  • La durata della connessione è limitata a circa 10 minuti.

    Riceverai una notifica di going away circa 60 secondi prima della fine della connessione.

Ecco alcune opzioni per gestire i limiti relativi alle sessioni:

Scopri di più sulla gestione delle sessioni.

Limiti di frequenza

Il Live API ha limiti di frequenza sia per le sessioni simultanee per progetto Firebase sia per i token al minuto (TPM).

  • Gemini Developer API:

  • Vertex AI Gemini API:

    • 1000 sessioni simultanee per progetto Firebase
    • 4 milioni di token al minuto

Formati audio

Il Live API supporta i seguenti formati audio:

  • Formato audio di input:audio PCM a 16 bit non elaborato a 16 kHz little-endian
  • Formato audio di output:audio PCM a 16 bit non elaborato a 24 kHz little-endian

  • Tipi MIME supportati: audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm

Per indicare la frequenza di campionamento dell'audio di input, imposta il tipo MIME di ogni blob contenente audio su un valore come audio/pcm;rate=16000.

Formati video

Il Live API prevede una sequenza di frame di immagini discreti e supporta l'input di frame video a 1 frame al secondo (FPS).

  • Input consigliato: risoluzione nativa 768x768 a 1 FPS.

  • Tipi MIME supportati: video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp

Tieni presente che questa specifica rende il Live API inadatto ai casi d'uso che richiedono l'analisi di video in rapida evoluzione, come le riproduzioni in diretta di sport ad alta velocità.

Voci di risposta

Il Live API supporta le seguenti opzioni di voce di risposta. Per le demo di ogni voce, consulta Chirp 3: voci in HD.

Se non specifichi una voce di risposta, il valore predefinito è Puck.

Scopri come specificare la voce di risposta.

Zephyr -- Brillante
Kore -- Fermo
Orus -- Fermo
Autonoe -- Brillante
Umbriel -- Tranquillo
Erinome -- Chiaro
Laomedeia -- Allegro
Schedar -- Uniforme
Achird -- Amichevole
Sadachbia -- Vivace
Puck -- Allegro
Fenrir -- Eccitabile
Aoede -- Spensierato
Enceladus -- Ansimante
Algieba -- Fluido
Algenib -- Rauco
Achernar -- Dolce
Gacrux -- Maturo
Zubenelgenubi -- Informale
Sadaltager -- Competente
Charon -- Informativo
Leda -- Giovanile
Callirrhoe -- Tranquillo
Iapetus -- Chiaro
Despina -- Fluido
Rasalgethi -- Informativo
Alnilam -- Fermo
Pulcherrima -- Diretto
Vindemiatrix -- Delicato
Sulafat -- Caldo

Lingue

Il Live API supporta le seguenti lingue. Scopri come influenzare la lingua di risposta.

Lingua Codice BCP-47 Lingua Codice BCP-47
Arabo (egiziano) ar-EG Tedesco (Germania) de-DE
Inglese (USA) en-US Spagnolo (USA) es-US
Francese (Francia) fr-FR Hindi (India) hi-IN
Indonesiano (Indonesia) id-ID Italiano (Italia) it-IT
Giapponese (Giappone) ja-JP Coreano (Corea) ko-KR
Portoghese (Brasile) pt-BR Russo (Russia) ru-RU
Olandese (Paesi Bassi) nl-NL Polacco (Polonia) pl-PL
Thailandese (Thailandia) th-TH Turco (Turchia) tr-TR
Vietnamita (Vietnam) vi-VN Rumeno (Romania) ro-RO
Ucraino (Ucraina) uk-UA Bengalese (Bangladesh) bn-BD
Inglese (India) Bundle en-IN e hi-IN Marathi (India) mr-IN
Tamil (India) ta-IN Telugu (India) te-IN