Questa pagina descrive vari limiti e specifiche per l'utilizzo del Live API e dei relativi modelli.
Limiti relativi alle sessioni
Per l'Live API, una sessione si riferisce a una connessione persistente in cui l'input e l'output vengono trasmessi in streaming continuamente su una connessione.
Se la sessione supera uno qualsiasi dei seguenti limiti, la connessione viene terminata. Tieni presente, tuttavia, che il Live API fornisce alcune opzioni (vedi di seguito) per gestire questi limiti relativi alle sessioni.
La finestra contestuale della sessione è limitata a 128.000 token.
A causa di questo limite della finestra contestuale, ecco le durate massime approssimative delle sessioni in base alle modalità di input:
- Le sessioni di input solo audio sono limitate a
15 minuti . - L'input video + audio è limitato a
2 minuti .
- Le sessioni di input solo audio sono limitate a
La durata della connessione è limitata a circa
10 minuti .Riceverai una notifica di going away circa
60 secondi prima della fine della connessione.
Ecco alcune opzioni per gestire i limiti relativi alle sessioni:
Comprimi la finestra contestuale della sessione in modo che il server mantenga automaticamente le dimensioni del contesto entro il limite.
Riprendi una sessione per evitare di perdere il contesto della conversazione durante brevi disconnessioni di rete o dopo aver ricevuto una notifica di going away.
Scopri di più sulla gestione delle sessioni.
Limiti di frequenza
Il Live API ha limiti di frequenza sia per le sessioni simultanee per progetto Firebase sia per i token al minuto (TPM).
Gemini Developer API:
- I limiti variano in base al Gemini Developer API "livello di utilizzo" dell'API Gemini Developer del tuo progetto (consulta la documentazione sui limiti di frequenza)
Vertex AI Gemini API:
- 1000 sessioni simultanee per progetto Firebase
- 4 milioni di token al minuto
Formati audio
Il Live API supporta i seguenti formati audio:
- Formato audio di input:audio PCM a 16 bit non elaborato a 16 kHz little-endian
Formato audio di output:audio PCM a 16 bit non elaborato a 24 kHz little-endian
Tipi MIME supportati:
audio/x-aac,audio/flac,audio/mp3,audio/m4a,audio/mpeg,audio/mpga,audio/mp4,audio/ogg,audio/pcm,audio/wav,audio/webm
Per indicare la frequenza di campionamento dell'audio di input, imposta il tipo MIME di ogni blob contenente audio su un valore come audio/pcm;rate=16000.
Formati video
Il Live API prevede una sequenza di frame di immagini discreti e supporta l'input di frame video a 1 frame al secondo (FPS).
Input consigliato: risoluzione nativa 768x768 a 1 FPS.
Tipi MIME supportati:
video/x-flv,video/quicktime,video/mpeg,video/mpegs,video/mpg,video/mp4,video/webm,video/wmv,video/3gpp
Tieni presente che questa specifica rende il Live API inadatto ai casi d'uso che richiedono l'analisi di video in rapida evoluzione, come le riproduzioni in diretta di sport ad alta velocità.
Voci di risposta
Il Live API supporta le seguenti opzioni di voce di risposta. Per le demo di ogni voce, consulta Chirp 3: voci in HD.
Se non specifichi una voce di risposta, il valore predefinito è Puck.
Scopri come specificare la voce di risposta.
Zephyr -- BrillanteKore -- FermoOrus -- FermoAutonoe -- BrillanteUmbriel -- TranquilloErinome -- ChiaroLaomedeia -- AllegroSchedar -- UniformeAchird -- AmichevoleSadachbia -- Vivace
|
Puck -- AllegroFenrir -- EccitabileAoede -- SpensieratoEnceladus -- AnsimanteAlgieba -- FluidoAlgenib -- RaucoAchernar -- DolceGacrux -- MaturoZubenelgenubi -- InformaleSadaltager -- Competente
|
Charon -- InformativoLeda -- GiovanileCallirrhoe -- TranquilloIapetus -- ChiaroDespina -- FluidoRasalgethi -- InformativoAlnilam -- FermoPulcherrima -- DirettoVindemiatrix -- DelicatoSulafat -- Caldo
|
Lingue
Il Live API supporta le seguenti lingue. Scopri come influenzare la lingua di risposta.
| Lingua | Codice BCP-47 | Lingua | Codice BCP-47 |
|---|---|---|---|
| Arabo (egiziano) | ar-EG | Tedesco (Germania) | de-DE |
| Inglese (USA) | en-US | Spagnolo (USA) | es-US |
| Francese (Francia) | fr-FR | Hindi (India) | hi-IN |
| Indonesiano (Indonesia) | id-ID | Italiano (Italia) | it-IT |
| Giapponese (Giappone) | ja-JP | Coreano (Corea) | ko-KR |
| Portoghese (Brasile) | pt-BR | Russo (Russia) | ru-RU |
| Olandese (Paesi Bassi) | nl-NL | Polacco (Polonia) | pl-PL |
| Thailandese (Thailandia) | th-TH | Turco (Turchia) | tr-TR |
| Vietnamita (Vietnam) | vi-VN | Rumeno (Romania) | ro-RO |
| Ucraino (Ucraina) | uk-UA | Bengalese (Bangladesh) | bn-BD |
| Inglese (India) | Bundle en-IN e hi-IN | Marathi (India) | mr-IN |
| Tamil (India) | ta-IN | Telugu (India) | te-IN |