Questa pagina descrive vari limiti e specifiche per l'utilizzo del Live API e dei relativi modelli.
Limiti relativi alle sessioni
Per l'Live API, una sessione si riferisce a una connessione persistente in cui input e output vengono trasmessi in streaming continuo sulla stessa connessione.
Se la sessione supera uno qualsiasi dei seguenti limiti, la connessione viene terminata.
La durata della connessione è limitata a circa 10 minuti.
La durata della sessione dipende dalle modalità di input:
- Le sessioni di input solo audio sono limitate a 15 minuti.
- L'input video + audio è limitato a 2 minuti.
La finestra contestuale della sessione è limitata a 128.000 token.
Prima della fine della connessione, riceverai una notifica going away che ti consentirà di intraprendere ulteriori azioni.
Scopri di più sulla gestione delle sessioni.
Limiti di frequenza
Il Live API ha limiti di frequenza sia per le sessioni simultanee per progetto Firebase sia per i token al minuto (TPM).
Gemini Developer API:
- I limiti variano in base al Gemini Developer API "livello di utilizzo" dell'API Gemini Developer del tuo progetto (consulta la documentazione sui limiti di frequenza)
Vertex AI Gemini API:
- 1000 sessioni simultanee per progetto Firebase
- 4 milioni di token al minuto
Formati audio
Il Live API supporta i seguenti formati audio:
- Formato audio di input:audio PCM a 16 bit non elaborato a 16 kHz little-endian
Formato audio di output:audio PCM a 16 bit non elaborato a 24 kHz little-endian
Tipi MIME supportati:
audio/x-aac,audio/flac,audio/mp3,audio/m4a,audio/mpeg,audio/mpga,audio/mp4,audio/ogg,audio/pcm,audio/wav,audio/webm
Per indicare la frequenza di campionamento dell'audio di input, imposta il tipo MIME di ogni blob contenente audio su un valore come audio/pcm;rate=16000.
Formati video
Il Live API prevede una sequenza di frame di immagini discreti e supporta l'input di frame video a 1 frame al secondo (FPS).
Input consigliato: risoluzione nativa 768x768 a 1 FPS.
Tipi MIME supportati:
video/x-flv,video/quicktime,video/mpeg,video/mpegs,video/mpg,video/mp4,video/webm,video/wmv,video/3gpp
Tieni presente che questa specifica rende il Live API inadatto ai casi d'uso che richiedono l'analisi di video in rapida evoluzione, come le azioni di gioco negli sport ad alta velocità.
Voci di risposta
Il Live API supporta le seguenti opzioni di voce di risposta. Per le demo di ogni voce, consulta Voci in HD Chirp 3.
Se non specifichi una voce di risposta, il valore predefinito è Puck.
Scopri come specificare la voce di risposta.
Zephyr -- BrillanteKore -- FermoOrus -- FermoAutonoe -- BrillanteUmbriel -- TranquilloErinome -- ChiaroLaomedeia -- VivaceSchedar -- UniformeAchird -- AmichevoleSadachbia -- Vivace
|
Puck -- VivaceFenrir -- EccitabileAoede -- SpensieratoEnceladus -- SussurratoAlgieba -- FluidoAlgenib -- RaucoAchernar -- DolceGacrux -- MaturoZubenelgenubi -- InformaleSadaltager -- Competente
|
Charon -- InformativoLeda -- GiovanileCallirrhoe -- TranquilloIapetus -- ChiaroDespina -- FluidoRasalgethi -- InformativoAlnilam -- FermoPulcherrima -- DirettoVindemiatrix -- DelicatoSulafat -- Caldo
|
Lingue
Il Live API supporta le seguenti lingue. Scopri come influenzare la lingua di risposta.
| Lingua | Codice BCP-47 | Lingua | Codice BCP-47 |
|---|---|---|---|
| Arabo (egiziano) | ar-EG | Tedesco (Germania) | de-DE |
| Inglese (USA) | en-US | Spagnolo (USA) | es-US |
| Francese (Francia) | fr-FR | Hindi (India) | hi-IN |
| Indonesiano (Indonesia) | id-ID | Italiano (Italia) | it-IT |
| Giapponese (Giappone) | ja-JP | Coreano (Corea) | ko-KR |
| Portoghese (Brasile) | pt-BR | Russo (Russia) | ru-RU |
| Olandese (Paesi Bassi) | nl-NL | Polacco (Polonia) | pl-PL |
| Thailandese (Thailandia) | th-TH | Turco (Turchia) | tr-TR |
| Vietnamita (Vietnam) | vi-VN | Rumeno (Romania) | ro-RO |
| Ucraino (Ucraina) | uk_UA | Bengalese (Bangladesh) | bn-BD |
| Inglese (India) | Bundle en-IN e hi-IN | Marathi (India) | mr-IN |
| Tamil (India) | ta-IN | Telugu (India) | te-IN |