Na tej stronie opisujemy różne limity i specyfikacje dotyczące korzystania z Live API i jego modeli.
Limity związane z sesją
W przypadku interfejsu Live API API sesja odnosi się do trwałego połączenia, w którym dane wejściowe i wyjściowe są przesyłane strumieniowo w sposób ciągły.
Jeśli sesja przekroczy którykolwiek z tych limitów, połączenie zostanie zakończone. Pamiętaj jednak, że Live API udostępnia kilka opcji (patrz poniżej), które pozwalają radzić sobie z tymi limitami związanymi z sesją.
Okno kontekstu sesji jest ograniczone do 128 tys. tokenów.
Ze względu na ten limit okna kontekstu przybliżone maksymalne długości sesji na podstawie modalności wejściowych są takie:
- Sesje z wejściem tylko audio są ograniczone do
15 minut . - Sesje z wejściem wideo i audio są ograniczone do
2 minut .
- Sesje z wejściem tylko audio są ograniczone do
Długość połączenia jest ograniczona do około
10 minut .Około
60 sekund przed zakończeniem połączenia otrzymasz powiadomienie going away.
Oto kilka opcji radzenia sobie z limitami związanymi z sesją:
Skompresuj okno kontekstu sesji aby serwer automatycznie utrzymywał rozmiar kontekstu w ramach limitu.
Wznów sesję aby zapobiec utracie kontekstu rozmowy podczas krótkich przerw w połączeniu sieciowym lub po otrzymaniu powiadomienia going away.
Dowiedz się więcej o zarządzaniu sesjami.
Ograniczenia liczby żądań
Interfejs Live API ma ograniczenia liczby żądań zarówno w przypadku jednoczesnych sesji na projekt w Firebase, jak i tokenów na minutę (TPM).
Gemini Developer API:
- Limity różnią się w zależności od Gemini Developer API „poziomu wykorzystania” interfejsu Gemini Developer API projektu (więcej informacji znajdziesz w dokumentacji dotyczącej ograniczeń liczby żądań).
Vertex AI Gemini API:
- 1000 jednoczesnych sesji na projekt w Firebase
- 4 mln tokenów na minutę
Formaty audio
Live API obsługuje te formaty audio:
- Format audio wejściowego: surowe 16-bitowe audio PCM w formacie little-endian z częstotliwością próbkowania 16 kHz.
Format audio wyjściowego: surowe 16-bitowe audio PCM w formacie little-endian z częstotliwością próbkowania 24 kHz.
Obsługiwane typy MIME:
audio/x-aac,audio/flac,audio/mp3,audio/m4a,audio/mpeg,audio/mpga,audio/mp4,audio/ogg,audio/pcm,audio/wav,audio/webm.
Aby przekazać częstotliwość próbkowania dźwięku wejściowego, ustaw typ MIME każdego obiektu Blob zawierającego dźwięk na wartość taką jak audio/pcm;rate=16000.
Formaty wideo
Live API oczekuje sekwencji dyskretnych klatek obrazu i obsługuje klatki wideo z szybkością 1 klatka na sekundę.
Zalecane dane wejściowe: natywna rozdzielczość 768 x 768 przy 1 klatce na sekundę.
Obsługiwane typy MIME:
video/x-flv,video/quicktime,video/mpeg,video/mpegs,video/mpg,video/mp4,video/webm,video/wmv,video/3gpp.
Pamiętaj, że ta specyfikacja sprawia, że Live API nie nadaje się do przypadków użycia które wymagają analizowania szybko zmieniającego się obrazu, np. do relacji na żywo z szybkich sportów.
Głosy odpowiedzi
Interfejs Live API obsługuje te opcje głosu odpowiedzi. Przykłady brzmienia poszczególnych głosów znajdziesz w artykule Chirp 3: HD voices.
Jeśli nie określisz głosu odpowiedzi, domyślnie używany jest głos Puck.
Dowiedz się, jak określić głos odpowiedzi.
Zephyr – jasnyKore – stanowczyOrus – stanowczyAutonoe – jasnyUmbriel – spokojnyErinome – wyraźnyLaomedeia – radosnySchedar – równyAchird – przyjaznySadachbia – żywy
|
Puck – radosnyFenrir – pobudliwyAoede – lekkiEnceladus – szeptliwyAlgieba – łagodnyAlgenib – chropawyAchernar – cichyGacrux – dojrzałyZubenelgenubi – swobodnySadaltager – wiedzący
|
Charon – informacyjnyLeda – młodzieńczyCallirrhoe – spokojnyIapetus – wyraźnyDespina – łagodnyRasalgethi – informacyjnyAlnilam – stanowczyPulcherrima – bezpośredniVindemiatrix – delikatnySulafat – ciepły
|
Języki
Live API obsługuje te języki. Dowiedz się, jak wpływać na język odpowiedzi.
| Język | Kod BCP-47 | Język | Kod BCP-47 |
|---|---|---|---|
| arabski (egipski) | ar-EG | niemiecki (Niemcy) | de-DE |
| angielski (USA) | en-US | hiszpański (USA) | es-US |
| francuski (Francja) | fr-FR | hindi (Indie) | hi-IN |
| indonezyjski (Indonezja) | id-ID | włoski (Włochy) | it-IT |
| japoński (Japonia) | ja-JP | koreański (Korea) | ko-KR |
| portugalski (Brazylia) | pt-BR | rosyjski (Rosja) | ru-RU |
| niderlandzki (Holandia) | nl-NL | polski (Polska) | pl-PL |
| tajski (Tajlandia) | th-TH | turecki (Turcja) | tr-TR |
| wietnamski (Wietnam) | vi-VN | rumuński (Rumunia) | ro-RO |
| ukraiński (Ukraina) | uk-UA | bengalski (Bangladesz) | bn-BD |
| angielski (Indie) | pakiet en-IN i hi-IN | marathi (Indie) | mr-IN |
| tamilski (Indie) | ta-IN | telugu (Indie) | te-IN |