Limity i specyfikacje interfejsu Live API


Na tej stronie opisujemy różne limity i specyfikacje dotyczące korzystania z Live API i jego modeli.

Limity związane z sesją

W przypadku interfejsu Live API API sesja odnosi się do trwałego połączenia, w którym dane wejściowe i wyjściowe są przesyłane strumieniowo w sposób ciągły.

Jeśli sesja przekroczy którykolwiek z tych limitów, połączenie zostanie zakończone. Pamiętaj jednak, że Live API udostępnia kilka opcji (patrz poniżej), które pozwalają radzić sobie z tymi limitami związanymi z sesją.

  • Okno kontekstu sesji jest ograniczone do 128 tys. tokenów.

    Ze względu na ten limit okna kontekstu przybliżone maksymalne długości sesji na podstawie modalności wejściowych są takie:

    • Sesje z wejściem tylko audio są ograniczone do 15 minut.
    • Sesje z wejściem wideo i audio są ograniczone do 2 minut.
  • Długość połączenia jest ograniczona do około 10 minut.

    Około 60 sekund przed zakończeniem połączenia otrzymasz powiadomienie going away.

Oto kilka opcji radzenia sobie z limitami związanymi z sesją:

  • Skompresuj okno kontekstu sesji aby serwer automatycznie utrzymywał rozmiar kontekstu w ramach limitu.

  • Wznów sesję aby zapobiec utracie kontekstu rozmowy podczas krótkich przerw w połączeniu sieciowym lub po otrzymaniu powiadomienia going away.

Dowiedz się więcej o zarządzaniu sesjami.

Ograniczenia liczby żądań

Interfejs Live API ma ograniczenia liczby żądań zarówno w przypadku jednoczesnych sesji na projekt w Firebase, jak i tokenów na minutę (TPM).

  • Gemini Developer API:

  • Vertex AI Gemini API:

    • 1000 jednoczesnych sesji na projekt w Firebase
    • 4 mln tokenów na minutę

Formaty audio

Live API obsługuje te formaty audio:

  • Format audio wejściowego: surowe 16-bitowe audio PCM w formacie little-endian z częstotliwością próbkowania 16 kHz.
  • Format audio wyjściowego: surowe 16-bitowe audio PCM w formacie little-endian z częstotliwością próbkowania 24 kHz.

  • Obsługiwane typy MIME: audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm.

Aby przekazać częstotliwość próbkowania dźwięku wejściowego, ustaw typ MIME każdego obiektu Blob zawierającego dźwięk na wartość taką jak audio/pcm;rate=16000.

Formaty wideo

Live API oczekuje sekwencji dyskretnych klatek obrazu i obsługuje klatki wideo z szybkością 1 klatka na sekundę.

  • Zalecane dane wejściowe: natywna rozdzielczość 768 x 768 przy 1 klatce na sekundę.

  • Obsługiwane typy MIME: video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp.

Pamiętaj, że ta specyfikacja sprawia, że Live API nie nadaje się do przypadków użycia które wymagają analizowania szybko zmieniającego się obrazu, np. do relacji na żywo z szybkich sportów.

Głosy odpowiedzi

Interfejs Live API obsługuje te opcje głosu odpowiedzi. Przykłady brzmienia poszczególnych głosów znajdziesz w artykule Chirp 3: HD voices.

Jeśli nie określisz głosu odpowiedzi, domyślnie używany jest głos Puck.

Dowiedz się, jak określić głos odpowiedzi.

Zephyrjasny
Korestanowczy
Orusstanowczy
Autonoejasny
Umbrielspokojny
Erinomewyraźny
Laomedeiaradosny
Schedarrówny
Achirdprzyjazny
Sadachbiażywy
Puckradosny
Fenrirpobudliwy
Aoedelekki
Enceladusszeptliwy
Algiebałagodny
Algenibchropawy
Achernarcichy
Gacruxdojrzały
Zubenelgenubiswobodny
Sadaltagerwiedzący
Charoninformacyjny
Ledamłodzieńczy
Callirrhoespokojny
Iapetuswyraźny
Despinałagodny
Rasalgethiinformacyjny
Alnilamstanowczy
Pulcherrimabezpośredni
Vindemiatrixdelikatny
Sulafatciepły

Języki

Live API obsługuje te języki. Dowiedz się, jak wpływać na język odpowiedzi.

Język Kod BCP-47 Język Kod BCP-47
arabski (egipski) ar-EG niemiecki (Niemcy) de-DE
angielski (USA) en-US hiszpański (USA) es-US
francuski (Francja) fr-FR hindi (Indie) hi-IN
indonezyjski (Indonezja) id-ID włoski (Włochy) it-IT
japoński (Japonia) ja-JP koreański (Korea) ko-KR
portugalski (Brazylia) pt-BR rosyjski (Rosja) ru-RU
niderlandzki (Holandia) nl-NL polski (Polska) pl-PL
tajski (Tajlandia) th-TH turecki (Turcja) tr-TR
wietnamski (Wietnam) vi-VN rumuński (Rumunia) ro-RO
ukraiński (Ukraina) uk-UA bengalski (Bangladesz) bn-BD
angielski (Indie) pakiet en-IN i hi-IN marathi (Indie) mr-IN
tamilski (Indie) ta-IN telugu (Indie) te-IN