Limity i specyfikacje interfejsu Live API


Na tej stronie opisujemy różne limity i specyfikacje dotyczące korzystania z Live API i jego modeli.

Limity związane z sesjami

W przypadku Live API sesja to stałe połączenie, w ramach którego dane wejściowe i wyjściowe są przesyłane strumieniowo w sposób ciągły.

Jeśli sesja przekroczy którykolwiek z tych limitów, połączenie zostanie zakończone. Pamiętaj jednak, że Live API udostępnia kilka opcji (patrz poniżej), które pozwalają radzić sobie z tymi limitami związanymi z sesjami.

  • Okno kontekstu sesji jest ograniczone do 128 tys. tokenów.

    Ze względu na ten limit okna kontekstu podajemy przybliżone maksymalne długości sesji w zależności od rodzaju danych wejściowych:

    • Sesje wejściowe tylko z dźwiękiem są ograniczone do 15 minut.
    • Wejście wideo i audio jest ograniczone do 2 minut.
  • Długość połączenia jest ograniczona do około 10 minut.

    Otrzymasz powiadomienie o wycofaniu 60 sekund przed zakończeniem połączenia.

Oto kilka opcji radzenia sobie z limitami związanymi z sesjami:

  • Kompresuj okno kontekstu sesji, aby serwer automatycznie utrzymywał rozmiar kontekstu w ramach limitu.

  • Wznów sesję, aby uniknąć utraty kontekstu rozmowy podczas krótkich przerw w połączeniu z siecią lub po otrzymaniu powiadomienia o opuszczeniu.

Dowiedz się więcej o zarządzaniu sesjami.

Ograniczenia liczby żądań

Live API ma limity szybkości zarówno w przypadku sesji równoczesnych na projekt w Firebase, jak i tokenów na minutę (TPM).

  • Gemini Developer API:

  • Vertex AI Gemini API:

    • 1000 sesji równoczesnych na projekt w Firebase
    • 4 mln tokenów na minutę

Formaty audio

Live API obsługuje te formaty audio:

  • Format dźwięku wejściowego: surowy 16-bitowy dźwięk PCM o częstotliwości próbkowania 16 kHz w formacie little-endian
  • Format wyjściowy dźwięku: surowy 16-bitowy dźwięk PCM o częstotliwości próbkowania 24 kHz w formacie little-endian

  • Obsługiwane typy MIME: audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm

Aby przekazać częstotliwość próbkowania wejściowego dźwięku, ustaw typ MIME każdego obiektu Blob zawierającego dźwięk na wartość taką jak audio/pcm;rate=16000.

Formaty wideo

Live API oczekuje sekwencji oddzielnych klatek obrazu i obsługuje klatki wideo z szybkością 1 klatki na sekundę.

  • Zalecane dane wejściowe: natywna rozdzielczość 768 x 768 pikseli przy 1 klatce na sekundę.

  • Obsługiwane typy MIME: video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp

Pamiętaj, że ta specyfikacja sprawia, że Live API nie nadaje się do przypadków użycia, które wymagają analizowania szybko zmieniającego się obrazu, np. relacji z szybkich wydarzeń sportowych.

Głosy odpowiedzi

Live API obsługuje te opcje głosu odpowiedzi. Przykłady brzmienia poszczególnych głosów znajdziesz w artykule Chirp 3: głosy HD.

Jeśli nie określisz głosu odpowiedzi, domyślnie używany będzie głos Puck.

Dowiedz się, jak określić głos odpowiedzi.

Zephyr -- Bright
Kore -- Firm
Orus -- Firm
Autonoe -- Bright
Umbriel -- Easy-going
Erinome -- Clear
Laomedeia -- Upbeat
Schedar -- Even
Achird -- Friendly
Sadachbia -- Lively
Puck -- Optymistyczny
Fenrir -- Podekscytowany
Aoede -- Lekki
Enceladus -- Delikatny
Algieba -- Gładki
Algenib -- Chrapliwy
Achernar -- Miękki
Gacrux -- Dojrzały
Zubenelgenubi -- Swobodny
Sadaltager -- Wiedzący
Charon -- Informacyjny
Leda -- Młodzieńczy
Callirrhoe -- Spokojny
Iapetus -- Wyraźny
Despina -- Płynny
Rasalgethi -- Informacyjny
Alnilam -- Stanowczy
Pulcherrima -- Bezpośredni
Vindemiatrix -- Łagodny
Sulafat -- Ciepły

Języki

Live API obsługuje te języki. Dowiedz się, jak wpływać na język odpowiedzi.

Język Kod BCP-47 Język Kod BCP-47
arabski (egipski), ar-EG niemiecki (Niemcy) de-DE
angielski (USA) en-US hiszpański (USA) es-US
francuski (Francja) fr-FR hindi (Indie) hi-IN
indonezyjski (Indonezja) id-ID włoski (Włochy) it-IT
japoński (Japonia) ja-JP koreański (Korea) ko-KR
portugalski (Brazylia) pt-BR rosyjski (Rosja) ru-RU
niderlandzki (Holandia) nl-NL polski (Polska) pl-PL
tajski (Tajlandia) th-TH turecki (Turcja) tr-TR
wietnamski (Wietnam) vi-VN rumuński (Rumunia) ro-RO
ukraiński (Ukraina) uk-UA bengalski (Bangladesz) bn-BD
angielski (Indie) Pakiet en-IN i hi-IN marathi (Indie) mr-IN
tamilski (Indie) ta-IN telugu (Indie) te-IN