Ограничения и технические характеристики Live API


На этой странице описаны различные ограничения и требования к использованию Live API и его моделей.

Ограничения, связанные с сессией

В контексте Live API сессия обозначает постоянное соединение, при котором входные и выходные данные непрерывно передаются по одному и тому же соединению.

Если продолжительность сеанса превысит любой из следующих лимитов, соединение будет разорвано.

  • Продолжительность соединения ограничена примерно 10 минутами.

  • Длительность сеанса зависит от используемых способов ввода:

    • Продолжительность сеансов ввода только аудиоконтента ограничена 15 минутами.
    • Видео- и аудиовходы ограничены 2 минутами.
  • Окно контекста сессии ограничено 128 тысячами токенов.

Ограничения скорости

В Live API установлены ограничения на количество одновременных сессий в одном проекте Firebase, а также на количество токенов в минуту (TPM).

  • API разработчика Gemini :

  • API Vertex AI Gemini :

    • 5000 одновременных сессий на один проект Firebase
    • 4 миллиона токенов в минуту

Аудиоформаты

Live API поддерживает следующие аудиоформаты:

  • Входной аудиоформат: необработанный 16-битный PCM-аудио с частотой дискретизации 16 кГц, little-endian.
  • Выходной аудиоформат: необработанный 16-битный PCM-аудио с частотой дискретизации 24 кГц, little-endian.

Для передачи частоты дискретизации входного аудиосигнала установите MIME-тип каждого содержащего аудиообъекта Blob на значение, например, audio/pcm;rate=16000 .

Видеоформаты

Live API ожидает последовательность дискретных кадров изображения и поддерживает ввод видеокадров со скоростью 1 кадр в секунду (FPS). Для достижения наилучших результатов используйте собственное разрешение 768x768 при 1 FPS.

Следует отметить, что данная спецификация делает Live API непригодным для сценариев использования, требующих анализа быстро меняющегося видео, например, для оперативного освещения спортивных событий.

Ответные голоса

Live API поддерживает следующие варианты голосового ответа. Демонстрацию звучания каждого голоса см. в разделе Chirp 3: HD voices .

Если вы не укажете голос для ответа, по умолчанию будет использоваться Puck .

Узнайте, как задать голос ответа .

Zephyr -- Яркий
Kore -- Фирма
OrusФирма
AutonoeЯркое
Umbrielдобродушный
Erinome -- Чистый
Laomedeiaоптимистичная
Schedarдаже
AchirdДружелюбный
Sadachbia -- Оживлённый
Puckоптимистичный
FenrirВозбудимый
Aoede -- Бризи
EnceladusХрипловатый
Algieba -- Гладкая
Algenib -- Грейвли
AchernarМягкий
Gacruxзрелый
Zubenelgenubi -- Повседневный
Sadaltagerзнающий специалист
Charonинформативный
LedaЮная
Callirrhoeдобродушный
IapetusЯсный
Despina -- Гладкая
Rasalgethiинформативный
Alnilam -- Фирма
Pulcherrima -- Нападающий
Vindemiatrix -- Нежная
Sulafat -- Теплый

Языки

Live API поддерживает следующие языки. Узнайте, как повлиять на язык ответа .

Язык Код BCP-47 Язык Код BCP-47
Арабский (египетский) ар-ЭГ Немецкий (Германия) де-ДЕ
Английский (США) en-US Испанский (США) es-US
Французский (Франция) фр-ФР Хинди (Индия) хай-ИН
Индонезийский (Индонезия) я сделал Итальянский (Италия) ИТ-ИТ
Японский (Япония) ja-JP Корейский (Корея) ко-КР
Португальский (Бразилия) пт-БР Русский (Россия) ру-RU
Голландский (Нидерланды) nl-NL Польский (Польша) пл-ПЛ
Тайский (Таиланд) th-TH Турецкий (Турция) тр-ТР
Вьетнамский (Вьетнам) vi-VN Румынский (Румыния) ро-ро
Украинский (Украина) Великобритания-Украина Бенгальский (Бангладеш) бн-БД
Английский (Индия) en-IN & hi-IN bundle Маратхи (Индия) мистер-ИН
Тамильский (Индия) та-ИН Телугу (Индия) те-ИН