На этой странице описаны различные ограничения и требования к использованию Live API и его моделей.
Ограничения, связанные с сессией
В контексте Live API сессия обозначает постоянное соединение, в котором входные и выходные данные непрерывно передаются по каналу связи.
Если продолжительность сессии превышает любой из следующих лимитов, соединение разрывается. Однако следует отметить, что Live API предоставляет некоторые параметры (см. ниже) для обработки этих ограничений, связанных с сессией.
Окно контекста сессии ограничено 128 тысячами токенов.
В связи с ограничением контекстного окна, приблизительная максимальная продолжительность сеанса в зависимости от способа ввода данных выглядит следующим образом:
- Продолжительность сеансов ввода только аудиоконтента ограничена
15 минутами . - Видео- и аудиовход ограничены
2 минутами .
- Продолжительность сеансов ввода только аудиоконтента ограничена
Продолжительность соединения ограничена примерно
10 минутами .Примерно за
60 секунд до окончания соединения вы получите уведомление о завершении сеанса .
Вот несколько вариантов обработки ограничений, связанных с сессиями:
Сожмите окно контекста сессии таким образом, чтобы сервер автоматически поддерживал размер контекста в пределах допустимого значения.
Возобновите сессию , чтобы предотвратить потерю контекста разговора во время кратковременных разрывов сетевого соединения или после получения уведомления об уходе .
Узнайте больше об управлении сессиями .
Ограничения скорости
В Live API установлены ограничения на количество одновременных сессий в одном проекте Firebase, а также на количество токенов в минуту (TPM).
API разработчика Gemini :
- Ограничения зависят от «уровня использования» API разработчика Gemini в вашем проекте (см. документацию по ограничениям скорости ).
API Vertex AI Gemini :
- 1000 одновременных сессий на проект Firebase
- 4 миллиона токенов в минуту
Аудиоформаты
Live API поддерживает следующие аудиоформаты:
- Входной аудиоформат: необработанный 16-битный PCM-аудио с частотой дискретизации 16 кГц, little-endian.
Выходной аудиоформат: необработанный 16-битный PCM-аудио с частотой дискретизации 24 кГц, little-endian.
Поддерживаемые MIME-типы :
audio/x-aac,audio/flac,audio/mp3,audio/m4a,audio/mpeg,audio/mpga,audio/mp4,audio/ogg,audio/pcm,audio/wav,audio/webm
Для передачи частоты дискретизации входного аудиосигнала установите MIME-тип каждого содержащего аудиообъекта Blob на значение, например, audio/pcm;rate=16000 .
Видеоформаты
Live API ожидает последовательность дискретных кадров изображения и поддерживает ввод видеокадров со скоростью 1 кадр в секунду (FPS).
Рекомендуемое входное разрешение : 768x768 пикселей при 1 кадре в секунду.
Поддерживаемые MIME-типы :
video/x-flv,video/quicktime,video/mpeg,video/mpegs,video/mpg,video/mp4,video/webm,video/wmv,video/3gpp
Следует отметить, что данная спецификация делает Live API непригодным для сценариев использования, требующих анализа быстро меняющегося видео, например, для оперативного освещения спортивных событий.
Ответные голоса
Live API поддерживает следующие варианты голосового ответа. Демонстрацию звучания каждого голоса см. в разделе Chirp 3: HD voices .
Если вы не укажете голос для ответа, по умолчанию будет использоваться Puck .
Узнайте, как задать голос ответа .
Zephyr -- ЯркийKore -- ФирмаOrus — ФирмаAutonoe — ЯркоеUmbriel — добродушныйErinome -- ЧистыйLaomedeia — оптимистичнаяSchedar — дажеAchird — ДружелюбныйSadachbia -- Оживлённый | Puck — оптимистичныйFenrir — ВозбудимыйAoede -- БризиEnceladus — ХрипловатыйAlgieba -- ГладкаяAlgenib -- ГрейвлиAchernar — МягкийGacrux — зрелыйZubenelgenubi -- ПовседневныйSadaltager — знающий специалист | Charon — информативныйLeda — ЮнаяCallirrhoe — добродушныйIapetus — ЯсныйDespina -- ГладкаяRasalgethi — информативныйAlnilam -- ФирмаPulcherrima -- НападающийVindemiatrix -- НежнаяSulafat -- Теплый |
Языки
Live API поддерживает следующие языки. Узнайте, как повлиять на язык ответа .
| Язык | Код BCP-47 | Язык | Код BCP-47 |
|---|---|---|---|
| Арабский (египетский) | ар-ЭГ | Немецкий (Германия) | де-ДЕ |
| Английский (США) | en-US | Испанский (США) | es-US |
| Французский (Франция) | фр-ФР | Хинди (Индия) | хай-ИН |
| Индонезийский (Индонезия) | я сделал | Итальянский (Италия) | ИТ-ИТ |
| Японский (Япония) | ja-JP | Корейский (Корея) | ко-КР |
| Португальский (Бразилия) | пт-БР | Русский (Россия) | ру-RU |
| Голландский (Нидерланды) | nl-NL | Польский (Польша) | пл-ПЛ |
| Тайский (Таиланд) | th-TH | Турецкий (Турция) | тр-ТР |
| Вьетнамский (Вьетнам) | vi-VN | Румынский (Румыния) | ро-ро |
| Украинский (Украина) | Великобритания-Украина | Бенгальский (Бангладеш) | бн-БД |
| Английский (Индия) | en-IN & hi-IN bundle | Маратхи (Индия) | мистер-ИН |
| Тамильский (Индия) | та-ИН | Телугу (Индия) | те-ИН |