Giới hạn và quy cách của Live API


Trang này mô tả nhiều giới hạn và thông số kỹ thuật để sử dụng Live API và các mô hình của API này.

Giới hạn liên quan đến phiên

Đối với Live API, một phiên đề cập đến một kết nối liên tục, trong đó dữ liệu đầu vào và đầu ra được truyền trực tuyến liên tục qua cùng một kết nối.

Nếu phiên vượt quá bất kỳ giới hạn nào sau đây, kết nối sẽ bị chấm dứt.

  • Thời lượng kết nối bị giới hạn ở khoảng 10 phút.

  • Thời lượng phiên phụ thuộc vào phương thức đầu vào:

    • Phiên chỉ có dữ liệu đầu vào là âm thanh bị giới hạn ở 15 phút.
    • Dữ liệu đầu vào là video + âm thanh bị giới hạn ở 2 phút.
  • Cửa sổ ngữ cảnh của phiên bị giới hạn ở 128 nghìn mã thông báo.

Bạn sẽ nhận được thông báo sắp kết thúc trước khi kết nối kết thúc, cho phép bạn thực hiện các hành động tiếp theo.

Tìm hiểu thêm về cách quản lý phiên.

Giới hạn số lượng yêu cầu

Live API có giới hạn số lượng yêu cầu cho cả số phiên đồng thời trên mỗi dự án Firebase cũng như số mã thông báo mỗi phút (TPM).

  • Gemini Developer API:

  • Vertex AI Gemini API:

    • 1.000 phiên đồng thời trên mỗi dự án Firebase
    • 4 triệu mã thông báo mỗi phút

Định dạng âm thanh

Live API hỗ trợ các định dạng âm thanh sau:

  • Định dạng âm thanh đầu vào: Âm thanh PCM 16 bit thô ở 16 kHz little-endian
  • Định dạng âm thanh đầu ra: Âm thanh PCM 16 bit thô ở 24 kHz little-endian

  • Các loại MIME được hỗ trợ: audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm

Để truyền tải tốc độ lấy mẫu của âm thanh đầu vào, hãy đặt loại MIME của mỗi Blob chứa âm thanh thành một giá trị như audio/pcm;rate=16000.

Định dạng video

Live API mong đợi một chuỗi khung hình ảnh rời rạc và hỗ trợ dữ liệu đầu vào là khung hình video ở 1 khung hình/giây (FPS).

  • Dữ liệu đầu vào được đề xuất: độ phân giải gốc 768x768 ở 1 FPS.

  • Các loại MIME được hỗ trợ: video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp

Xin lưu ý rằng thông số kỹ thuật này khiến Live API không phù hợp với các trường hợp sử dụng yêu cầu phân tích video thay đổi nhanh, chẳng hạn như phát từng pha trong các môn thể thao tốc độ cao.

Giọng phản hồi

Live API hỗ trợ các lựa chọn giọng phản hồi sau. Để xem bản minh hoạ về âm thanh của từng giọng, hãy xem bài viết Chirp 3: HD voices (Chirp 3: Giọng HD).

Nếu bạn không chỉ định giọng phản hồi, thì giọng mặc định là Puck.

Tìm hiểu cách chỉ định giọng phản hồi.

ZephyrTươi sáng
KoreChắc chắn
OrusChắc chắn
AutonoeTươi sáng
UmbrielDễ tính
ErinomeRõ ràng
LaomedeiaVui vẻ
SchedarBình tĩnh
AchirdThân thiện
SadachbiaSôi nổi
PuckVui vẻ
FenrirHào hứng
AoedeNhẹ nhàng
EnceladusThở dốc
AlgiebaMượt mà
AlgenibKhàn khàn
AchernarDịu êm
GacruxTrưởng thành
ZubenelgenubiBình thường
SadaltagerHiểu biết
CharonNhiều thông tin
LedaTrẻ trung
CallirrhoeDễ tính
IapetusRõ ràng
DespinaMượt mà
RasalgethiNhiều thông tin
AlnilamChắc chắn
PulcherrimaTự tin
VindemiatrixNhẹ nhàng
SulafatẤm áp

Ngôn ngữ

Live API hỗ trợ các ngôn ngữ sau. Tìm hiểu cách tác động đến ngôn ngữ phản hồi.

Ngôn ngữ Mã BCP-47 Ngôn ngữ Mã BCP-47
Tiếng Ả Rập (Ai Cập) ar-EG Tiếng Đức (Đức) de-DE
Tiếng Anh (Mỹ) en-US Tiếng Tây Ban Nha (Mỹ) es-US
Tiếng Pháp (Pháp) fr-FR Tiếng Hindi (Ấn Độ) hi-IN
Tiếng Indonesia (Indonesia) id-ID Tiếng Ý (Ý) it-IT
Tiếng Nhật (Nhật Bản) ja-JP Tiếng Hàn (Hàn Quốc) ko-KR
Tiếng Bồ Đào Nha (Brazil) pt-BR Tiếng Nga (Nga) ru-RU
Tiếng Hà Lan (Hà Lan) nl-NL Tiếng Ba Lan (Ba Lan) pl-PL
Tiếng Thái (Thái Lan) th-TH Tiếng Thổ Nhĩ Kỳ (Thổ Nhĩ Kỳ) tr-TR
Tiếng Việt (Việt Nam) vi-VN Tiếng Rumani (Rumani) ro-RO
Tiếng Ukraina (Ukraina) uk-UA Tiếng Bengali (Bangladesh) bn-BD
Tiếng Anh (Ấn Độ) Gói en-IN và hi-IN Tiếng Marathi (Ấn Độ) mr-IN
Tiếng Tamil (Ấn Độ) ta-IN Tiếng Telugu (Ấn Độ) te-IN