Trang này mô tả nhiều giới hạn và thông số kỹ thuật để sử dụng Live API và các mô hình của API này.
Giới hạn liên quan đến phiên
Đối với Live API, một phiên đề cập đến một kết nối liên tục, trong đó dữ liệu đầu vào và đầu ra được truyền trực tuyến liên tục qua cùng một kết nối.
Nếu phiên vượt quá bất kỳ giới hạn nào sau đây, kết nối sẽ bị chấm dứt.
Thời lượng kết nối bị giới hạn ở khoảng 10 phút.
Thời lượng phiên phụ thuộc vào phương thức đầu vào:
- Phiên chỉ có dữ liệu đầu vào là âm thanh bị giới hạn ở 15 phút.
- Dữ liệu đầu vào là video + âm thanh bị giới hạn ở 2 phút.
Cửa sổ ngữ cảnh của phiên bị giới hạn ở 128 nghìn mã thông báo.
Bạn sẽ nhận được thông báo sắp kết thúc trước khi kết nối kết thúc, cho phép bạn thực hiện các hành động tiếp theo.
Tìm hiểu thêm về cách quản lý phiên.
Giới hạn số lượng yêu cầu
Live API có giới hạn số lượng yêu cầu cho cả số phiên đồng thời trên mỗi dự án Firebase cũng như số mã thông báo mỗi phút (TPM).
Gemini Developer API:
- Giới hạn thay đổi dựa trên Gemini Developer API "cấp sử dụng" Gemini Developer API của dự án (xem tài liệu về giới hạn số lượng yêu cầu)
Vertex AI Gemini API:
- 1.000 phiên đồng thời trên mỗi dự án Firebase
- 4 triệu mã thông báo mỗi phút
Định dạng âm thanh
Live API hỗ trợ các định dạng âm thanh sau:
- Định dạng âm thanh đầu vào: Âm thanh PCM 16 bit thô ở 16 kHz little-endian
Định dạng âm thanh đầu ra: Âm thanh PCM 16 bit thô ở 24 kHz little-endian
Các loại MIME được hỗ trợ:
audio/x-aac,audio/flac,audio/mp3,audio/m4a,audio/mpeg,audio/mpga,audio/mp4,audio/ogg,audio/pcm,audio/wav,audio/webm
Để truyền tải tốc độ lấy mẫu của âm thanh đầu vào, hãy đặt loại MIME của mỗi Blob chứa âm thanh thành một giá trị như audio/pcm;rate=16000.
Định dạng video
Live API mong đợi một chuỗi khung hình ảnh rời rạc và hỗ trợ dữ liệu đầu vào là khung hình video ở 1 khung hình/giây (FPS).
Dữ liệu đầu vào được đề xuất: độ phân giải gốc 768x768 ở 1 FPS.
Các loại MIME được hỗ trợ:
video/x-flv,video/quicktime,video/mpeg,video/mpegs,video/mpg,video/mp4,video/webm,video/wmv,video/3gpp
Xin lưu ý rằng thông số kỹ thuật này khiến Live API không phù hợp với các trường hợp sử dụng yêu cầu phân tích video thay đổi nhanh, chẳng hạn như phát từng pha trong các môn thể thao tốc độ cao.
Giọng phản hồi
Live API hỗ trợ các lựa chọn giọng phản hồi sau. Để xem bản minh hoạ về âm thanh của từng giọng, hãy xem bài viết Chirp 3: HD voices (Chirp 3: Giọng HD).
Nếu bạn không chỉ định giọng phản hồi, thì giọng mặc định là Puck.
Tìm hiểu cách chỉ định giọng phản hồi.
Zephyr – Tươi sángKore – Chắc chắnOrus – Chắc chắnAutonoe – Tươi sángUmbriel – Dễ tínhErinome – Rõ ràngLaomedeia – Vui vẻSchedar – Bình tĩnhAchird – Thân thiệnSadachbia – Sôi nổi
|
Puck – Vui vẻFenrir – Hào hứngAoede – Nhẹ nhàngEnceladus – Thở dốcAlgieba – Mượt màAlgenib – Khàn khànAchernar – Dịu êmGacrux – Trưởng thànhZubenelgenubi – Bình thườngSadaltager – Hiểu biết
|
Charon – Nhiều thông tinLeda – Trẻ trungCallirrhoe – Dễ tínhIapetus – Rõ ràngDespina – Mượt màRasalgethi – Nhiều thông tinAlnilam – Chắc chắnPulcherrima – Tự tinVindemiatrix – Nhẹ nhàngSulafat – Ấm áp
|
Ngôn ngữ
Live API hỗ trợ các ngôn ngữ sau. Tìm hiểu cách tác động đến ngôn ngữ phản hồi.
| Ngôn ngữ | Mã BCP-47 | Ngôn ngữ | Mã BCP-47 |
|---|---|---|---|
| Tiếng Ả Rập (Ai Cập) | ar-EG | Tiếng Đức (Đức) | de-DE |
| Tiếng Anh (Mỹ) | en-US | Tiếng Tây Ban Nha (Mỹ) | es-US |
| Tiếng Pháp (Pháp) | fr-FR | Tiếng Hindi (Ấn Độ) | hi-IN |
| Tiếng Indonesia (Indonesia) | id-ID | Tiếng Ý (Ý) | it-IT |
| Tiếng Nhật (Nhật Bản) | ja-JP | Tiếng Hàn (Hàn Quốc) | ko-KR |
| Tiếng Bồ Đào Nha (Brazil) | pt-BR | Tiếng Nga (Nga) | ru-RU |
| Tiếng Hà Lan (Hà Lan) | nl-NL | Tiếng Ba Lan (Ba Lan) | pl-PL |
| Tiếng Thái (Thái Lan) | th-TH | Tiếng Thổ Nhĩ Kỳ (Thổ Nhĩ Kỳ) | tr-TR |
| Tiếng Việt (Việt Nam) | vi-VN | Tiếng Rumani (Rumani) | ro-RO |
| Tiếng Ukraina (Ukraina) | uk-UA | Tiếng Bengali (Bangladesh) | bn-BD |
| Tiếng Anh (Ấn Độ) | Gói en-IN và hi-IN | Tiếng Marathi (Ấn Độ) | mr-IN |
| Tiếng Tamil (Ấn Độ) | ta-IN | Tiếng Telugu (Ấn Độ) | te-IN |