Giới hạn và quy cách của Live API


Trang này mô tả nhiều giới hạn và quy cách để sử dụng Live API và các mô hình của Live API.

Giới hạn liên quan đến phiên

Đối với Live API, phiên là một kết nối liên tục, trong đó dữ liệu đầu vào và đầu ra được truyền trực tuyến liên tục qua cùng một kết nối.

Nếu phiên vượt quá bất kỳ giới hạn nào sau đây, thì kết nối sẽ bị chấm dứt.

  • Thời lượng kết nối tối đa là khoảng 10 phút.

  • Độ dài phiên phụ thuộc vào các phương thức nhập:

    • Các phiên nhập chỉ bằng âm thanh được giới hạn trong 15 phút.
    • Đầu vào video và âm thanh bị giới hạn ở 2 phút.
  • Cửa sổ ngữ cảnh của phiên bị giới hạn ở 128.000 token.

Giới hạn về tốc độ

Live API có giới hạn về tốc độ cho cả số phiên đồng thời trên mỗi dự án Firebase cũng như số mã thông báo mỗi phút (TPM).

  • Gemini Developer API:

  • Vertex AI Gemini API:

    • 1.000 phiên đồng thời cho mỗi dự án Firebase
    • 4 triệu mã thông báo mỗi phút

Định dạng âm thanh

Công cụ Live API hỗ trợ các định dạng âm thanh sau:

  • Định dạng âm thanh đầu vào: Âm thanh PCM 16 bit thô ở chế độ little-endian 16 kHz
  • Định dạng âm thanh đầu ra: Âm thanh PCM 16 bit thô ở chế độ little-endian 24 kHz

  • Các loại MIME được hỗ trợ: audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm

Để truyền tải tốc độ lấy mẫu của âm thanh đầu vào, hãy đặt loại MIME của mỗi Blob chứa âm thanh thành một giá trị như audio/pcm;rate=16000.

Định dạng video

Live API dự kiến sẽ có một chuỗi khung hình rời rạc và hỗ trợ đầu vào khung hình video ở tốc độ 1 khung hình/giây (FPS).

  • Đầu vào đề xuất: độ phân giải gốc 768x768 ở tốc độ 1 khung hình/giây.

  • Các loại MIME được hỗ trợ: video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp

Xin lưu ý rằng quy cách này khiến Live API không phù hợp với những trường hợp sử dụng yêu cầu phân tích video thay đổi nhanh, chẳng hạn như từng pha trong các môn thể thao tốc độ cao.

Giọng phản hồi

Live API hỗ trợ các lựa chọn giọng nói phản hồi sau đây. Để xem bản minh hoạ về âm thanh của từng giọng nói, hãy xem Chirp 3: Giọng nói chất lượng cao.

Nếu bạn không chỉ định giọng nói phản hồi, thì giọng nói mặc định sẽ là Puck.

Tìm hiểu cách chỉ định giọng nói phản hồi.

Zephyr -- Tươi sáng
Kore -- Chắc chắn
Orus -- Chắc chắn
Autonoe -- Tươi sáng
Umbriel -- Dễ chịu
Erinome -- Rõ ràng
Laomedeia -- Sôi nổi
Schedar -- Ổn định
Achird -- Thân thiện
Sadachbia -- Sôi động
PuckVui vẻ
FenrirHào hứng
AoedeThoải mái
EnceladusNhẹ nhàng
AlgiebaÊm ái
AlgenibKhàn khàn
AchernarNhẹ nhàng
GacruxTrưởng thành
ZubenelgenubiBình dị
SadaltagerHiểu biết
Charon -- Nhiều thông tin
Leda -- Trẻ trung
Callirrhoe -- Dễ gần
Iapetus -- Rõ ràng
Despina -- Êm ái
Rasalgethi -- Nhiều thông tin
Alnilam -- Chắc chắn
Pulcherrima -- Tiến bộ
Vindemiatrix -- Nhẹ nhàng
Sulafat -- Ấm áp

Ngôn ngữ

Live API hỗ trợ các ngôn ngữ sau. Tìm hiểu cách tác động đến ngôn ngữ phản hồi.

Ngôn ngữ Mã BCP-47 Ngôn ngữ Mã BCP-47
Tiếng Ả Rập (Ai Cập) ar-EG Tiếng Đức (Đức) de-DE
Tiếng Anh (Mỹ) en-US Tiếng Tây Ban Nha (Mỹ) es-US
Tiếng Pháp (Pháp) fr-FR Tiếng Hindi (Ấn Độ) hi-IN
Tiếng Indonesia (Indonesia) tiếng Indonesia Tiếng Ý (Ý) it-IT
Tiếng Nhật (Nhật Bản) ja-JP Tiếng Hàn (Hàn Quốc) ko-KR
Tiếng Bồ Đào Nha (Brazil) pt-BR Tiếng Nga (Nga) ru-RU
Tiếng Hà Lan (Hà Lan) nl-NL Tiếng Ba Lan (Ba Lan) pl-PL
Tiếng Thái (Thái Lan) th-TH Tiếng Thổ Nhĩ Kỳ (Thổ Nhĩ Kỳ) tr-TR
Tiếng Việt (Việt Nam) vi-VN Tiếng Rumani (Rumani) ro-RO
Tiếng Ukraina (Ukraina) uk-UA Tiếng Bengali (Bangladesh) bn-BD
Tiếng Anh (Ấn Độ) Gói en-IN và hi-IN Tiếng Marathi (Ấn Độ) mr-IN
Tiếng Tamil (Ấn Độ) ta-IN Tiếng Telugu (Ấn Độ) te-IN