Giới hạn và quy cách của Live API


Trang này mô tả nhiều giới hạn và thông số kỹ thuật để sử dụng Live API và các mô hình của API này.

Giới hạn liên quan đến phiên

Đối với Live API, một phiên đề cập đến một kết nối liên tục, trong đó dữ liệu đầu vào và đầu ra được truyền trực tuyến liên tục qua một kết nối.

Nếu phiên vượt quá bất kỳ giới hạn nào sau đây, kết nối sẽ bị chấm dứt. Tuy nhiên, hãy lưu ý rằng Live API cung cấp một số lựa chọn (xem bên dưới) để xử lý các giới hạn liên quan đến phiên này.

  • Cửa sổ ngữ cảnh của phiên bị giới hạn ở 128.000 mã thông báo.

    Do giới hạn về cửa sổ ngữ cảnh này, sau đây là thời lượng phiên tối đa gần đúng dựa trên phương thức nhập:

    • Phiên nhập chỉ có âm thanh bị giới hạn ở 15 phút.
    • Phiên nhập video + âm thanh bị giới hạn ở 2 phút.
  • Thời lượng kết nối bị giới hạn ở khoảng 10 phút.

    Bạn sẽ nhận được thông báo sắp kết thúc khoảng 60 giây trước khi kết nối kết thúc.

Sau đây là một số lựa chọn để xử lý các giới hạn liên quan đến phiên:

  • Nén cửa sổ ngữ cảnh của phiên để máy chủ tự động duy trì kích thước ngữ cảnh trong giới hạn.

  • Tiếp tục phiên để tránh mất ngữ cảnh trò chuyện trong thời gian ngắn khi mạng bị ngắt kết nối hoặc sau khi nhận được thông báo sắp kết thúc.

Tìm hiểu thêm về cách quản lý phiên.

Giới hạn số lượng yêu cầu

Live API có giới hạn số lượng yêu cầu cho cả số phiên đồng thời trên mỗi dự án Firebase cũng như số mã thông báo mỗi phút (TPM).

  • Gemini Developer API:

  • Vertex AI Gemini API:

    • 1.000 phiên đồng thời trên mỗi dự án Firebase
    • 4 triệu mã thông báo mỗi phút

Định dạng âm thanh

Live API hỗ trợ các định dạng âm thanh sau:

  • Định dạng âm thanh đầu vào: Âm thanh PCM 16 bit thô ở 16 kHz little-endian
  • Định dạng âm thanh đầu ra: Âm thanh PCM 16 bit thô ở 24 kHz little-endian

  • Các loại MIME được hỗ trợ: audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm

Để truyền tải tốc độ lấy mẫu của âm thanh đầu vào, hãy đặt loại MIME của mỗi Blob chứa âm thanh thành một giá trị như audio/pcm;rate=16000.

Định dạng video

Live API mong đợi một chuỗi khung hình ảnh rời rạc và hỗ trợ khung hình video đầu vào ở 1 khung hình/giây (FPS).

  • Đầu vào được đề xuất: độ phân giải gốc 768x768 ở 1 FPS.

  • Các loại MIME được hỗ trợ: video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp

Xin lưu ý rằng thông số kỹ thuật này khiến Live API không phù hợp với các trường hợp sử dụng yêu cầu phân tích video thay đổi nhanh, chẳng hạn như phát lại từng pha trong các môn thể thao tốc độ cao.

Giọng phản hồi

Live API hỗ trợ các lựa chọn giọng phản hồi sau. Để xem bản minh hoạ về âm thanh của từng giọng, hãy xem Chirp 3: HD voices.

Nếu bạn không chỉ định giọng phản hồi, thì giọng mặc định là Puck.

Tìm hiểu cách chỉ định giọng phản hồi.

Zephyr -- Sáng
Kore -- Chắc chắn
Orus -- Chắc chắn
Autonoe -- Sáng
Umbriel -- Dễ tính
Erinome -- Rõ ràng
Laomedeia -- Vui vẻ
Schedar -- Bình tĩnh
Achird -- Thân thiện
Sadachbia -- Sôi nổi
Puck -- Vui vẻ
Fenrir -- Dễ kích động
Aoede -- Thoải mái
Enceladus -- Khàn
Algieba -- Mượt mà
Algenib -- Khàn
Achernar -- Dịu êm
Gacrux -- Trưởng thành
Zubenelgenubi -- Bình thường
Sadaltager -- Hiểu biết
Charon -- Nhiều thông tin
Leda -- Trẻ trung
Callirrhoe -- Dễ tính
Iapetus -- Rõ ràng
Despina -- Mượt mà
Rasalgethi -- Nhiều thông tin
Alnilam -- Chắc chắn
Pulcherrima -- Tự tin
Vindemiatrix -- Nhẹ nhàng
Sulafat -- Ấm áp

Ngôn ngữ

Live API hỗ trợ các ngôn ngữ sau. Tìm hiểu cách ảnh hưởng đến ngôn ngữ phản hồi.

Ngôn ngữ Mã BCP-47 Ngôn ngữ Mã BCP-47
Tiếng Ả Rập (Ai Cập) ar-EG Tiếng Đức (Đức) de-DE
Tiếng Anh (Mỹ) en-US Tiếng Tây Ban Nha (Mỹ) es-US
Tiếng Pháp (Pháp) fr-FR Tiếng Hindi (Ấn Độ) hi-IN
Tiếng Indonesia (Indonesia) id-ID Tiếng Ý (Ý) it-IT
Tiếng Nhật (Nhật Bản) ja-JP Tiếng Hàn (Hàn Quốc) ko-KR
Tiếng Bồ Đào Nha (Brazil) pt-BR Tiếng Nga (Nga) ru-RU
Tiếng Hà Lan (Hà Lan) nl-NL Tiếng Ba Lan (Ba Lan) pl-PL
Tiếng Thái (Thái Lan) th-TH Tiếng Thổ Nhĩ Kỳ (Thổ Nhĩ Kỳ) tr-TR
Tiếng Việt (Việt Nam) vi-VN Tiếng Rumani (Rumani) ro-RO
Tiếng Ukraina (Ukraina) uk-UA Tiếng Bengali (Bangladesh) bn-BD
Tiếng Anh (Ấn Độ) Gói en-IN và hi-IN Tiếng Marathi (Ấn Độ) mr-IN
Tiếng Tamil (Ấn Độ) ta-IN Tiếng Telugu (Ấn Độ) te-IN