Các yêu cầu và tệp đầu vào được hỗ trợ đối với Vertex AI Gemini API

Khi gọi Vertex AI Gemini API từ ứng dụng của bạn bằng SDK Vertex AI cho Firebase, bạn có thể đặt câu lệnh để mô hình Gemini tạo văn bản dựa trên phương thức nhập đa phương thức. Các câu lệnh đa phương thức có thể bao gồm nhiều phương thức (hoặc nhiều kiểu phương thức nhập), như văn bản cùng với hình ảnh, PDF, video và âm thanh.

Đối với các phần không phải văn bản của dữ liệu đầu vào (như tệp nội dung nghe nhìn), bạn cần sử dụng các loại tệp được hỗ trợ, chỉ định loại MIME được hỗ trợ, đồng thời đảm bảo rằng các tệp và yêu cầu đa phương thức đáp ứng các yêu cầu và làm theo các phương pháp hay nhất.

  • Các tệp đầu vào được hỗ trợ sẽ khác nhau tuỳ theo mô hình và có thể bao gồm hình ảnh, PDF, video và âm thanh.

    • Xin lưu ý rằng đầu vào video được hỗ trợ cũng thay đổi tuỳ theo mẫu máy và có thể chỉ bao gồm khung hình hoặc khung hình có âm thanh.
  • Yêu cầu và phương pháp hay nhất đối với tệp đầu vào và yêu cầu đa phương thức:

    • Trong phần Tìm hiểu về các mô hình Gemini, bạn có thể tìm thấy thông tin tóm tắt nhanh về các yêu cầu đối với tệp được hỗ trợ dựa trên mô hình đó (ví dụ: số lượng tệp tối đa và kích thước tệp tối đa).

    • Trong tài liệu về Google Cloud, bạn có thể tìm hiểu thông tin chi tiết về các yêu cầucác phương pháp hay nhất đối với tệp đầu vào và yêu cầu đa phương thức (ví dụ: các loại MIME được hỗ trợ và thời điểm cung cấp tệp đầu vào trong yêu cầu).

Các yêu cầu dành riêng cho SDK Vertex AI cho Firebase

Đối với các SDK Vertex AI cho Firebase, kích thước yêu cầu tối đa là 20 MB. Bạn gặp lỗi HTTP 413 nếu yêu cầu quá lớn.