Khi gọi Vertex AI Gemini API từ ứng dụng của bạn bằng Vertex AI cho Firebase SDK, bạn có thể đặt câu lệnh để mô hình Gemini tạo văn bản dựa trên dữ liệu đầu vào đa phương thức. Câu lệnh đa phương thức có thể bao gồm nhiều phương thức (hoặc loại đầu vào), như văn bản cùng với hình ảnh, PDF, video và âm thanh.
Đối với các phần không phải văn bản của nội dung đầu vào (như tệp đa phương tiện), bạn cần sử dụng được hỗ trợ, hãy chỉ định loại MIME được hỗ trợ và đảm bảo rằng tệp và yêu cầu đa phương thức đáp ứng các yêu cầu và tuân theo các phương pháp hay nhất.
Các tệp dữ liệu đầu vào được hỗ trợ sẽ khác nhau tuỳ theo mô hình và có thể bao gồm hình ảnh, PDF, video và âm thanh.
- Xin lưu ý rằng đầu vào video được hỗ trợ cũng thay đổi tuỳ theo mẫu máy và có thể bao gồm chỉ có khung hình hoặc khung có âm thanh.
Yêu cầu và phương pháp hay nhất đối với tệp đầu vào và yêu cầu đa phương thức:
Ngang bằng Tìm hiểu về các mô hình Gemini, bạn có thể xem thông tin tóm tắt nhanh về các yêu cầu đối với tệp được hỗ trợ mô hình (ví dụ: số lượng tệp tối đa và kích thước tệp tối đa).
Trong tài liệu về Google Cloud, bạn có thể tìm hiểu thông tin chi tiết về yêu cầu và các phương pháp hay nhất đối với các tệp đầu vào và yêu cầu đa phương thức (ví dụ: loại MIME được hỗ trợ và thời điểm cung cấp tệp đầu vào trong yêu cầu).
Các yêu cầu dành riêng cho SDK Vertex AI cho Firebase
Đối với các SDK Vertex AI cho Firebase, kích thước yêu cầu tối đa là 20 MB. Bạn gặp lỗi HTTP 413 nếu yêu cầu quá lớn.
Nếu kích thước của tệp khiến tổng kích thước yêu cầu vượt quá 20 MB, thì sử dụng URL của Cloud Storage cho Firebase để đưa tệp này vào yêu cầu đa phương thức.
Nếu tệp nhỏ, bạn thường có thể truyền trực tiếp tệp đó dưới dạng dữ liệu cùng dòng. Tuy nhiên, xin lưu ý rằng tệp được cung cấp dưới dạng dữ liệu cùng dòng được mã hoá thành base64 theo chuyển tuyến, giúp tăng kích thước của yêu cầu. Để xem các ví dụ minh hoạ cách bao gồm các tệp dưới dạng dữ liệu cùng dòng, hãy xem Tạo văn bản từ các câu lệnh đa phương thức bằng Gemini API.