Khi gọi Gemini API từ ứng dụng bằng SDK Vertex AI in Firebase, bạn có thể nhắc mô hình Gemini tạo văn bản dựa trên dữ liệu đầu vào đa phương thức. Lời nhắc đa phương thức có thể bao gồm nhiều phương thức (hoặc loại dữ liệu đầu vào), như văn bản cùng với hình ảnh, tệp PDF, video và âm thanh.
Để kiểm thử và lặp lại các lời nhắc đa phương thức, bạn nên sử dụng Vertex AI Studio.
Trước khi bắt đầu
Hãy hoàn thành hướng dẫn bắt đầu sử dụng cho SDK Vertex AI in Firebase nếu bạn chưa thực hiện. Hãy đảm bảo rằng bạn đã làm tất cả những việc sau:
Thiết lập một dự án Firebase mới hoặc hiện có, bao gồm cả việc sử dụng gói giá linh hoạt và bật các API bắt buộc.
Kết nối ứng dụng với Firebase, bao gồm cả việc đăng ký ứng dụng và thêm cấu hình Firebase vào ứng dụng.
Thêm SDK và khởi chạy dịch vụ Vertex AI cũng như mô hình tạo sinh trong ứng dụng.
Sau khi kết nối ứng dụng với Firebase, thêm SDK và khởi chạy dịch vụ Vertex AI cũng như mô hình tạo sinh, bạn đã sẵn sàng gọi Gemini API.
- Tạo văn bản từ văn bản và một hình ảnh
- Tạo văn bản từ văn bản và nhiều hình ảnh
- Tạo văn bản từ văn bản và video
Tạo văn bản từ văn bản và một hình ảnh
Hãy đảm bảo bạn đã hoàn tất phần Trước khi bắt đầu trong hướng dẫn này trước khi thử mẫu này.
Bạn có thể gọi Gemini API bằng các lời nhắc đa phương thức bao gồm cả văn bản và một tệp (chẳng hạn như hình ảnh, như trong ví dụ này). Đối với các lệnh gọi này, bạn cần sử dụng một mô hình hỗ trợ lời nhắc đa phương thức (chẳng hạn như Gemini 1.5 Pro).
Các tệp được hỗ trợ bao gồm hình ảnh, tệp PDF, video, âm thanh và nhiều loại tệp khác. Hãy nhớ xem lại các yêu cầu và đề xuất đối với tệp đầu vào.
Chọn xem bạn muốn truyền trực tuyến phản hồi (generateContentStream
) hay đợi phản hồi cho đến khi toàn bộ kết quả được tạo (generateContent
).
Phát trực tuyến
Bạn có thể đạt được các lượt tương tác nhanh hơn bằng cách không chờ toàn bộ kết quả từ quá trình tạo mô hình, mà thay vào đó, hãy sử dụng tính năng truyền trực tuyến để xử lý một phần kết quả.
Không truyền trực tuyến
Ngoài ra, bạn có thể chờ toàn bộ kết quả thay vì truyền trực tuyến; kết quả chỉ được trả về sau khi mô hình hoàn tất toàn bộ quá trình tạo.
Tìm hiểu cách chọn một mô hình Gemini và một vị trí phù hợp với trường hợp sử dụng và ứng dụng của bạn (không bắt buộc).
Tạo văn bản từ văn bản và nhiều hình ảnh
Hãy đảm bảo bạn đã hoàn tất phần Trước khi bắt đầu trong hướng dẫn này trước khi thử mẫu này.
Bạn có thể gọi Gemini API bằng lời nhắc đa phương thức bao gồm cả văn bản và nhiều tệp (như hình ảnh, như trong ví dụ này). Đối với các lệnh gọi này, bạn cần sử dụng một mô hình hỗ trợ lời nhắc đa phương thức (chẳng hạn như Gemini 1.5 Pro).
Các tệp được hỗ trợ bao gồm hình ảnh, tệp PDF, video, âm thanh và nhiều loại tệp khác. Hãy nhớ xem lại các yêu cầu và đề xuất đối với tệp đầu vào.
Chọn xem bạn muốn truyền trực tuyến phản hồi (generateContentStream
) hay đợi phản hồi cho đến khi toàn bộ kết quả được tạo (generateContent
).
Phát trực tuyến
Bạn có thể đạt được các lượt tương tác nhanh hơn bằng cách không chờ toàn bộ kết quả từ quá trình tạo mô hình, mà thay vào đó, hãy sử dụng tính năng truyền trực tuyến để xử lý một phần kết quả.
Không truyền trực tuyến
Ngoài ra, bạn có thể đợi toàn bộ kết quả thay vì truyền trực tuyến; kết quả chỉ được trả về sau khi mô hình hoàn tất toàn bộ quá trình tạo.
Tìm hiểu cách chọn một mô hình Gemini và một vị trí phù hợp với trường hợp sử dụng và ứng dụng của bạn (không bắt buộc).
Tạo văn bản từ văn bản và video
Hãy đảm bảo bạn đã hoàn tất phần Trước khi bắt đầu trong hướng dẫn này trước khi thử mẫu này.
Bạn có thể gọi Gemini API bằng các lời nhắc đa phương thức bao gồm cả văn bản và một video (như trong ví dụ này). Đối với các lệnh gọi này, bạn cần sử dụng một mô hình hỗ trợ lời nhắc đa phương thức (chẳng hạn như Gemini 1.5 Pro).
Hãy nhớ xem lại các yêu cầu và đề xuất đối với tệp đầu vào.
Chọn xem bạn muốn truyền trực tuyến phản hồi (generateContentStream
) hay đợi phản hồi cho đến khi toàn bộ kết quả được tạo (generateContent
).
Phát trực tuyến
Bạn có thể đạt được các lượt tương tác nhanh hơn bằng cách không chờ toàn bộ kết quả từ quá trình tạo mô hình, mà thay vào đó, hãy sử dụng tính năng truyền trực tuyến để xử lý một phần kết quả.
Không truyền trực tuyến
Ngoài ra, bạn có thể chờ toàn bộ kết quả thay vì truyền trực tuyến; kết quả chỉ được trả về sau khi mô hình hoàn tất toàn bộ quá trình tạo.
Tìm hiểu cách chọn một mô hình Gemini và một vị trí phù hợp với trường hợp sử dụng và ứng dụng của bạn (không bắt buộc).
Yêu cầu và đề xuất đối với tệp đầu vào
Để tìm hiểu về các loại tệp được hỗ trợ, cách chỉ định loại MIME và cách đảm bảo rằng các tệp và yêu cầu đa phương thức của bạn đáp ứng các yêu cầu và tuân theo các phương pháp hay nhất, hãy xem phần Các tệp đầu vào được hỗ trợ và yêu cầu đối với Vertex AI Gemini API.
Bạn có thể làm gì khác?
- Tìm hiểu cách đếm mã thông báo trước khi gửi lời nhắc dài đến mô hình.
- Thiết lập Cloud Storage for Firebase để có thể đưa các tệp lớn vào các yêu cầu đa phương thức bằng cách sử dụng URL Cloud Storage. Các tệp có thể bao gồm hình ảnh, tệp PDF, video và âm thanh.
- Bắt đầu suy nghĩ về việc chuẩn bị cho bản phát hành chính thức, bao gồm cả việc thiết lập Firebase App Check để bảo vệ Gemini API khỏi hành vi lạm dụng của các ứng dụng không được uỷ quyền.
Thử các tính năng khác của Gemini API
- Xây dựng cuộc trò chuyện nhiều lượt (trò chuyện).
- Tạo văn bản từ lời nhắc chỉ có văn bản.
- Tạo kết quả có cấu trúc (như JSON) từ cả lời nhắc bằng văn bản và đa phương thức.
- Sử dụng tính năng gọi hàm để kết nối các mô hình tạo sinh với hệ thống và thông tin bên ngoài.
Tìm hiểu cách kiểm soát việc tạo nội dung
- Tìm hiểu về thiết kế câu lệnh, bao gồm cả các phương pháp hay nhất, chiến lược và câu lệnh mẫu.
- Định cấu hình các tham số mô hình như nhiệt độ và mã thông báo đầu ra tối đa.
- Sử dụng chế độ cài đặt an toàn để điều chỉnh khả năng nhận được những câu trả lời có thể bị coi là gây hại.
Tìm hiểu thêm về các mô hình Gemini
Tìm hiểu về các mô hình có sẵn cho nhiều trường hợp sử dụng và hạn mức và mức giá của các mô hình đó.Đưa ra ý kiến phản hồi về trải nghiệm của bạn với Vertex AI in Firebase