Dòng mô hình Gemini được xem là đa phương thức vì các mô hình này có thể xử lý thông tin từ nhiều phương thức, bao gồm cả hình ảnh, video và văn bản. Ví dụ: bạn có thể gửi cho mô hình Gemini một bức ảnh về một đĩa cookie và yêu cầu mô hình đó cung cấp cho bạn công thức làm các loại bánh quy đó.
Lời nhắc | Đáp |
Cho tôi công thức làm những chiếc bánh quy này. |
**thành phần** – 1 c. (2 que) bơ không ướp muối, làm mềm – 3/4 c. đường hạt – 3/4 c. đường nâu đóng gói – 1 thìa cà phê . chiết xuất vani – 2 quả trứng lớn – 2 1/4 c. bột mì đa dụng – 1 thìa cà phê baking soda – 1 thìa cà phê muối ... |
Bạn có thể tương tác với nhóm mô hình Gemini bằng cách sử dụng API Gemini do Vertex AI cung cấp trên Google Cloud. Đối với các ứng dụng web và ứng dụng di động, bạn có thể sử dụng SDK Vertex AI cho Firebase để gọi API Gemini và tương tác với các mô hình Gemini ngay từ ứng dụng của mình.
Trang này cung cấp thông tin sau về các mô hình Gemini:
So sánh tổng quan các trường hợp sử dụng cho các mô hình Gemini, bao gồm cả những loại dữ liệu đầu vào được hỗ trợ.
So sánh thông tin chi tiết của từng mô hình, ví dụ: mã thông báo đầu vào tối đa hoặc thời lượng tối đa của video.
Nội dung mô tả về cách các mô hình Gemini được tạo phiên bản, cụ thể là các phiên bản ổn định, tự động cập nhật và xem trước.
Danh sách tên mô hình hiện có để đưa vào mã trong quá trình khởi chạy.
Danh sách các ngôn ngữ được hỗ trợ cho các mô hình Gemini.
Mẫu hiện có
Bạn có thể sử dụng bất kỳ mô hình Gemini nào sau đây với Vertex AI cho Firebase:
Gemini 1.5 Flash: Mô hình đa phương thức hỗ trợ cùng loại đầu vào và đầu ra như 1.5 Pro (cũng như tổng số lượng mã thông báo), nhưng 1.5 Flash được thiết kế riêng cho các ứng dụng số lượng lớn, tiết kiệm chi phí.
Gemini 1.5 Pro: Mô hình đa phương thức hỗ trợ việc thêm tệp hình ảnh, âm thanh, video và PDF trong lời nhắc văn bản hoặc trò chuyện để phản hồi bằng văn bản hoặc mã. Ngoài ra, API này còn hỗ trợ hiểu biết ngữ cảnh dài với tối đa 1 triệu mã thông báo.
Gemini 1.0 Pro Vision: Mô hình đa phương thức được thiết kế để xử lý văn bản cùng với hình ảnh và video nhằm phản hồi văn bản hoặc mã. Không thể dùng để trò chuyện.
Gemini 1.0 Pro: Mô hình được thiết kế để xử lý các nhiệm vụ ngôn ngữ tự nhiên, trò chuyện nhiều lượt bằng văn bản và mã cũng như tạo mã.
Chuyển đến tên mô hình để đưa vào mã
Các trường hợp sử dụng cho từng mô hình
Gemini 1.5 Flash / Gemini 1.5 Pro |
Tầm nhìn Gemini 1.0 Pro | Gemini 1.0 Pro | |
---|---|---|---|
Loại dữ liệu đầu vào | |||
Văn bản | |||
Lập trình | |||
Hình ảnh | |||
Video (chỉ khung hình) | |||
Video (khung hình và âm thanh) | |||
Âm thanh | |||
Loại đầu ra | |||
Văn bản | |||
Lập trình | |||
Các trường hợp sử dụng chung | |||
Yêu cầu đa phương thức | |||
Trò chuyện nhiều lượt |
Tìm hiểu thêm về trường hợp sử dụng cho các mô hình Gemini trong tài liệu về Google Cloud:
- Các trường hợp sử dụng Flash của Gemini 1.5
- Các trường hợp sử dụng Gemini 1.5 Pro
- Các trường hợp sử dụng Gemini 1.0 Pro Vision
- Các trường hợp sử dụng Gemini 1.0 Pro
Thông tin chi tiết về từng mô hình
Đối với tất cả các mô hình Gemini, một mã thông báo tương đương với khoảng 4 ký tự. 100 mã thông báo có khoảng 60-80 từ tiếng Anh. Bạn có thể xác định tổng số mã thông báo trong yêu cầu của mình bằng cách sử dụng countTokens
.
Thuộc tính |
Gemini 1.5 Flash / Gemini 1.5 Pro |
Tầm nhìn Gemini 1.0 Pro | Gemini 1.0 Pro |
---|---|---|---|
Tổng hạn mức của mã thông báo (kết hợp đầu vào và đầu ra) | 1 triệu mã thông báo | 16.384 mã thông báo | 32.760 mã thông báo |
Giới hạn mã thông báo đầu ra | 8.192 mã thông báo | 2.048 mã thông báo | 8.192 mã thông báo |
Số lượng hình ảnh tối đa mỗi yêu cầu | 3.000 hình ảnh | 16 hình ảnh | Không áp dụng |
Kích thước hình ảnh mã hoá base64 tối đa | 7 MB | 7 MB | Không áp dụng |
Kích thước tối đa của tệp PDF | 30 MB | 30 MB | Không áp dụng |
Số tệp video tối đa trong mỗi yêu cầu | 10 tệp video | 1 tệp video | Không áp dụng |
Thời lượng video tối đa (chỉ áp dụng cho khung hình) | 60 phút video | 2 phút | Không áp dụng |
Thời lượng video tối đa (khung hình và âm thanh) | Khoảng 45 phút video | Không áp dụng | Không áp dụng |
Số lượng tệp âm thanh tối đa trong mỗi yêu cầu | 1 tệp âm thanh | Không áp dụng | Không áp dụng |
Thời lượng âm thanh tối đa | ~8,4 giờ âm thanh | Không áp dụng | Không áp dụng |
Tại đây, bạn có thể tìm thấy thông tin chi tiết hơn nữa về các mô hình và tệp đầu vào:
Tìm hiểu về điểm khác biệt giữa các mô hình đa phương thức trong tài liệu của Google Cloud.
Tìm hiểu về các loại tệp được hỗ trợ, cách chỉ định loại MIME cũng như cách đảm bảo rằng các tệp và yêu cầu đa phương thức của bạn đáp ứng các yêu cầu và tuân thủ các phương pháp hay nhất trong phần Các yêu cầu và tệp đầu vào được hỗ trợ cho Vertex AI Gemini API.
Tạo phiên bản của các mô hình
Các mô hình Gemini được cung cấp ở các phiên bản ổn định, tự động cập nhật và xem trước.
Phiên bản Ổn định được coi là Có thể sử dụng rộng rãi.
- Phiên bản ổn định có tên mô hình đi kèm với số phiên bản cụ thể gồm ba chữ số, ví dụ:
.gemini-1.0-pro-001
- Phiên bản ổn định có tên mô hình đi kèm với số phiên bản cụ thể gồm ba chữ số, ví dụ:
Các phiên bản được tự động cập nhật luôn trỏ đến phiên bản ổn định mới nhất của mô hình đó; nếu một phiên bản ổn định mới được phát hành, thì phiên bản tự động cập nhật sẽ tự động bắt đầu trỏ đến phiên bản ổn định mới đó.
- Các phiên bản tự động cập nhật có tên mô hình không có phần bổ sung, ví dụ:
.gemini-1.0-pro
- Các phiên bản tự động cập nhật có tên mô hình không có phần bổ sung, ví dụ:
Phiên bản Preview có các tính năng mới và được coi là không ổn định. Xin lưu ý rằng các phiên bản xem trước luôn trỏ đến phiên bản xem trước mới nhất của mô hình đó; nếu phiên bản xem trước mới được phát hành, thì mọi phiên bản xem trước hiện có đều sẽ tự động bắt đầu trỏ đến phiên bản xem trước mới đó.
- Các phiên bản dùng thử có tên mô hình được thêm
cùng với ngày phát hành đầu tiên của mô hình (-preview
), ví dụ như-MMDD
(phát hành vào ngày 9 tháng 4 năm 2024).gemini-1.5-pro-preview-0409
- Các phiên bản dùng thử có tên mô hình được thêm
Tìm hiểu thêm về các phiên bản mô hình Gemini hiện có và vòng đời của các phiên bản đó trong tài liệu của Google Cloud.
Tên mô hình hiện có
Tên mô hình là các giá trị rõ ràng mà bạn đưa vào mã của mình trong quá trình khởi chạy mô hình tạo sinh (đây là bước bắt buộc để gọi APIGemini). Để biết các ví dụ về khởi động ngôn ngữ của bạn, hãy xem hướng dẫn bắt đầu sử dụng.
Tên mô hình Flash Gemini 1.5
Tên mẫu thiết bị | Nội dung mô tả | Giai đoạn phát hành | Ngày phát hành đầu tiên | Ngày ngừng cung cấp |
---|---|---|---|---|
Phiên bản ổn định | ||||
gemini-1.5-flash-001 |
Phiên bản ổn định mới nhất của Gemini 1.5 Flash | Thời gian phát hành rộng rãi | 2024-05-24 | Không sớm hơn 24-05-2025 |
Phiên bản tự động cập nhật | ||||
gemini-1.5-flash |
Trỏ đến phiên bản ổn định mới nhất của Flash 1.5 (hiện là gemini-1.5-flash-001 |
Thời gian phát hành rộng rãi | 2024-05-24 | --- |
Các phiên bản xem trước | ||||
gemini-1.5-flash-preview-0514 |
Phiên bản xem trước mới nhất của Gemini 1.5 Flash | Bản dùng trước công khai | 2024-05-14 | 2024-06-24 |
Tên mẫu Gemini 1.5 Pro
Tên mẫu thiết bị | Nội dung mô tả | Giai đoạn phát hành | Ngày phát hành đầu tiên | Ngày ngừng cung cấp |
---|---|---|---|---|
Phiên bản ổn định | ||||
gemini-1.5-pro-001 |
Phiên bản ổn định mới nhất của Gemini 1.5 Pro | Thời gian phát hành rộng rãi | 2024-05-24 | Không sớm hơn 24-05-2025 |
Phiên bản tự động cập nhật | ||||
gemini-1.5-pro |
Trỏ đến phiên bản ổn định mới nhất của 1.5 Pro (hiện là gemini-1.5-pro-001 |
Thời gian phát hành rộng rãi | 2024-05-24 | --- |
Các phiên bản xem trước | ||||
gemini-1.5-pro-preview-0514 |
Phiên bản xem trước mới nhất của Gemini 1.5 Pro | Bản dùng trước công khai | 2024-05-14 | 2024-06-24 |
gemini-1.5-pro-preview-0409 |
Trỏ đến gemini-1.5-pro-preview-0514 (là phiên bản bản xem trước mới nhất) |
Bản dùng trước công khai | 2024-04-09 | 2024-06-14 |
Tên mô hình Tầm nhìn Gemini 1.0 Pro
Tên mẫu thiết bị | Nội dung mô tả | Giai đoạn phát hành | Ngày phát hành đầu tiên | Ngày ngừng cung cấp |
---|---|---|---|---|
Phiên bản ổn định | ||||
gemini-1.0-pro-vision-001 |
Phiên bản ổn định mới nhất của Gemini 1.0 Pro Vision | Thời gian phát hành rộng rãi | 2024-02-15 | Không sớm hơn 15-02-2025 |
Phiên bản tự động cập nhật | ||||
gemini-1.0-pro-vision |
Trỏ đến phiên bản ổn định mới nhất của 1.5 Pro Vision (hiện là gemini-1.5-pro-vision-001 |
Thời gian phát hành rộng rãi | 2024-01-04 | --- |
Tên mô hình Gemini 1.0 Pro
Tên mẫu thiết bị | Nội dung mô tả | Giai đoạn phát hành | Ngày phát hành đầu tiên | Ngày ngừng cung cấp |
---|---|---|---|---|
Phiên bản ổn định | ||||
gemini-1.0-pro-002 |
Phiên bản ổn định mới nhất của Gemini 1.0 Pro | Thời gian phát hành rộng rãi | 2024-04-09 | Không sớm hơn 9/4/2025 |
gemini-1.0-pro-001 |
Phiên bản ổn định của Gemini 1.0 Pro | Thời gian phát hành rộng rãi | 2024-02-15 | Không sớm hơn 15-02-2025 |
Phiên bản tự động cập nhật | ||||
gemini-1.0-pro |
Trỏ đến phiên bản ổn định mới nhất của 1.0 Pro (hiện là gemini-1.0-pro-002 |
Thời gian phát hành rộng rãi | 2024-02-15 | --- |
Ngôn ngữ được hỗ trợ
Mô hình Gemini hỗ trợ các ngôn ngữ sau:
Tiếng Ả Rập (ar), tiếng Bengal (bn), tiếng Romania (bg), tiếng Trung giản thể và truyền thống (zh), tiếng Croatia (hr), tiếng Séc (cs), tiếng Đan Mạch (da), tiếng Hà Lan (nl), tiếng Anh (en), tiếng Estonia (et), tiếng Phần Lan (fi), tiếng Pháp (fr), tiếng Đức (de), tiếng Hy Lạp (el), tiếng Do Thái (iw), tiếng Hindi (hi), tiếng Thuỵ Điển (hu), tiếng Indonesia (id), tiếng Ý (itko), tiếng Nhật (vi), tiếng Hàn (hua).
Các bước tiếp theo
Dùng thử các tính năng của API Gemini
- Xây dựng cuộc trò chuyện nhiều lượt (trò chuyện).
- Tạo văn bản từ lời nhắc chỉ có văn bản.
- Tạo văn bản từ lời nhắc đa phương thức (bao gồm văn bản, hình ảnh, PDF, video và âm thanh).
- Sử dụng tính năng gọi hàm để kết nối các mô hình tạo sinh với các hệ thống và thông tin bên ngoài.