Nhóm mô hình Gemini được coi là đa phương thức vì có khả năng xử lý thông tin từ nhiều phương thức, bao gồm hình ảnh, video và văn bản. Ví dụ: bạn có thể gửi cho một mô hình Gemini ảnh chụp một đĩa bánh quy và yêu cầu mô hình đó cung cấp cho bạn công thức làm bánh quy.
Lời nhắc | Đáp |
Cho tôi công thức làm những chiếc bánh này. |
**THÀNH PHẦN** – 1 cốc (2 que) bơ không ướp muối, làm mềm – 3/4 c. đường hạt – 3/4 c. đường nâu, đóng gói – 1 muỗng cà phê . tinh chất vani – 2 quả trứng lớn – 2 1/4 cốc bột mì đa dụng – 1 thìa cà phê baking soda – 1 thìa cà phê muối ... |
Bạn có thể tương tác với gia đình mô hình Gemini bằng cách sử dụng Gemini API do Vertex AI cung cấp trên Google Cloud. Đối với các ứng dụng web và ứng dụng di động, bạn có thể dùng SDK Vertex AI in Firebase để gọi API Gemini và tương tác với các mô hình Gemini ngay trên ứng dụng của mình.
Trang này cung cấp thông tin sau đây về các mô hình Gemini:
So sánh tổng quan về trường hợp sử dụng cho nhiều mô hình Gemini, bao gồm cả các loại dữ liệu đầu vào được hỗ trợ.
So sánh thông tin chi tiết của từng mô hình, ví dụ: số lượng mã thông báo đầu vào tối đa hoặc thời lượng video tối đa.
Nội dung mô tả cách phân phiên bản các mô hình Gemini, cụ thể là các phiên bản ổn định, tự động cập nhật và xem trước.
Danh sách tên mô hình có sẵn để đưa vào mã của bạn trong quá trình khởi chạy.
Danh sách ngôn ngữ được hỗ trợ cho các mẫu Gemini.
Các mô hình có sẵn
Bạn có thể sử dụng bất kỳ mô hình Gemini nào sau đây với Vertex AI in Firebase:
Gemini 1.5 Flash
Mô hình đa phương thức hỗ trợ các loại đầu vào và đầu ra giống như 1.5 Pro, nhưng có khả năng hiểu ngữ cảnh dài 1 triệu token. Gemini 1.5 Flash được thiết kế riêng cho các ứng dụng có khối lượng lớn và tiết kiệm chi phí.Gemini 1.5 Pro
Mô hình đa phương thức hỗ trợ thêm hình ảnh, âm thanh, video và tệp PDF trong câu lệnh văn bản hoặc trò chuyện để phản hồi bằng văn bản hoặc mã. Ngoài ra, mô hình này còn hỗ trợ việc hiểu ngữ cảnh dài với 2 triệu mã thông báo.Gemini 1.0 Pro Vision
Mô hình đa phương thức được thiết kế để xử lý văn bản cùng với hình ảnh và video để phản hồi bằng văn bản hoặc mã. Không thể dùng để trò chuyện.Gemini 1.0 Pro
Mô hình được thiết kế để xử lý các tác vụ bằng ngôn ngữ tự nhiên, trò chuyện nhiều lượt bằng văn bản và mã cũng như tạo mã.
Chuyển đến phần tên mô hình để đưa vào mã của bạn
Trường hợp sử dụng và chức năng của từng mô hình
Mỗi mô hình Gemini có các chức năng khác nhau để hỗ trợ nhiều trường hợp sử dụng. Bạn có thể tìm hiểu thêm trong tài liệu Google Cloud về từng mô hình Gemini.
Đầu vào và đầu ra được hỗ trợ cho từng kiểu máy
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
Loại dữ liệu đầu vào | ||||
Văn bản | ||||
Mã | ||||
Hình ảnh | ||||
Video (chỉ khung hình) | ||||
Video (khung hình và âm thanh) | ||||
Âm thanh | ||||
Loại đầu ra | ||||
Văn bản | ||||
Dữ liệu đầu ra có cấu trúc (như JSON) sử dụng giản đồ phản hồi | ||||
Mã |
Để tìm hiểu về các loại tệp được hỗ trợ, hãy xem Các yêu cầu và tệp nhập được hỗ trợ đối với Vertex AI Gemini API.
Các tính năng được hỗ trợ và tính năng chung của từng kiểu máy
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
Tạo văn bản từ dữ liệu đầu vào chỉ có văn bản | |||||
Tạo văn bản từ dữ liệu đầu vào đa phương thức | |||||
Đầu ra có cấu trúc (như JSON) sử dụng giản đồ phản hồi | |||||
Trò chuyện nhiều lượt | |||||
Lệnh gọi hàm | |||||
Lệnh gọi hàm cơ bản | |||||
Lệnh gọi hàm song song | |||||
Chế độ gọi hàm | |||||
Đếm mã thông báo và số ký tự có thể tính phí | |||||
Hướng dẫn về hệ thống |
Thông tin chi tiết về từng mô hình
Thuộc tính | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
Tổng hạn mức mã thông báo (kết hợp đầu vào và đầu ra) * | 1.048.576 mã thông báo | 2.097.152 mã thông báo | 16.384 mã thông báo | 32.760 mã thông báo |
Giới hạn mã thông báo đầu ra * | 8.192 mã thông báo | 8.192 mã thông báo | 2.048 mã thông báo | 8.192 mã thông báo |
Số lượng hình ảnh tối đa cho mỗi yêu cầu | 3.000 hình ảnh | 3.000 hình ảnh | 16 hình ảnh | Không áp dụng |
Kích thước tối đa của hình ảnh được mã hoá base64 | 7 MB | 7 MB | 7 MB | Không áp dụng |
Kích thước PDF tối đa | 30 MB | 30 MB | 30 MB | Không áp dụng |
Số tệp video tối đa trong mỗi yêu cầu | 10 tệp video | 10 tệp video | 1 tệp video | Không áp dụng |
Thời lượng video tối đa (chỉ khung hình) | Khoảng 60 phút video | Khoảng 60 phút video | 2 phút | Không áp dụng |
Thời lượng video tối đa (khung hình và âm thanh) | ~45 phút video | ~45 phút video | Không áp dụng | Không áp dụng |
Số tệp âm thanh tối đa cho mỗi yêu cầu | 1 tệp âm thanh | 1 tệp âm thanh | Không áp dụng | Không áp dụng |
Thời lượng âm thanh tối đa | ~8,4 giờ âm thanh | ~8,4 giờ âm thanh | Không áp dụng | Không áp dụng |
* Đối với tất cả các mô hình Gemini, một mã thông báo tương đương với khoảng 4 ký tự, vì vậy, 100 mã thông báo tương đương với khoảng 60 đến 80 từ tiếng Anh. Bạn có thể xác định tổng số mã thông báo trong yêu cầu của mình bằng cách sử dụng countTokens
.
Tìm hiểu về các loại tệp được hỗ trợ, cách chỉ định loại MIME và cách đảm bảo rằng các tệp và yêu cầu đa phương thức của bạn đáp ứng các yêu cầu và tuân thủ các phương pháp hay nhất trong phần Các tệp đầu vào được hỗ trợ và yêu cầu đối với Vertex AI Gemini API.
Tạo phiên bản mô hình
Các mô hình Gemini được cung cấp ở các phiên bản ổn định, tự động cập nhật và xem trước.
Phiên bản ổn định được coi là phiên bản Phát hành rộng rãi.
- Các phiên bản ổn định có tên mô hình được thêm vào một số phiên bản gồm ba chữ số cụ thể, ví dụ:
.gemini-1.5-pro-002
- Các phiên bản ổn định có tên mô hình được thêm vào một số phiên bản gồm ba chữ số cụ thể, ví dụ:
Các phiên bản tự động cập nhật luôn trỏ đến phiên bản ổn định mới nhất của mô hình đó; nếu phiên bản ổn định mới được phát hành, thì phiên bản tự động cập nhật sẽ tự động bắt đầu trỏ đến phiên bản ổn định mới đó.
- Các phiên bản tự động cập nhật có tên mô hình không có phần đuôi, ví dụ:
.gemini-1.5-pro
- Các phiên bản tự động cập nhật có tên mô hình không có phần đuôi, ví dụ:
Phiên bản Xem trước có các tính năng mới và được coi là không ổn định. Xin lưu ý rằng các phiên bản xem trước luôn trỏ đến phiên bản xem trước mới nhất của mô hình đó. Nếu phiên bản xem trước mới được phát hành, thì mọi phiên bản xem trước hiện có sẽ tự động bắt đầu trỏ đến phiên bản xem trước mới đó.
- Các phiên bản xem trước có tên mô hình được thêm vào bằng
cùng với ngày phát hành ban đầu của mô hình (-preview
), ví dụ:-MMDD
(phát hành vào ngày 9 tháng 4 năm 2024).gemini-1.5-pro-preview-0409
- Các phiên bản xem trước có tên mô hình được thêm vào bằng
Tìm hiểu thêm về các phiên bản mô hình Gemini hiện có và vòng đời của các phiên bản đó trong tài liệu Google Cloud.
Tên mô hình hiện có
Tên mô hình là các giá trị rõ ràng mà bạn đưa vào mã của mình trong quá trình khởi chạy mô hình tạo sinh (đây là bước bắt buộc để gọi Gemini API). Để xem ví dụ về cách khởi chạy cho ngôn ngữ của bạn, hãy xem hướng dẫn bắt đầu.
Tên mô hình Gemini 1.5 Flash
Tên mẫu thiết bị | Nội dung mô tả | Giai đoạn phát hành | Ngày phát hành đầu tiên | Ngày ngừng cung cấp |
---|---|---|---|---|
Phiên bản ổn định | ||||
gemini-1.5-flash-002 |
Phiên bản ổn định mới nhất của Gemini 1.5 Flash | Giai đoạn phát hành rộng rãi | 2024-09-24 | Không sớm hơn ngày 24 tháng 9 năm 2025 |
gemini-1.5-flash-001 |
Phiên bản ổn định ban đầu của Gemini 1.5 Flash | Giai đoạn phát hành rộng rãi | 2024-05-24 | Không sớm hơn ngày 24/05/2025 |
Phiên bản tự động cập nhật | ||||
gemini-1.5-flash |
Chỉ đến gemini-1.5-flash-001 Để truy cập vào gemini-1.5-flash-002 |
Giai đoạn phát hành rộng rãi | 2024-05-24 | --- |
Tên mô hình Gemini 1.5 Pro
Tên mẫu thiết bị | Nội dung mô tả | Giai đoạn phát hành | Ngày phát hành đầu tiên | Ngày ngừng cung cấp |
---|---|---|---|---|
Phiên bản ổn định | ||||
gemini-1.5-pro-002 |
Phiên bản ổn định mới nhất của Gemini 1.5 Pro | Giai đoạn phát hành rộng rãi | 2024-09-24 | Không sớm hơn ngày 24/09/2025 |
gemini-1.5-pro-001 |
Phiên bản ổn định ban đầu của Gemini 1.5 Pro | Giai đoạn phát hành rộng rãi | 2024-05-24 | Không sớm hơn ngày 24 tháng 5 năm 2025 |
Phiên bản tự động cập nhật | ||||
gemini-1.5-pro |
Chỉ đến gemini-1.5-pro-001 Để truy cập vào gemini-1.5-pro-002 |
Giai đoạn phát hành rộng rãi | 2024-05-24 | --- |
Tên mô hình Gemini 1.0 Pro Vision
Tên mẫu thiết bị | Nội dung mô tả | Giai đoạn phát hành | Ngày phát hành đầu tiên | Ngày ngừng cung cấp |
---|---|---|---|---|
Phiên bản ổn định | ||||
gemini-1.0-pro-vision-001 |
Phiên bản ổn định mới nhất của Gemini 1.0 Pro Vision | Giai đoạn phát hành rộng rãi | 2024-02-15 | Không sớm hơn ngày 15 tháng 2 năm 2025 |
Phiên bản tự động cập nhật | ||||
gemini-1.0-pro-vision |
Trỏ đến phiên bản ổn định mới nhất của 1.5 Pro Vision (hiện là gemini-1.5-pro-vision-001 |
Giai đoạn phát hành rộng rãi | 2024-01-04 | --- |
Tên mô hình Gemini 1.0 Pro
Tên mẫu thiết bị | Nội dung mô tả | Giai đoạn phát hành | Ngày phát hành đầu tiên | Ngày ngừng cung cấp |
---|---|---|---|---|
Phiên bản ổn định | ||||
gemini-1.0-pro-002 |
Phiên bản ổn định mới nhất của Gemini 1.0 Pro | Giai đoạn phát hành rộng rãi | 2024-04-09 | Không sớm hơn ngày 9 tháng 4 năm 2025 |
gemini-1.0-pro-001 |
Phiên bản ổn định của Gemini 1.0 Pro | Giai đoạn phát hành rộng rãi | 2024-02-15 | Không sớm hơn ngày 15/02/2025 |
Phiên bản tự động cập nhật | ||||
gemini-1.0-pro |
Chỉ đến phiên bản ổn định mới nhất của 1.0 Pro (hiện là gemini-1.0-pro-002 |
Giai đoạn phát hành rộng rãi | 2024-02-15 | --- |
Ngôn ngữ được hỗ trợ
Tất cả các mô hình Gemini đều có thể hiểu và trả lời bằng các ngôn ngữ sau:
Tiếng Ả Rập (ar), tiếng Bengali (bn), tiếng Bulgaria (bg), tiếng Trung giản thể và phồn thể (zh), tiếng Croatia (hr), tiếng Séc (cs), tiếng Đan Mạch (da), tiếng Hà Lan (nl), tiếng Anh (en), tiếng Estonia (et), tiếng Phần Lan (fi), tiếng Pháp (fr), tiếng Đức (de), tiếng Hy Lạp (el), tiếng Do Thái (iw), tiếng Hindi (hi), tiếng Hungary (hu), tiếng Indonesia (id), tiếng Ý (it), tiếng Nhật (ja), tiếng Hàn (ko), tiếng Latvia (lv), tiếng Lithuania (lt), tiếng Na Uy (no), tiếng Ba Lan (pl), tiếng Bồ Đào Nha (pt), tiếng Rumani (ro), tiếng Nga (ru), tiếng Serbia (sr), tiếng Slovak (sk), tiếng Slovenia (sl), tiếng Tây Ban Nha (es), tiếng Swahili (sw), tiếng Thuỵ Điển (sv), tiếng Thái (th), tiếng Thổ Nhĩ Kỳ (tr), tiếng Ukraina (uk), tiếng Việt (vi)
Mô hình Gemini 1.5 Pro và Gemini 1.5 Flash có thể hiểu và trả lời bằng các ngôn ngữ bổ sung sau:
Tiếng Afrikaans (af), tiếng Amharic (am), tiếng Assamese (as), tiếng Azerbaijan (az), tiếng Belarus (be), tiếng Bosnia (bs), tiếng Catalan (ca), tiếng Cebuano (ceb), tiếng Corse (co), tiếng xứ Wales (cy), tiếng Dhivehi (dv), tiếng Esperanto (eo), tiếng Basque (eu), tiếng Ba Tư (fa), tiếng Philippines (Tagalog) (fil), tiếng Frisian (fy), tiếng Ireland (ga), tiếng Gael Scotland (gd), tiếng Galicia (gl), tiếng Gujarati (gu), tiếng Hausa (ha), tiếng Hawaii (haw), tiếng Hmong (hmn), tiếng Haiti Creole (ht), tiếng Armenia (hy), tiếng Igbo (ig), tiếng Iceland (is), tiếng Java (jv), tiếng Gruzia (ka), tiếng Kazakh (kk), tiếng Khmer (km), tiếng Kannada (kn), tiếng Krio (kri), tiếng Kurd (ku), tiếng Kyrgyzstan (ky), tiếng Latinh (la), tiếng Luxembourg (lb), tiếng Lào (lo), tiếng Malagasy (mg), tiếng Maori (mi), tiếng Macedonia (mk), tiếng Malayalam (ml), tiếng Mông Cổ (mn), tiếng Meiteilon (Manipuri) (mni-Mtei), tiếng Marathi (mr), tiếng Mã Lai (ms), tiếng Malta (mt), tiếng Myanmar (Miến Điện) (my), tiếng Nepal (ne), tiếng Nyanja (Chichewa) (ny), tiếng Odia (Oriya) (or), tiếng Punjabi (pa), tiếng Pashto (ps), tiếng Sindhi (sd), tiếng Sinhala (Sinhala) (si), tiếng Samoa (sm), tiếng Shona (sn), tiếng Somali (so), tiếng Albania (sq), tiếng Sesotho (st), tiếng Sunda (su), tiếng Tamil (ta), tiếng Telugu (te), tiếng Tajik (tg), tiếng Uyghur (ug), tiếng Urdu (ur), tiếng Uzbek (uz), tiếng Xhosa (xh), tiếng Yiddish (yi), tiếng Yoruba (yo), tiếng Zulu (zu)
Các bước tiếp theo
Hãy thử các tính năng của Gemini API
- Xây dựng cuộc trò chuyện nhiều lượt (trò chuyện).
- Tạo văn bản từ các câu lệnh chỉ có văn bản.
- Tạo văn bản từ câu lệnh đa phương thức (bao gồm văn bản, hình ảnh, tệp PDF, video và âm thanh).
- Tạo kết quả có cấu trúc (như JSON) từ cả lời nhắc bằng văn bản và đa phương thức.
- Sử dụng tính năng gọi hàm để kết nối các mô hình tạo sinh với hệ thống và thông tin bên ngoài.