Nhóm mô hình Gemini được coi là mô hình đa phương thức vì chúng có khả năng xử lý thông tin từ nhiều phương thức, bao gồm hình ảnh, video, và văn bản. Ví dụ: bạn có thể gửi cho mô hình Gemini ảnh chụp một đĩa rồi yêu cầu trang web cung cấp cho bạn công thức làm những chiếc bánh quy đó.
Câu lệnh | Đáp |
Cho tôi công thức làm những chiếc bánh này. |
**NHẬT liệu** — 1 c. (2 que) bơ không ướp muối, đã làm mềm - 3/4 c. đường hạt - 3/4 c. đường nâu, đóng gói - 1 thìa cà phê . chiết xuất vani - 2 quả trứng lớn - 2 1/4 c. bột mì đa dụng – 1 thìa cà phê. baking soda – 1 thìa cà phê. dữ liệu ngẫu nhiên ... |
Bạn có thể tương tác với nhóm mô hình Gemini bằng Gemini API do Vertex AI cung cấp vào Google Cloud. Đối với ứng dụng web và ứng dụng di động, bạn có thể sử dụng Vertex AI in Firebase SDK để gọi Gemini API và tương tác với Gemini sẽ lập mô hình ngay trong ứng dụng của bạn.
Trang này cung cấp thông tin sau đây về các mô hình Gemini:
Thông tin so sánh tổng quan về các trường hợp sử dụng của các Gemini các mô hình phân bổ, bao gồm cả loại dữ liệu đầu vào được hỗ trợ.
Ví dụ: so sánh thông tin chi tiết của từng mô hình mã thông báo đầu vào tối đa hoặc thời lượng tối đa của video.
Nội dung mô tả cách các mô hình Gemini được tạo phiên bản, cụ thể là phiên bản chính thức, tự động cập nhật và bản xem trước.
Danh sách tên mẫu có thể sử dụng để đưa vào mã trong quá trình khởi tạo.
Danh sách ngôn ngữ được hỗ trợ trên các mô hình Gemini.
Các mẫu hiện có
Bạn có thể sử dụng bất kỳ mô hình Gemini nào sau đây với Vertex AI in Firebase:
Gemini 1.5 Flash
Mô hình đa phương thức hỗ trợ cùng một dữ liệu đầu vào và đầu ra được nhập là 1.5 Pro, nhưng với sự hiểu biết theo ngữ cảnh dài là 1 triệu token. Gemini 1.5 Flash được thiết kế đặc biệt để lưu trữ khối lượng lớn, tiết kiệm chi phí .Gemini 1.5 Pro
Mô hình đa phương thức hỗ trợ thêm hình ảnh, âm thanh, video và PDF trong lời nhắc văn bản hoặc tin nhắn trò chuyện để phản hồi bằng tin nhắn văn bản hoặc mã. Ngoài ra, AI của Google còn hỗ trợ việc hiểu ngữ cảnh dài nhờ 2 triệu token.Tầm nhìn của Gemini 1.0 Pro
Mô hình đa phương thức được thiết kế để xử lý cộng văn bản hình ảnh và video cho nội dung phản hồi bằng văn bản hoặc mã. Không thể dùng để trò chuyện.Gemini 1.0 Pro
Mô hình được thiết kế để xử lý các nhiệm vụ liên quan đến ngôn ngữ tự nhiên, đa biến trò chuyện bằng văn bản và mã cũng như tạo mã.
Chuyển đến mục tên mô hình để đưa vào mã của bạn
Các trường hợp sử dụng và khả năng của từng mô hình
Mỗi mô hình Gemini đều có những khả năng khác nhau để hỗ trợ cho nhiều trường hợp sử dụng. Bạn có thể tìm hiểu thêm trong tài liệu Google Cloud về từng thuộc tính Các mô hình Gemini.
Đầu vào và đầu ra được hỗ trợ cho từng kiểu máy
Gemini 1.5 Flash | Gemini 1.5 Pro | Tầm nhìn của Gemini 1.0 Pro | Gemini 1.0 Pro | |
---|---|---|---|---|
Loại dữ liệu đầu vào | ||||
Văn bản | ||||
Mã | ||||
Hình ảnh | ||||
Video (chỉ khung) | ||||
Video (khung hình và âm thanh) | ||||
Âm thanh | ||||
Các loại dữ liệu đầu ra | ||||
Văn bản | ||||
Mã |
Để tìm hiểu về các loại tệp được hỗ trợ, hãy xem Các yêu cầu và tệp nhập được hỗ trợ đối với Vertex AI Gemini API.
Các tính năng được hỗ trợ và tính năng chung của từng kiểu máy
Gemini 1.5 Flash | Gemini 1.5 Pro | Tầm nhìn của Gemini 1.0 Pro | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
Tạo văn bản bằng những câu lệnh chỉ chứa văn bản | |||||
Tạo văn bản từ câu lệnh đa phương thức | |||||
Đầu ra JSON (chế độ giản đồ hạn chế) (sắp có cho Vertex AI in Firebase SDK) |
|||||
Trò chuyện nhiều lượt | |||||
Gọi hàm | |||||
Gọi hàm cơ bản | |||||
Gọi hàm song song | |||||
Chế độ gọi hàm | |||||
Đếm mã thông báo và số ký tự có thể tính phí | |||||
Hướng dẫn về hệ thống |
Thông tin chi tiết về từng mô hình
Tài sản | Gemini 1.5 Flash | Gemini 1.5 Pro | Tầm nhìn của Gemini 1.0 Pro | Gemini 1.0 Pro |
---|---|---|---|---|
Tổng hạn mức mã thông báo (kết hợp đầu vào và đầu ra) * | 1.048.576 mã thông báo | 2.097.152 mã thông báo | 16.384 mã thông báo | 32.760 mã thông báo |
Giới hạn mã thông báo đầu ra * | 8.192 mã thông báo | 8.192 mã thông báo | 2.048 mã thông báo | 8.192 mã thông báo |
Số lượng hình ảnh tối đa trong mỗi yêu cầu | 3.000 hình ảnh | 3.000 hình ảnh | 16 hình ảnh | Không áp dụng |
Kích thước tối đa của hình ảnh được mã hoá base64 | 7 MB | 7 MB | 7 MB | Không áp dụng |
Kích thước tối đa của tệp PDF | 30 MB | 30 MB | 30 MB | Không áp dụng |
Số tệp video tối đa trong mỗi yêu cầu | 10 tệp video | 10 tệp video | 1 tệp video | Không áp dụng |
Thời lượng video tối đa (chỉ khung) | Thời lượng video khoảng 60 phút | Thời lượng video dài khoảng 60 phút | 2 phút | Không áp dụng |
Thời lượng video tối đa (khung hình và âm thanh) | Thời lượng video dài khoảng 45 phút | Thời lượng video dài khoảng 45 phút | Không áp dụng | Không áp dụng |
Số tệp âm thanh tối đa trong mỗi yêu cầu | 1 tệp âm thanh | 1 tệp âm thanh | Không áp dụng | Không áp dụng |
Thời lượng âm thanh tối đa | Khoảng 8,4 giờ âm thanh | Khoảng 8,4 giờ âm thanh | Không áp dụng | Không áp dụng |
* Đối với tất cả mô hình Gemini, một mã thông báo tương đương với khoảng 4 ký tự,
vì vậy, 100 token sẽ bằng khoảng 60-80 từ tiếng Anh. Bạn có thể xác định tổng số lượng
trong yêu cầu của bạn bằng cách sử dụng
countTokens
.
Tại đây, bạn có thể tìm thấy thông tin chi tiết hơn nữa về các mô hình và tệp đầu vào:
Tìm hiểu về sự khác biệt giữa các mô hình đa phương thức trong tài liệu Google Cloud.
Tìm hiểu về các loại tệp được hỗ trợ, cách chỉ định loại MIME và cách tạo đảm bảo rằng các tệp và yêu cầu đa phương thức của bạn đáp ứng các yêu cầu và tuân thủ các phương pháp hay nhất về Các yêu cầu và tệp nhập được hỗ trợ đối với Vertex AI Gemini API.
Tạo phiên bản mô hình
Các mô hình Gemini hiện có ở chế độ chính thức, tự động cập nhật và bản xem trước của Google.
Phiên bản ổn định được coi là phiên bản Phát hành rộng rãi.
- Phiên bản ổn định có tên mô hình được thêm bằng một
số phiên bản cụ thể gồm ba chữ số, ví dụ:
.gemini-1.0-pro-001
- Phiên bản ổn định có tên mô hình được thêm bằng một
số phiên bản cụ thể gồm ba chữ số, ví dụ:
Tự động cập nhật các phiên bản luôn trỏ đến phiên bản mới nhất ổn định mô hình đó; nếu một phiên bản ổn định mới được phát hành, thì phiên bản tự động cập nhật sẽ tự động bắt đầu trỏ đến phiên bản ổn định mới đó.
- Các phiên bản cập nhật tự động có tên mẫu không có
phụ lục, ví dụ:
.gemini-1.0-pro
- Các phiên bản cập nhật tự động có tên mẫu không có
phụ lục, ví dụ:
Phiên bản Xem trước có các tính năng mới và được coi là không ổn định. Xin lưu ý rằng các phiên bản xem trước luôn trỏ đến phiên bản xem trước mới nhất của mô hình đó; nếu phiên bản xem trước mới được phát hành, thì mọi phiên bản xem trước hiện có sẽ tự động bắt đầu trỏ đến phiên bản xem trước mới đó.
- Phiên bản xem trước có tên mẫu được thêm vào
cùng với bản phát hành đầu tiên của mô hình ngày (-preview
), ví dụ:-MMDD
(phát hành vào ngày 9 tháng 4 năm 2024).gemini-1.5-pro-preview-0409
- Phiên bản xem trước có tên mẫu được thêm vào
Tìm hiểu thêm về chính sách các phiên bản mô hình Gemini hiện có và vòng đời của chúng trong tài liệu Google Cloud.
Tên mô hình có sẵn
Tên mô hình là các giá trị rõ ràng mà bạn đưa vào trong mã của mình trong khoảng thời gian khởi động mô hình tạo sinh (đây là một bước bắt buộc để gọi hàm Gemini API). Để biết các ví dụ về khởi động cho ngôn ngữ của bạn, hãy xem hướng dẫn bắt đầu sử dụng.
Tên mô hình Gemini 1.5 Flash
Tên mẫu thiết bị | Nội dung mô tả | Giai đoạn phát hành | Ngày phát hành đầu tiên | Ngày ngừng cung cấp |
---|---|---|---|---|
Phiên bản ổn định | ||||
gemini-1.5-flash-001 |
Phiên bản ổn định mới nhất của Gemini 1.5 Flash | Giai đoạn phát hành rộng rãi | 2024-05-24 | Không sớm hơn ngày 24/05/2025 |
Phiên bản tự động cập nhật | ||||
gemini-1.5-flash |
Trỏ đến phiên bản Ổn định mới nhất của Flash 1.5 (hiện tại gemini-1.5-flash-001 |
Giai đoạn phát hành rộng rãi | 2024-05-24 | --- |
Xem trước các phiên bản | ||||
gemini-1.5-flash-preview-0514 |
Phiên bản xem trước mới nhất của Gemini 1.5 Flash | Bản dùng trước công khai | 2024-05-14 | 2024-06-24 |
Tên mô hình Gemini 1.5 Pro
Tên mẫu thiết bị | Nội dung mô tả | Giai đoạn phát hành | Ngày phát hành đầu tiên | Ngày ngừng cung cấp |
---|---|---|---|---|
Phiên bản ổn định | ||||
gemini-1.5-pro-001 |
Phiên bản ổn định mới nhất của Gemini 1.5 Pro | Giai đoạn phát hành rộng rãi | 2024-05-24 | Không sớm hơn ngày 24/05/2025 |
Phiên bản tự động cập nhật | ||||
gemini-1.5-pro |
Trỏ đến phiên bản ổn định mới nhất của 1.5 Pro (hiện tại gemini-1.5-pro-001 |
Giai đoạn phát hành rộng rãi | 2024-05-24 | --- |
Xem trước các phiên bản | ||||
gemini-1.5-pro-preview-0514 |
Phiên bản xem trước mới nhất của Gemini 1.5 Pro | Bản dùng trước công khai | 2024-05-14 | 2024-06-24 |
gemini-1.5-pro-preview-0409 |
Trỏ để gemini-1.5-pro-preview-0514 (là phiên bản bản xem trước mới nhất) |
Bản dùng trước công khai | 2024-04-09 | 2024-06-14 |
Tên mô hình Gemini 1.0 Pro Vision
Tên mẫu thiết bị | Nội dung mô tả | Giai đoạn phát hành | Ngày phát hành đầu tiên | Ngày ngừng cung cấp |
---|---|---|---|---|
Phiên bản ổn định | ||||
gemini-1.0-pro-vision-001 |
Phiên bản ổn định mới nhất của Gemini 1.0 Pro Vision | Giai đoạn phát hành rộng rãi | 2024-02-15 | Không sớm hơn ngày 15/02/2025 |
Phiên bản tự động cập nhật | ||||
gemini-1.0-pro-vision |
Trỏ đến phiên bản ổn định mới nhất của 1.5 Pro Vision (hiện tại gemini-1.5-pro-vision-001 |
Giai đoạn phát hành rộng rãi | 2024-01-04 | --- |
Tên mô hình Gemini 1.0 Pro
Tên mẫu thiết bị | Nội dung mô tả | Giai đoạn phát hành | Ngày phát hành đầu tiên | Ngày ngừng cung cấp |
---|---|---|---|---|
Phiên bản ổn định | ||||
gemini-1.0-pro-002 |
Phiên bản ổn định mới nhất của Gemini 1.0 Pro | Giai đoạn phát hành rộng rãi | 2024-04-09 | Không sớm hơn ngày 09/04/2025 |
gemini-1.0-pro-001 |
Phiên bản ổn định của Gemini 1.0 Pro | Giai đoạn phát hành rộng rãi | 2024-02-15 | Không sớm hơn ngày 15/02/2025 |
Phiên bản tự động cập nhật | ||||
gemini-1.0-pro |
Trỏ đến phiên bản ổn định mới nhất của 1.0 Pro (hiện tại gemini-1.0-pro-002 |
Giai đoạn phát hành rộng rãi | 2024-02-15 | --- |
Ngôn ngữ được hỗ trợ
Tất cả mô hình Gemini đều có thể hiểu và trả lời trong các ngôn ngữ sau:
Tiếng Ả Rập (ar), Tiếng Bengali (bn), Tiếng Bulgaria (bg), Tiếng Trung giản thể và phồn thể (zh), tiếng Croatia (hr), tiếng Séc (cs), Tiếng Đan Mạch (da), tiếng Hà Lan (nl), tiếng Anh (en), tiếng Estonia (et), tiếng Phần Lan (fi), Tiếng Pháp (fr), tiếng Đức (de), tiếng Hy Lạp (el), tiếng Do Thái (iw), tiếng Hindi (hi), tiếng Hungary (hu), Tiếng Indonesia (id), tiếng Ý (it), tiếng Nhật (ja), tiếng Hàn (ko), tiếng Latvia (lv), Tiếng Lithuania (lt), Tiếng Na Uy (no), Tiếng Ba Lan (pl), Tiếng Bồ Đào Nha (pt), Tiếng Romania (ro), Tiếng Nga (ru), Tiếng Serbia (sr), Tiếng Slovak (sk), Tiếng Slovenia (sl), tiếng Tây Ban Nha (es), Tiếng Swahili (sw), Tiếng Thuỵ Điển (sv), tiếng Thái (th), tiếng Thổ Nhĩ Kỳ (tr), Tiếng Ukraina (uk), Tiếng Việt (vi)
Gemini 1.5 Pro và Gemini 1.5 Flash các mô hình có thể hiểu và phản hồi bằng các ngôn ngữ bổ sung sau đây:
Tiếng Afrikaans (af), tiếng Amharic (am), tiếng Assam (as), tiếng Azerbaijan (az), Tiếng Belarus (be), Tiếng Bosnia (bs), Tiếng Catalan (ca), Tiếng Cebuano (ceb), Tiếng Corsican (co), Tiếng Wales (cy), Dhivehi (dv), Esperanto (eo), Basque (eu), Ba Tư (fa), Tiếng Philippines (Tagalog) (fil), tiếng Frisia (fy), tiếng Ireland (ga), tiếng Scots Gaelic (gd), Tiếng Galicia (gl), Tiếng Gujarati (gu), Tiếng Hausa (ha), Tiếng Hawaii (haw), Tiếng Hmong (hmn), Tiếng Haitian Creole (ht), tiếng Armenia (hy), tiếng Igbo (ig), tiếng Iceland (is), tiếng Java (jv), Tiếng Georgia (ka), tiếng Kazakh (kk), tiếng Khmer (km), tiếng Kannada (kn), tiếng Krio (kri), Tiếng Kurd (ku), Kyrgyz (ky), Latinh (la), Luxembourg (lb), Tiếng Lào (lo), Tiếng Malagasy (mg), Tiếng Maori (mi), Tiếng Macedonia (mk), Tiếng Malayalam (ml), Tiếng Mông Cổ (mn), Tiếng Meiteilon (Manipuri) (mni-Mtei), Marathi (mr), tiếng Malay (ms), tiếng Malta (mt), Tiếng Myanmar (Miến Điện) (của tôi), tiếng Nepal (ne), tiếng Nyanja (Chichewa) (ny), Tiếng Odia (Oriya) (hoặc), tiếng Punjabi (pa), tiếng Pashto (ps), tiếng Sindhi (sd), Tiếng Sinhala (sinhalese) (si), tiếng Samoa (sm), tiếng Shona (sn), tiếng Somali (so), tiếng Albania (sq), Tiếng Sesotho (st), Sunda (su), Tamil (ta), Telugu (te), Tajik (tg), Tiếng Uyghur (ug), Urdu (ur), Uzbek (uz), Xhosa (xh), Yiddish (yi), Yoruba (yo), Tiếng Zulu (zu)
Các bước tiếp theo
Hãy thử các tính năng của Gemini API
- Tạo cuộc trò chuyện nhiều lượt (trò chuyện).
- Tạo văn bản từ lời nhắc chỉ có văn bản.
- Tạo văn bản từ câu lệnh đa phương thức (bao gồm văn bản, hình ảnh, PDF, video và âm thanh).
- Sử dụng tính năng gọi hàm để kết nối các mô hình tạo sinh sang các hệ thống và thông tin bên ngoài.