ชุดโมเดลของ Gemini ถือว่าเป็นแบบหลายโมดัลเนื่องจากสามารถประมวลผลข้อมูลจากหลายรูปแบบได้ ซึ่งรวมถึงรูปภาพ วิดีโอ และข้อความ เช่น คุณสามารถส่งรูปภาพจานคุกกี้ให้โมเดลของ Gemini และขอให้บอกสูตรคุกกี้เหล่านั้น
พรอมต์ | การตอบกลับ |
ขอสูตรคุกกี้เหล่านี้ |
**ส่วนผสม** - 1 ถ้วย เนยจืด (2 แท่ง) ละลาย - น้ำตาลทรายป่น 3/4 ถ้วย - น้ำตาลทรายแดง 3/4 ถ้วย - 1 ช้อนชา สารสกัดวานิลลา - ไข่ใหญ่ 2 ฟอง - แป้งอเนกประสงค์ 2 1/4 ถ้วย - เบกกิ้งโซดา 1 ช้อนชา - เกลือ 1 ช้อนชา ... |
คุณสามารถโต้ตอบกับกลุ่มผลิตภัณฑ์โมเดล Gemini ได้โดยใช้ Gemini API ที่ Vertex AI ให้บริการใน Google Cloud สําหรับแอปบนอุปกรณ์เคลื่อนที่และเว็บ คุณสามารถใช้ Vertex AI in FirebaseSDK เพื่อเรียกใช้ Gemini API และโต้ตอบกับโมเดล Gemini จากแอปโดยตรง
หน้านี้มีข้อมูลต่อไปนี้เกี่ยวกับโมเดล Gemini
การเปรียบเทียบระดับสูงของกรณีการใช้งานสําหรับรูปแบบ Gemini แบบต่างๆ รวมถึงประเภทอินพุตที่รองรับ
การเปรียบเทียบรายละเอียดของแต่ละรูปแบบ เช่น โทเค็นอินพุตสูงสุดหรือความยาววิดีโอสูงสุด
คำอธิบายเกี่ยวกับวิธีกำหนดเวอร์ชันโมเดล Gemini โดยเฉพาะเวอร์ชันเสถียร อัปเดตอัตโนมัติ และเวอร์ชันตัวอย่าง
รายการชื่อโมเดลที่ใช้ได้ที่จะรวมไว้ในโค้ดระหว่างการเริ่มต้น
รายการภาษาที่รองรับสำหรับรุ่นต่างๆ ของ Gemini
รุ่นที่ใช้ได้
คุณใช้ Gemini รุ่นใดก็ได้ต่อไปนี้กับ Vertex AI in Firebase
Gemini 1.5 Flash
โมเดลมัลติโมดัลที่รองรับประเภทอินพุตและเอาต์พุตแบบเดียวกับ 1.5 Pro แต่มีการทําความเข้าใจบริบทแบบยาวที่ 1 ล้านโทเค็น Gemini 1.5 Flash ออกแบบมาโดยเฉพาะสําหรับแอปพลิเคชันที่มีปริมาณมากและประหยัดต้นทุนGemini 1.5 Pro
โมเดลมัลติโมดัลที่รองรับการเพิ่มรูปภาพ เสียง วิดีโอ และไฟล์ PDF ในพรอมต์ข้อความหรือแชทเพื่อรับคำตอบที่เป็นข้อความหรือโค้ด นอกจากนี้ยังรองรับการทำความเข้าใจบริบทแบบยาวด้วยโทเค็น 2 ล้านรายการGemini 1.0 Pro Vision
โมเดลมัลติโมดัลที่ออกแบบมาเพื่อจัดการข้อความ รวมถึงรูปภาพและวิดีโอสำหรับการตอบกลับด้วยข้อความหรือโค้ด ใช้สำหรับแชทไม่ได้Gemini 1.0 Pro
โมเดลที่ออกแบบมาเพื่อจัดการงานภาษาธรรมชาติ แชทแบบหลายรอบด้วยข้อความและโค้ด รวมถึงการสร้างโค้ด
ข้ามไปที่ชื่อโมเดลเพื่อรวมไว้ในโค้ด
กรณีการใช้งานและความสามารถของโมเดลแต่ละรุ่น
Gemini แต่ละรุ่นมีความสามารถที่แตกต่างกันเพื่อรองรับกรณีการใช้งานที่หลากหลาย ดูข้อมูลเพิ่มเติมได้ในGoogle Cloudเอกสารประกอบเกี่ยวกับรุ่น Gemini แต่ละรุ่น
อินพุตและเอาต์พุตที่รองรับสำหรับแต่ละรุ่น
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
ประเภทอินพุต | ||||
ข้อความ | ||||
รหัส | ||||
รูปภาพ | ||||
วิดีโอ (เฟรมเท่านั้น) | ||||
วิดีโอ (เฟรมและเสียง) | ||||
เสียง | ||||
ประเภทเอาต์พุต | ||||
ข้อความ | ||||
เอาต์พุตที่มีโครงสร้าง (เช่น JSON) โดยใช้สคีมาคำตอบ | ||||
รหัส |
ดูข้อมูลเกี่ยวกับประเภทไฟล์ที่รองรับได้ที่ไฟล์อินพุตที่รองรับและข้อกำหนดสำหรับ Vertex AI Gemini API
ความสามารถที่รองรับและฟีเจอร์ทั่วไปสำหรับแต่ละรุ่น
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
การสร้างข้อความจากอินพุตที่เป็นข้อความเท่านั้น | |||||
การสร้างข้อความจากอินพุตหลายโมดัล | |||||
เอาต์พุตที่มีโครงสร้าง (เช่น JSON) โดยใช้สคีมาการตอบกลับ | |||||
แชทแบบหลายรอบ | |||||
การเรียกใช้ฟังก์ชัน | |||||
การเรียกฟังก์ชันพื้นฐาน | |||||
การเรียกฟังก์ชันพร้อมกัน | |||||
โหมดการเรียกฟังก์ชัน | |||||
นับโทเค็นและอักขระที่เรียกเก็บเงินได้ | |||||
วิธีการของระบบ |
ข้อมูลโดยละเอียดเกี่ยวกับแต่ละรุ่น
พร็อพเพอร์ตี้ | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
ขีดจํากัดโทเค็นทั้งหมด (อินพุตและเอาต์พุตรวมกัน) * | โทเค็น 1,048,576 รายการ | โทเค็น 2,097,152 รายการ | โทเค็น 16,384 รายการ | โทเค็น 32,760 รายการ |
ขีดจํากัดโทเค็นเอาต์พุต * | โทเค็น 8,192 รายการ | โทเค็น 8,192 รายการ | โทเค็น 2,048 รายการ | โทเค็น 8,192 รายการ |
จํานวนรูปภาพสูงสุดต่อคําขอ | 3,000 รูปภาพ | 3,000 รูปภาพ | รูปภาพ 16 รูป | ไม่มี |
ขนาดรูปภาพสูงสุดที่เข้ารหัส Base64 | 7 MB | 7 MB | 7 MB | ไม่มี |
ขนาด PDF สูงสุด | 30 MB | 30 MB | 30 MB | ไม่มี |
จำนวนไฟล์วิดีโอสูงสุดต่อคำขอ | ไฟล์วิดีโอ 10 ไฟล์ | ไฟล์วิดีโอ 10 ไฟล์ | ไฟล์วิดีโอ 1 ไฟล์ | ไม่มี |
ความยาววิดีโอสูงสุด (เฟรมเท่านั้น) | วิดีโอความยาวประมาณ 60 นาที | วิดีโอความยาวประมาณ 60 นาที | 2 นาที | ไม่มี |
ความยาวสูงสุดของวิดีโอ (เฟรมและเสียง) | วิดีโอความยาวประมาณ 45 นาที | วิดีโอความยาวประมาณ 45 นาที | ไม่มี | ไม่มี |
จำนวนไฟล์เสียงสูงสุดต่อคำขอ | ไฟล์เสียง 1 ไฟล์ | ไฟล์เสียง 1 ไฟล์ | ไม่มี | ไม่มี |
ความยาวเสียงสูงสุด | เสียงที่ยาวประมาณ 8.4 ชั่วโมง | เสียงที่ยาวประมาณ 8.4 ชั่วโมง | ไม่มี | ไม่มี |
* สำหรับโมเดล Gemini ทั้งหมด โทเค็นจะเท่ากับประมาณ 4 อักขระ ดังนั้น 100 โทเค็นจะเท่ากับคำภาษาอังกฤษประมาณ 60-80 คำ คุณระบุจํานวนโทเค็นทั้งหมดในคําขอได้โดยใช้ countTokens
ดูข้อมูลเกี่ยวกับประเภทไฟล์ที่รองรับ วิธีระบุประเภท MIME และวิธีตรวจสอบว่าไฟล์และคำขอแบบหลายรูปแบบเป็นไปตามข้อกำหนดและแนวทางปฏิบัติแนะนำในไฟล์อินพุตที่รองรับและข้อกำหนดสำหรับ Vertex AI Gemini API
การกำหนดเวอร์ชันของโมเดล
โมเดล Gemini มีให้บริการในเวอร์ชันเสถียร อัปเดตอัตโนมัติ และเวอร์ชันตัวอย่าง
เวอร์ชันเสถียรจะถือว่าพร้อมให้บริการสำหรับผู้ใช้ทั่วไป
- เวอร์ชันที่เสถียรจะมีชื่อรุ่นต่อท้ายด้วยหมายเลขเวอร์ชัน 3 หลักที่เฉพาะเจาะจง เช่น
gemini-1.5-pro-002
- เวอร์ชันที่เสถียรจะมีชื่อรุ่นต่อท้ายด้วยหมายเลขเวอร์ชัน 3 หลักที่เฉพาะเจาะจง เช่น
เวอร์ชันอัปเดตอัตโนมัติจะชี้ไปยังรุ่นเสถียรล่าสุดของรุ่นนั้นเสมอ หากมีการเผยแพร่เวอร์ชันเสถียรใหม่ เวอร์ชันอัปเดตอัตโนมัติจะเริ่มชี้ไปยังเวอร์ชันเสถียรใหม่นั้นโดยอัตโนมัติ
- เวอร์ชันที่อัปเดตอัตโนมัติจะมีชื่อรูปแบบที่ไม่มีส่วนต่อท้าย เช่น
gemini-1.5-pro
- เวอร์ชันที่อัปเดตอัตโนมัติจะมีชื่อรูปแบบที่ไม่มีส่วนต่อท้าย เช่น
เวอร์ชันเวอร์ชันตัวอย่างมีความสามารถใหม่ๆ และถือว่าไม่เสถียร โปรดทราบว่าเวอร์ชันตัวอย่างจะชี้ไปยังเวอร์ชันตัวอย่างล่าสุดของโมเดลนั้นเสมอ หากมีการเผยแพร่เวอร์ชันตัวอย่างใหม่ เวอร์ชันตัวอย่างที่มีอยู่จะเริ่มชี้ไปยังเวอร์ชันตัวอย่างใหม่นั้นโดยอัตโนมัติ
- เวอร์ชันตัวอย่างจะมีชื่อรุ่นต่อท้ายด้วย
พร้อมกับวันที่เปิดตัวครั้งแรกของรุ่น (-preview
) เช่น-MMDD
(เปิดตัวเมื่อวันที่ 9 เมษายน 2024)gemini-1.5-pro-preview-0409
- เวอร์ชันตัวอย่างจะมีชื่อรุ่นต่อท้ายด้วย
ดูข้อมูลเพิ่มเติมเกี่ยวกับเวอร์ชันของรูปแบบ Gemini ที่มีและวงจรการใช้งานในเอกสารประกอบ Google Cloud
ชื่อรุ่นที่ใช้ได้
ชื่อโมเดลคือค่าที่ชัดเจนซึ่งคุณรวมไว้ในโค้ดระหว่างการเริ่มต้นโมเดล Generative (ซึ่งเป็นขั้นตอนที่จำเป็นในการเรียกใช้ Gemini API) ดูตัวอย่างการเริ่มต้นภาษาของคุณได้ในคู่มือเริ่มต้นใช้งาน
ชื่อโมเดล Gemini 1.5 Flash
ชื่อโมเดล | คำอธิบาย | ระยะการเผยแพร่ | วันที่เปิดตัวครั้งแรก | วันที่หยุดให้บริการ |
---|---|---|---|---|
เวอร์ชันเสถียร | ||||
gemini-1.5-flash-002 |
Gemini 1.5 Flash เวอร์ชันเสถียรล่าสุด | สำหรับผู้ใช้ทั่วไป | 2024-09-24 | ไม่เกินวันที่ 24-09-2025 |
gemini-1.5-flash-001 |
เวอร์ชันเสถียรเริ่มต้นของ Gemini 1.5 Flash | สำหรับผู้ใช้ทั่วไป | 2024-05-24 | ไม่เกินวันที่ 24-05-2025 |
เวอร์ชันที่อัปเดตอัตโนมัติ | ||||
gemini-1.5-flash |
ชี้ไปยัง 1.5 Flash เวอร์ชันเสถียรล่าสุด (ปัจจุบันคือ gemini-1.5-flash-002 |
สำหรับผู้ใช้ทั่วไป | 2024-09-24 | --- |
ชื่อรุ่น Gemini 1.5 Pro
ชื่อโมเดล | คำอธิบาย | ระยะการเผยแพร่ | วันที่เปิดตัวครั้งแรก | วันที่หยุดให้บริการ |
---|---|---|---|---|
เวอร์ชันเสถียร | ||||
gemini-1.5-pro-002 |
Gemini 1.5 Pro เวอร์ชันเสถียรล่าสุด | สำหรับผู้ใช้ทั่วไป | 2024-09-24 | ไม่เกินวันที่ 24-09-2025 |
gemini-1.5-pro-001 |
เวอร์ชันเสถียรเริ่มต้นของ Gemini 1.5 Pro | สำหรับผู้ใช้ทั่วไป | 2024-05-24 | ไม่เกินวันที่ 24-05-2025 |
เวอร์ชันที่อัปเดตอัตโนมัติ | ||||
gemini-1.5-pro |
ชี้ไปยัง 1.5 Pro เวอร์ชันเสถียรล่าสุด (ปัจจุบันคือ gemini-1.5-pro-002 |
สำหรับผู้ใช้ทั่วไป | 2024-09-24 | --- |
ชื่อรุ่น Gemini 1.0 Pro Vision
ชื่อโมเดล | คำอธิบาย | ระยะการเผยแพร่ | วันที่เปิดตัวครั้งแรก | วันที่หยุดให้บริการ |
---|---|---|---|---|
เวอร์ชันเสถียร | ||||
gemini-1.0-pro-vision-001 |
Gemini 1.0 Pro Vision เวอร์ชันเสถียรล่าสุด | สำหรับผู้ใช้ทั่วไป | 2024-02-15 | ไม่เกินวันที่ 15-02-2025 |
เวอร์ชันที่อัปเดตอัตโนมัติ | ||||
gemini-1.0-pro-vision |
ชี้ไปที่ ProVision 1.5 เวอร์ชันเสถียรล่าสุด (ปัจจุบันคือ gemini-1.5-pro-vision-001 |
สำหรับผู้ใช้ทั่วไป | 2024-01-04 | --- |
ชื่อรุ่น Gemini 1.0 Pro
ชื่อโมเดล | คำอธิบาย | ระยะการเผยแพร่ | วันที่เปิดตัวครั้งแรก | วันที่หยุดให้บริการ |
---|---|---|---|---|
เวอร์ชันเสถียร | ||||
gemini-1.0-pro-002 |
Gemini 1.0 Pro เวอร์ชันเสถียรล่าสุด | สำหรับผู้ใช้ทั่วไป | 2024-04-09 | ไม่เกินวันที่ 09-04-2025 |
gemini-1.0-pro-001 |
Gemini 1.0 Pro เวอร์ชันเสถียร | สำหรับผู้ใช้ทั่วไป | 2024-02-15 | ไม่เกินวันที่ 15-02-2025 |
เวอร์ชันที่อัปเดตอัตโนมัติ | ||||
gemini-1.0-pro |
ชี้ไปยังเวอร์ชัน 1.0 Pro เสถียรล่าสุด (ปัจจุบันคือ gemini-1.0-pro-002 |
สำหรับผู้ใช้ทั่วไป | 2024-02-15 | --- |
ภาษาที่สนับสนุน
Gemini ทุกรุ่นจะเข้าใจและตอบกลับเป็นภาษาต่อไปนี้ได้
อาหรับ (ar), เบงกอล (bn), บัลแกเรีย (bg), จีน (ตัวย่อและตัวเต็ม) (zh), โครเอเชีย (hr), เช็ก (cs), เดนมาร์ก (da), ดัตช์ (nl), อังกฤษ (en), เอสโตเนีย (et), ฟินแลนด์ (fi), ฝรั่งเศส (fr), เยอรมัน (de), กรีก (el), ฮีบรู (iw), ฮินดี (hi), ฮังการี (hu), อินโดนีเซีย (id), อิตาลี (it), ญี่ปุ่น (ja), เกาหลี (ko), ลัตเวีย (lv), ลิทัวเนีย (lt), นอร์เวย์ (no), โปแลนด์ (pl), โปรตุเกส (pt), โรมาเนีย (ro), รัสเซีย (ru), เซอร์เบีย (sr), สโลวาเกีย (sk), สโลวีเนีย (sl), สเปน (es), สวาฮิลี (sw), สวีเดน (sv), ไทย (th), ตุรกี (tr), ยูเครน (uk), เวียดนาม (vi)
โมเดล Gemini 1.5 Pro และ Gemini 1.5 Flash สามารถเข้าใจและตอบเป็นภาษาเพิ่มเติมต่อไปนี้
อาหรับ (ar), อามารา (am), อัสสัม (as), อาเซอร์ไบจาน (az), เบลารุส (be), บอสเนีย (bs), กาตาลา (ca), เซบู (ceb), คอร์ซิกา (co), เวลส์ (cy), มัลดีฟส์ (dv), เอสเปรันโต (eo), บาสก์ (eu), เปอร์เซีย (fa), ฟิลิปปินส์ (ตากาล็อก) (fil), ฟรีเชียน (fy), ไอริช (ga), สก็อตติชเกลิค (gd), กาลิเซีย (gl), คุชราต (gu), ฮาซา (ha), ฮาวาย (haw), ฮม้ง (hmn), ไฮติครีโอล (ht), อาร์เมเนีย (hy), อิกโบ (ig), ไอซ์แลนด์ (is), ชวา (jv), จอร์เจีย (ka), คาซัค (kk), เขมร (km), กานนาดา (kn), คริโอ (kri), คูร์ด (ku), คีร์กีซ (ky), ละติน (la), ลักเซมเบิร์ก (lb), ลาว (lo), มาลากาซี (mg), มาวรี (mi), มาซิโดเนีย (mk), มาลายาลัม (ml), มองโกเลีย (mn), เมเตอิโลน (มานิปุรี) (mni-Mtei), มาราธี (mr), มาเลย์ (ms), มอลตา (mt), เมียนมา (พม่า) (my), เนปาล (ne), ญวน (ny), โอเดีย (โอริยา) (or), ปัญจาบ (pa), ปาชโต (ps), สินธี (sd), สิงหล (สิงหล) (si), ซามัว (sm), โชนา (sn), โซมาลี (so), อัลเบเนีย (sq), เซโซโท (st), ชุนดา (su), ทมิฬ (ta), เตลูกู (te), ทาจิก (tg), อุยกฮอร์ (ug), อูรดู (ur), อุซเบก (uz), ซีกัว (xh), ยิดดิช (yi), โยรูบา (yo), ซูลู (zu)
ขั้นตอนถัดไป
ลองใช้ความสามารถของ Gemini API
- สร้างการสนทนาแบบหลายรอบ (แชท)
- สร้างข้อความจากพรอมต์แบบข้อความเท่านั้น
- สร้างข้อความจากพรอมต์แบบมัลติโมด (รวมถึงข้อความ รูปภาพ PDF วิดีโอ และเสียง)
- สร้างเอาต์พุตที่มีโครงสร้าง (เช่น JSON) จากทั้งพรอมต์แบบข้อความและแบบมัลติโมเดล
- ใช้การเรียกฟังก์ชันเพื่อเชื่อมต่อโมเดล Generative กับระบบและข้อมูลภายนอก