เมื่อเรียกใช้ Vertex AI Gemini API จากแอปโดยใช้ Vertex AI in Firebase SDK คุณสามารถแจ้งให้โมเดล Gemini สร้างข้อความตามอินพุตแบบหลายรูปแบบได้ พรอมต์แบบหลายโมดัลอาจมีโมดัล (หรือประเภทอินพุต) หลายรายการ เช่น ข้อความพร้อมกับรูปภาพ, PDF, วิดีโอ และเสียง
สำหรับอินพุตที่ไม่ใช่ข้อความ (เช่น ไฟล์สื่อ) คุณต้องใช้ประเภทไฟล์ที่รองรับ ระบุประเภท MIME ที่รองรับ และตรวจสอบว่าไฟล์และคำขอแบบหลายรูปแบบเป็นไปตามข้อกำหนดและแนวทางปฏิบัติแนะนำ
หน้านี้จะอธิบายข้อมูลต่อไปนี้
รายละเอียดเกี่ยวกับประเภท MIME ที่รองรับ แนวทางปฏิบัติแนะนำ และข้อจำกัดสำหรับอินพุตไฟล์ต่อไปนี้
รูปภาพ | วิดีโอ | เสียง | เอกสาร (เช่น PDF)
ตัวเลือกในการส่งไฟล์ในคำขอสื่อหลายรูปแบบ
ในคำขอแบบหลายสื่อแต่ละรายการ คุณต้องระบุข้อมูลต่อไปนี้เสมอ
mimeType
ของไฟล์ ดูประเภท MIME ที่รองรับของไฟล์อินพุตแต่ละไฟล์ได้ในส่วนที่เกี่ยวข้องของหน้านี้ไฟล์ คุณสามารถระบุไฟล์โดยใช้ URL / URI หรือระบุไฟล์เป็นข้อมูลในบรรทัดก็ได้
ขนาดและจำนวนไฟล์ที่คุณระบุในคำขอจะขึ้นอยู่กับประเภทไฟล์อินพุต วิธีระบุไฟล์ และโมเดลที่ใช้ (ดูรายละเอียดได้ในส่วนประเภทไฟล์อินพุตแต่ละประเภทในหน้านี้)
ตัวเลือกที่ 1: ระบุไฟล์โดยใช้ URL หรือ URI
ประเภท URL หรือ URI ที่ยอมรับมีดังนี้
Cloud Storage for Firebase URL ของที่เก็บข้อมูล: URL ของไฟล์ต้องเป็นแบบสาธารณะ หรือผู้ใช้ที่ลงชื่อเข้าใช้หรือไคลเอ็นต์ต้องมีสิทธิ์เข้าถึงไฟล์เพียงพอ ดูข้อมูลเพิ่มเติมเกี่ยวกับ Cloud Storage for Firebase ประโยชน์, ข้อกำหนดของ URL และ ตัวอย่างโค้ด
URL ของที่เก็บข้อมูล Google Cloud Storage: URL ของไฟล์ต้องเป็นแบบสาธารณะ
URL ของเบราว์เซอร์/HTTP: URL ของไฟล์ต้องอ่านได้แบบสาธารณะ ตัวอย่าง ได้แก่ URL จากเว็บไซต์โฮสติ้งสื่อ, URL ที่แสดงสื่อโดยตรง (ไม่ใช่หน้าเว็บที่โฮสต์สื่อ) หรือไฟล์ Google ไดรฟ์หรือ Google Workspace ที่เผยแพร่
URL ของวิดีโอ YouTube: วิดีโอ YouTube ต้องเป็นแบบสาธารณะหรือไม่เป็นสาธารณะ
ดูข้อมูลเพิ่มเติมเกี่ยวกับข้อกําหนดสําหรับ URL และ URI ในเอกสารประกอบของ Google Cloud
ตัวเลือกที่ 2: ส่งไฟล์เป็นข้อมูลในบรรทัด
โปรดทราบข้อมูลต่อไปนี้เกี่ยวกับไฟล์ที่ระบุเป็นข้อมูลในบรรทัด
เฉพาะไฟล์ขนาดเล็กเท่านั้นที่ส่งเป็นข้อมูลในบรรทัดได้ เนื่องจากขนาดคำขอทั้งหมดมีขีดจำกัดอยู่ที่ 20 MB
ระบบจะเข้ารหัสไฟล์เป็น Base64 ระหว่างการรับส่ง (ซึ่งทำให้ไฟล์มีขนาดใหญ่ขึ้น)
ดูตัวอย่างวิธีรวมไฟล์เป็นข้อมูลในบรรทัดได้ที่หัวข้อสร้างข้อความจากพรอมต์แบบหลายรูปแบบโดยใช้ Gemini API
รูปภาพ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด
รูปภาพ: ข้อกำหนด
ส่วนนี้จะอธิบายเกี่ยวกับประเภท MIME ที่รองรับและขีดจํากัดต่อคําขอสําหรับรูปภาพ
ประเภท MIME ที่รองรับ
โมเดลมัลติโมเดลของ Gemini รองรับประเภท MIME ของรูปภาพต่อไปนี้
ประเภท MIME ของรูปภาพ | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
|||
WebP - image/webp |
จำนวนที่จำกัดต่อคำขอ
ไม่มีการจำกัดจำนวนพิกเซลในรูปภาพ อย่างไรก็ตาม ระบบจะปรับขนาดรูปภาพขนาดใหญ่ให้เล็กลงและเพิ่มพื้นที่ว่างเพื่อให้พอดีกับความละเอียดสูงสุด 3072 x 3072 โดยยังคงรักษาสัดส่วนภาพเดิมไว้
จำนวนไฟล์รูปภาพสูงสุดที่อนุญาตในคำขอพรอมต์มีดังนี้
- Gemini 1.0 Pro Vision: 16 ภาพ
- Gemini 1.5 Flash และ Gemini 1.5 Pro: 3,000 ภาพ
รูปภาพ: การแปลงข้อมูลเป็นโทเค็น
ต่อไปนี้คือวิธีคำนวณโทเค็นสำหรับรูปภาพ
- Gemini 1.0 Pro Vision: รูปภาพแต่ละรูปใช้โทเค็น 258 โทเค็น
- Gemini 1.5 Flash และ Gemini 1.5 Pro
- หากทั้ง 2 ขนาดของรูปภาพน้อยกว่าหรือเท่ากับ 384 พิกเซล ระบบจะใช้โทเค็น 258 รายการ
- หากรูปภาพมีขนาด 1 ด้านเกิน 384 พิกเซล ระบบจะครอบตัดรูปภาพเป็นไทล์ ขนาดการ์ดแต่ละขนาดจะมีค่าเริ่มต้นเป็นมิติข้อมูล (ความกว้างหรือความสูง) ที่เล็กที่สุดหารด้วย 1.5 หากจำเป็น ระบบจะปรับแต่ละการ์ดให้มีขนาดไม่เล็กกว่า 256 พิกเซลและไม่ใหญ่กว่า 768 พิกเซล จากนั้นระบบจะปรับขนาดแต่ละการ์ดเป็น 768x768 และใช้โทเค็น 258 รายการ
รูปภาพ: แนวทางปฏิบัติแนะนำ
เมื่อใช้รูปภาพ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
- หากต้องการตรวจหาข้อความในรูปภาพ ให้ใช้พรอมต์ที่มีรูปภาพเดียวเพื่อให้ได้ผลลัพธ์ที่ดีกว่าพรอมต์ที่มีรูปภาพหลายรูป
- หากพรอมต์มีรูปภาพเดียว ให้วางรูปภาพไว้ก่อนพรอมต์ข้อความในคำขอ
- หากพรอมต์มีรูปภาพหลายรูปและคุณต้องการอ้างอิงรูปภาพเหล่านั้นในพรอมต์ในภายหลังหรือให้โมเดลอ้างอิงรูปภาพเหล่านั้นในการตอบกลับของโมเดล ก็อาจช่วยได้ด้วยการระบุดัชนีก่อนรูปภาพแต่ละรูป ใช้
หรือa
b
c
สำหรับดัชนี ต่อไปนี้เป็นตัวอย่างการใช้รูปภาพที่จัดทำดัชนีในพรอมต์image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - ใช้รูปภาพที่มีความละเอียดสูงขึ้นเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น
- ใส่ตัวอย่าง 2-3 รายการในพรอมต์
- หมุนรูปภาพให้อยู่ในแนวที่ถูกต้องก่อนที่จะเพิ่มลงในพรอมต์
- หลีกเลี่ยงรูปภาพที่เบลอ
รูปภาพ: ข้อจำกัด
แม้ว่าโมเดลสื่อหลายรูปแบบของ Gemini จะมีประสิทธิภาพในการใช้งานแบบหลายรูปแบบได้หลายกรณี แต่คุณก็ควรทำความเข้าใจข้อจํากัดของโมเดลดังนี้
- การดูแลเนื้อหา: ผู้เข้าร่วมปฏิเสธที่จะตอบคำถามเกี่ยวกับรูปภาพที่ละเมิดนโยบายด้านความปลอดภัย
- การหาเหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการหาตำแหน่งข้อความหรือวัตถุในรูปภาพ โดยอาจแสดงเฉพาะจํานวนวัตถุโดยประมาณ
- การใช้ทางการแพทย์: โมเดลไม่เหมาะสำหรับการตีความรูปภาพทางการแพทย์ (เช่น เอกซเรย์และ CT Scan) หรือให้คำแนะนำทางการแพทย์
- การจดจำบุคคล: โมเดลไม่ได้มีไว้เพื่อระบุตัวตนบุคคลที่ไม่ใช่คนดังในรูปภาพ
- ความแม่นยำ: โมเดลอาจเห็นภาพหลอนหรือทำผิดพลาดเมื่อตีความรูปภาพคุณภาพต่ำ หมุน หรือมีความละเอียดต่ำมาก นอกจากนี้ โมเดลอาจตีความข้อความที่เขียนด้วยมือในเอกสารรูปภาพผิดพลาดด้วย
วิดีโอ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด
วิดีโอ: ข้อกำหนด
ส่วนนี้จะอธิบายประเภท MIME ที่รองรับและขีดจํากัดต่อคําขอสําหรับวิดีโอ
ประเภท MIME ที่รองรับ
โมเดลมัลติโมเดลของ Gemini รองรับประเภท MIME ของวิดีโอต่อไปนี้
ประเภท MIME ของวิดีโอ | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/quicktime |
|||
MPEG - video/mpeg |
|||
MPEGPS - video/mpegps |
|||
MPG - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
จำนวนที่จำกัดต่อคำขอ
จำนวนไฟล์วิดีโอสูงสุดที่อนุญาตในคำขอพรอมต์มีดังนี้
- Gemini 1.0 Pro Vision: ไฟล์วิดีโอ 1 ไฟล์
- Gemini 1.5 Flash และ Gemini 1.5 Pro: ไฟล์วิดีโอ 10 ไฟล์
วิดีโอ: การแปลงข้อมูลเป็นโทเค็น
วิธีคำนวณโทเค็นสำหรับวิดีโอมีดังนี้
- โมเดลมัลติโมดัลของ Gemini ทั้งหมด: ระบบจะสุ่มตัวอย่างวิดีโอที่
1 เฟรมต่อวินาที (FPS) เฟรมวิดีโอแต่ละเฟรมมีโทเค็น 258 รายการ - Gemini 1.5 Flash และ Gemini 1.5 Pro: ระบบจะเข้ารหัสแทร็กเสียงด้วยเฟรมวิดีโอ นอกจากนี้ ระบบจะแบ่งแทร็กเสียงออกเป็น
กลุ่ม 1 วินาที โดยแต่ละกลุ่มจะมีโทเค็น 32 รายการ เฟรมวิดีโอและโทเค็นเสียงจะสลับกันพร้อมกับการประทับเวลา โดยการประทับเวลาจะแสดงเป็นโทเค็น 7 รายการ
วิดีโอ: แนวทางปฏิบัติแนะนำ
เมื่อใช้วิดีโอ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
- หากพรอมต์มีวิดีโอเพียงรายการเดียว ให้วางวิดีโอไว้ก่อนพรอมต์ที่เป็นข้อความ
- หากต้องการการแปลการประทับเวลาในวิดีโอที่มีเสียง ให้ขอให้โมเดลสร้างการประทับเวลาในรูปแบบ
MM:SS
โดยตัวเลข 2 หลักแรกแสดงนาทีและตัวเลข 2 หลักสุดท้ายแสดงวินาที ใช้รูปแบบเดียวกันกับคำถามที่ถามเกี่ยวกับการประทับเวลา โปรดทราบข้อมูลต่อไปนี้หากคุณใช้ Gemini 1.0 Pro Vision
- ใช้วิดีโอไม่เกิน 1 รายการต่อพรอมต์
- โมเดลจะประมวลผลเฉพาะข้อมูลในช่วง 2 นาทีแรกของวิดีโอ
- โมเดลจะประมวลผลวิดีโอเป็นเฟรมรูปภาพที่ไม่ได้ต่อกันจากวิดีโอ ไม่รวมเสียง หากสังเกตเห็นว่านายแบบ/นางแบบไม่ได้แสดงเนื้อหาบางอย่างในวิดีโอ ให้ลองทำให้วิดีโอสั้นลงเพื่อให้นายแบบ/นางแบบแสดงเนื้อหาวิดีโอได้มากขึ้น
- โมเดลจะไม่ประมวลผลข้อมูลเสียงหรือข้อมูลเมตาการประทับเวลา ด้วยเหตุนี้ โมเดลจึงอาจทำงานได้ไม่ดีใน Use Case ที่ต้องใช้อินพุตเสียง เช่น เสียงคําบรรยายแทนเสียง หรือข้อมูลที่เกี่ยวข้องกับเวลา เช่น ความเร็วหรือจังหวะ
วิดีโอ: ข้อจำกัด
แม้ว่าโมเดลสื่อหลายรูปแบบของ Gemini จะมีประสิทธิภาพในการใช้งานแบบหลายรูปแบบได้หลายกรณี แต่คุณก็ควรทำความเข้าใจข้อจํากัดของโมเดลดังนี้
- การดูแลเนื้อหา: นางแบบปฏิเสธที่จะตอบคำถามเกี่ยวกับวิดีโอที่ละเมิดนโยบายด้านความปลอดภัย
- การจดจำเสียงที่ไม่ใช่คำพูด: รุ่นที่รองรับเสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด
- การเคลื่อนไหวด้วยความเร็วสูง: โมเดลอาจเข้าใจการเคลื่อนไหวด้วยความเร็วสูงในวิดีโอผิดพลาดเนื่องจากอัตราการสุ่มตัวอย่างที่กําหนดไว้คือ
1 เฟรมต่อวินาที (FPS) - เครื่องหมายวรรคตอนในการถอดเสียง: (หากใช้ Gemini 1.5 Flash) โมเดลอาจแสดงผลลัพธ์การถอดเสียงที่ไม่มีเครื่องหมายวรรคตอน
เสียง: ข้อกำหนดและข้อจำกัด
เสียง: ข้อกำหนด
ส่วนนี้จะอธิบายประเภท MIME ที่รองรับและขีดจํากัดต่อคําขอสําหรับเสียง
ประเภท MIME ที่รองรับ
โมเดลมัลติมีเดียของ Gemini รองรับประเภท MIME ของเสียงต่อไปนี้
ประเภท MIME ของเสียง | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
จำนวนที่จำกัดต่อคำขอ
คุณรวม
เสียง: ข้อจำกัด
แม้ว่าโมเดลสื่อหลายรูปแบบของ Gemini จะมีประสิทธิภาพในการใช้งานแบบหลายรูปแบบได้หลายกรณี แต่คุณก็ควรทำความเข้าใจข้อจํากัดของโมเดลดังนี้
- การจดจำเสียงที่ไม่ใช่คำพูด: รุ่นที่รองรับเสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด
- การประทับเวลาสำหรับเสียงเท่านั้น: หากต้องการสร้างการประทับเวลาสำหรับไฟล์ที่เป็นเสียงเท่านั้นอย่างถูกต้อง คุณต้องกำหนดค่าพารามิเตอร์
audio_timestamp
ในgeneration_config
- เครื่องหมายวรรคตอนในการถอดเสียง: (หากใช้ Gemini 1.5 Flash) โมเดลอาจแสดงผลลัพธ์การถอดเสียงที่ไม่มีเครื่องหมายวรรคตอน
เอกสาร (เช่น PDF): ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด
เอกสาร: ข้อกำหนด
ในส่วนนี้ คุณจะดูข้อมูลเกี่ยวกับประเภท MIME ที่รองรับและขีดจํากัดต่อคําขอสําหรับเอกสาร (เช่น PDF)
ประเภท MIME ที่รองรับ
โมเดลมัลติโมดของ Gemini รองรับประเภท MIME ของเอกสารต่อไปนี้
ประเภท MIME ของเอกสาร | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF - application/pdf |
|||
ข้อความ - text/plain |
จำนวนที่จำกัดต่อคำขอ
ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้นหน้าเดียวของ PDF จะถือว่าเป็นรูปภาพ 1 รูป จำนวนหน้าในพรอมต์จะจำกัดตามจำนวนรูปภาพที่โมเดลรองรับ ดังนี้
- Gemini 1.0 Pro Vision: 16 หน้า
- Gemini 1.5 Pro และ Gemini 1.5 Flash: 1,000 หน้า
เอกสาร: การแปลงข้อมูลเป็นโทเค็น
การแปลงข้อมูลบัตรประจำตัวเป็นโทเค็นรูปแบบ PDF
ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้นระบบจะแบ่งแต่ละหน้าของ PDF เป็นโทเค็นในลักษณะเดียวกับรูปภาพ
นอกจากนี้ ค่าใช้จ่ายสำหรับ PDF จะเป็นไปตามราคารูปภาพของ Gemini เช่น หากคุณรวม PDF 2 หน้าในการเรียกใช้ Gemini API คุณจะต้องเสียค่าธรรมเนียมอินพุตสำหรับการประมวลผลรูปภาพ 2 รูป
การแยกคำของข้อความธรรมดา
เอกสารข้อความธรรมดาจะแบ่งออกเป็นโทเค็นเป็นข้อความ เช่น หากคุณรวมเอกสารที่เป็นข้อความธรรมดา 100 คำในการเรียกใช้ Gemini API คุณจะต้องเสียค่าธรรมเนียมอินพุตสำหรับการประมวลผล 100 คำ
เอกสาร: แนวทางปฏิบัติแนะนำ
เมื่อใช้ไฟล์ PDF ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
- หากพรอมต์มี PDF ไฟล์เดียว ให้วางไฟล์ PDF ไว้ก่อนพรอมต์ข้อความในคำขอ
- หากมีเอกสารที่ยาว ให้ลองแบ่งออกเป็น PDF หลายไฟล์เพื่อประมวลผล
- ใช้ PDF ที่สร้างขึ้นด้วยข้อความที่แสดงผลเป็นข้อความแทนการใช้ข้อความในรูปภาพที่สแกน รูปแบบนี้ช่วยให้มั่นใจได้ว่าข้อความจะอ่านได้ด้วยเครื่องเพื่อให้โมเดลแก้ไข ค้นหา และดัดแปลงได้ง่ายขึ้นเมื่อเทียบกับ PDF รูปภาพที่สแกน แนวทางปฏิบัตินี้ให้ผลลัพธ์ที่ดีที่สุดเมื่อทำงานกับเอกสารที่มีข้อความมาก เช่น สัญญา
เอกสาร: ข้อจำกัด
แม้ว่าโมเดลสื่อหลายรูปแบบของ Gemini จะมีประสิทธิภาพในการใช้งานแบบหลายรูปแบบได้หลายกรณี แต่คุณก็ควรทำความเข้าใจข้อจํากัดของโมเดลดังนี้
- การหาเหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการค้นหาข้อความหรือวัตถุใน PDF โดยอาจแสดงเฉพาะจํานวนวัตถุโดยประมาณ
- ความแม่นยำ: โมเดลอาจตีความข้อความที่เขียนด้วยมือในเอกสาร PDF ผิด