เมื่อเรียกใช้ Vertex AI Gemini API จากแอปโดยใช้ Vertex AI in Firebase SDK คุณสามารถแจ้งให้โมเดล Gemini สร้างข้อความตามอินพุตแบบหลายรูปแบบได้ พรอมต์หลายรูปแบบอาจรวมถึงวิธีการหลายรูปแบบ (หรือการป้อนข้อมูลประเภทต่างๆ) เช่น ข้อความพร้อมกับรูปภาพ, PDF, วิดีโอ และเสียง
สำหรับอินพุตที่ไม่ใช่ข้อความ (เช่น ไฟล์สื่อ) คุณต้องใช้ประเภทไฟล์ที่รองรับ ระบุประเภท MIME ที่รองรับ และตรวจสอบว่าไฟล์และคำขอแบบหลายรูปแบบเป็นไปตามข้อกำหนดและแนวทางปฏิบัติแนะนำ
หน้านี้จะอธิบายประเภท MIME ที่รองรับ แนวทางปฏิบัติแนะนำ และข้อจำกัดสำหรับรายการต่อไปนี้
ข้อกำหนดเฉพาะสำหรับ Vertex AI in Firebase SDK
สำหรับ SDK Vertex AI in Firebase ขนาดคำขอทั้งหมดสูงสุดคือ 20 MB คุณจะได้รับข้อผิดพลาด HTTP 413 หากคำขอมีขนาดใหญ่เกินไป
หากขนาดของไฟล์จะทำให้คำขอทั้งหมดมีขนาดใหญ่เกิน 20 MB ให้ใช้ URL Cloud Storage for Firebase เพื่อรวมไฟล์ไว้ในคำขอแบบหลายรูปแบบ
หากไฟล์มีขนาดเล็ก คุณมักจะส่งผ่านไฟล์ในรูปแบบข้อมูลในบรรทัดได้โดยตรง อย่างไรก็ตาม โปรดทราบว่าไฟล์ที่ระบุเป็นข้อมูลในบรรทัดจะเข้ารหัสเป็น Base64 ระหว่างการรับส่ง ซึ่งจะเพิ่มขนาดของคําขอ ดูตัวอย่างวิธีรวมไฟล์เป็นข้อมูลในบรรทัดได้ที่หัวข้อสร้างข้อความจากพรอมต์แบบหลายรูปแบบโดยใช้ Gemini API
รูปภาพ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด
รูปภาพ: ข้อกำหนด
ส่วนนี้จะอธิบายประเภท MIME ที่รองรับและขีดจํากัดต่อคําขอสําหรับรูปภาพ
ประเภท MIME ที่รองรับ
โมเดลมัลติโมเดลของ Gemini รองรับประเภท MIME ของรูปภาพต่อไปนี้
ประเภท MIME ของรูปภาพ | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
|||
WebP - image/webp |
จำนวนที่จำกัดต่อคำขอ
ไม่มีการจำกัดจำนวนพิกเซลในรูปภาพ อย่างไรก็ตาม ระบบจะปรับขนาดรูปภาพขนาดใหญ่ให้เล็กลงและเพิ่มพื้นที่ว่างเพื่อให้พอดีกับความละเอียดสูงสุด 3072 x 3072 โดยยังคงรักษาสัดส่วนภาพเดิมไว้
จำนวนไฟล์รูปภาพสูงสุดที่อนุญาตในคำขอพรอมต์มีดังนี้
- Gemini 1.0 Pro Vision: 16 รูปภาพ
- Gemini 1.5 Flash และ Gemini 1.5 Pro: 3,000 ภาพ
รูปภาพ: การแปลงข้อมูลเป็นโทเค็น
ต่อไปนี้คือวิธีคำนวณโทเค็นสำหรับรูปภาพ
- Gemini 1.0 Pro Vision: รูปภาพแต่ละรูปมีโทเค็น 258 รายการ
- Gemini 1.5 Flash และ Gemini 1.5 Pro
- หากทั้ง 2 ขนาดของรูปภาพน้อยกว่าหรือเท่ากับ 384 พิกเซล ระบบจะใช้โทเค็น 258 รายการ
- หากรูปภาพมีขนาด 1 ด้านเกิน 384 พิกเซล ระบบจะครอบตัดรูปภาพเป็นไทล์ ขนาดการ์ดแต่ละขนาดจะมีค่าเริ่มต้นเป็นมิติข้อมูล (ความกว้างหรือความสูง) ที่เล็กที่สุดหารด้วย 1.5 หากจำเป็น ระบบจะปรับแต่ละการ์ดให้มีขนาดไม่เล็กกว่า 256 พิกเซลและไม่ใหญ่กว่า 768 พิกเซล จากนั้นระบบจะปรับขนาดแต่ละการ์ดเป็น 768x768 และใช้โทเค็น 258 รายการ
รูปภาพ: แนวทางปฏิบัติแนะนำ
เมื่อใช้รูปภาพ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
- หากต้องการตรวจหาข้อความในรูปภาพ ให้ใช้พรอมต์ที่มีรูปภาพเดียวเพื่อให้ได้ผลลัพธ์ที่ดีกว่าพรอมต์ที่มีรูปภาพหลายรูป
- หากพรอมต์มีรูปภาพเดียว ให้วางรูปภาพไว้ก่อนพรอมต์ข้อความในคำขอ
- หากพรอมต์มีรูปภาพหลายรูปและคุณต้องการอ้างอิงรูปภาพเหล่านั้นในพรอมต์ในภายหลังหรือให้โมเดลอ้างอิงรูปภาพเหล่านั้นในการตอบกลับของโมเดล ก็อาจช่วยได้ด้วยการระบุดัชนีก่อนรูปภาพแต่ละรูป ใช้
หรือa
b
c
สำหรับดัชนีของคุณ ต่อไปนี้เป็นตัวอย่างการใช้รูปภาพที่จัดทำดัชนีในพรอมต์image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - ใช้รูปภาพที่มีความละเอียดสูงขึ้นเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น
- ใส่ตัวอย่าง 2-3 รายการในพรอมต์
- หมุนรูปภาพให้อยู่ในแนวที่ถูกต้องก่อนที่จะเพิ่มลงในพรอมต์
- หลีกเลี่ยงรูปภาพที่เบลอ
รูปภาพ: ข้อจำกัด
แม้ว่าโมเดลสื่อหลายรูปแบบของ Gemini จะมีประสิทธิภาพในการใช้งานแบบหลายรูปแบบได้หลายกรณี แต่คุณก็ควรทำความเข้าใจข้อจํากัดของโมเดลดังนี้
- การกลั่นกรองเนื้อหา: โมเดลปฏิเสธที่จะให้คำตอบสำหรับรูปภาพที่ละเมิดนโยบายด้านความปลอดภัย
- การให้เหตุผลเชิงพื้นที่: โมเดลระบุตำแหน่งข้อความหรือวัตถุในรูปภาพได้ไม่แม่นยำ โดยอาจแสดงผลเฉพาะจำนวนออบเจ็กต์โดยประมาณเท่านั้น
- การใช้ทางการแพทย์: โมเดลไม่เหมาะสำหรับการตีความรูปภาพทางการแพทย์ (เช่น ภาพเอ็กซเรย์และภาพ CT) หรือให้คำแนะนำทางการแพทย์
- การจดจำบุคคล: โมเดลไม่ได้มีไว้เพื่อระบุตัวตนบุคคลที่ไม่ใช่คนดังในรูปภาพ
- ความแม่นยำ: โมเดลอาจเห็นภาพหลอนหรือทำผิดพลาดเมื่อตีความรูปภาพที่มีคุณภาพต่ำ หมุน หรือมีความละเอียดต่ำมาก โมเดลยังอาจพบความไม่สมเหตุสมผลเมื่อตีความข้อความที่เขียนด้วยลายมือในเอกสารรูปภาพ
วิดีโอ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด
วิดีโอ: ข้อกำหนด
ส่วนนี้จะอธิบายประเภท MIME ที่รองรับและขีดจํากัดต่อคําขอสําหรับวิดีโอ
ประเภท MIME ที่รองรับ
โมเดลมัลติโมเดลของ Gemini รองรับประเภท MIME ของวิดีโอต่อไปนี้
ประเภท MIME ของวิดีโอ | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/quicktime |
|||
MPEG - video/mpeg |
|||
MPEGPS - video/mpegps |
|||
MPG - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
ขีดจำกัดต่อคำขอ
จำนวนไฟล์วิดีโอสูงสุดที่อนุญาตในคำขอพรอมต์มีดังนี้
- Gemini 1.0 Pro Vision: ไฟล์วิดีโอ 1 ไฟล์
- Gemini 1.5 Flash และ Gemini 1.5 Pro: ไฟล์วิดีโอ 10 ไฟล์
วิดีโอ: การแปลงข้อมูลเป็นโทเค็น
วิธีคำนวณโทเค็นสำหรับวิดีโอมีดังนี้
- โมเดลหลายโมดัลของ Gemini ทั้งหมด: ระบบจะสุ่มตัวอย่างวิดีโอที่
1 เฟรมต่อวินาที (FPS) เฟรมวิดีโอแต่ละเฟรมมีโทเค็น 258 รายการ - Gemini 1.5 Flash และ Gemini 1.5 Pro: แทร็กเสียงมีการเข้ารหัสด้วยเฟรมวิดีโอ นอกจากนี้ ระบบจะแบ่งแทร็กเสียงออกเป็น
กลุ่ม 1 วินาที โดยแต่ละกลุ่มจะมีโทเค็น 32 รายการ เฟรมวิดีโอและโทเค็นเสียงจะสลับกันพร้อมกับการประทับเวลา โดยการประทับเวลาจะแสดงเป็นโทเค็น 7 รายการ
วิดีโอ: แนวทางปฏิบัติแนะนำ
เมื่อใช้วิดีโอ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
- หากพรอมต์มีวิดีโอเพียงรายการเดียว ให้วางวิดีโอไว้ก่อนพรอมต์ที่เป็นข้อความ
- หากต้องการการแปลการประทับเวลาในวิดีโอที่มีเสียง ให้ขอให้โมเดลสร้างการประทับเวลาในรูปแบบ
MM:SS
โดยตัวเลข 2 หลักแรกแสดงนาทีและตัวเลข 2 หลักสุดท้ายแสดงวินาที ใช้รูปแบบเดียวกันกับคำถามที่ถามเกี่ยวกับการประทับเวลา โปรดทราบข้อมูลต่อไปนี้หากคุณใช้ Gemini 1.0 Pro Vision
- ใช้วิดีโอไม่เกิน 1 รายการต่อพรอมต์
- โมเดลจะประมวลผลเฉพาะข้อมูลในช่วง 2 นาทีแรกของวิดีโอ
- โมเดลจะประมวลผลวิดีโอเป็นเฟรมรูปภาพที่ไม่ได้ต่อกันจากวิดีโอ ไม่รวมเสียง หากสังเกตเห็นว่านายแบบ/นางแบบไม่ได้แสดงเนื้อหาบางอย่างในวิดีโอ ให้ลองทำให้วิดีโอสั้นลงเพื่อให้นายแบบ/นางแบบแสดงเนื้อหาวิดีโอได้มากขึ้น
- โมเดลจะไม่ประมวลผลข้อมูลเสียงหรือข้อมูลเมตาการประทับเวลา ด้วยเหตุนี้ โมเดลจึงอาจทำงานได้ไม่ดีใน Use Case ที่ต้องใช้อินพุตเสียง เช่น เสียงคําบรรยายแทนเสียง หรือข้อมูลที่เกี่ยวข้องกับเวลา เช่น ความเร็วหรือจังหวะ
วิดีโอ: ข้อจํากัด
แม้ว่าโมเดลสื่อหลายรูปแบบของ Gemini จะมีประสิทธิภาพในการใช้งานแบบหลายรูปแบบได้หลายกรณี แต่คุณก็ควรทำความเข้าใจข้อจํากัดของโมเดลดังนี้
- การดูแลเนื้อหา: นางแบบปฏิเสธที่จะตอบคำถามเกี่ยวกับวิดีโอที่ละเมิดนโยบายด้านความปลอดภัย
- การจดจำเสียงที่ไม่ใช่คำพูด: โมเดลที่รองรับเสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด
- การเคลื่อนไหวความเร็วสูง: โมเดลอาจเกิดข้อผิดพลาดในการทำความเข้าใจการเคลื่อนไหวความเร็วสูงในวิดีโอเนื่องจากอัตราการสุ่มตัวอย่าง
1 เฟรมต่อวินาที (fps) คงที่ - เครื่องหมายวรรคตอนในการถอดเสียง: (หากใช้ Gemini 1.5 Flash) โมเดลอาจแสดงผลลัพธ์การถอดเสียงที่ไม่มีเครื่องหมายวรรคตอน
เสียง: ข้อกำหนดและข้อจำกัด
เสียง: ข้อกำหนด
ส่วนนี้จะอธิบายประเภท MIME ที่รองรับและขีดจํากัดต่อคําขอสําหรับเสียง
ประเภท MIME ที่รองรับ
โมเดลมัลติโมเดลของ Gemini รองรับประเภท MIME ของเสียงต่อไปนี้
ประเภท MIME ของเสียง | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WebM - audio/webm |
จำนวนที่จำกัดต่อคำขอ
คุณใส่
เสียง: ข้อจำกัด
แม้ว่าโมเดลแบบหลายโมดัลของ Gemini จะมีประสิทธิภาพในกรณีการใช้งานแบบหลายโมดัลหลายกรณี แต่คุณก็ควรทำความเข้าใจข้อจำกัดของโมเดลด้วย ดังนี้
- การจดจำเสียงที่ไม่ใช่คำพูด: โมเดลที่รองรับเสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด
- การประทับเวลาสำหรับเสียงเท่านั้น: หากต้องการสร้างการประทับเวลาสำหรับไฟล์ที่เป็นเสียงเท่านั้นอย่างถูกต้อง คุณต้องกำหนดค่าพารามิเตอร์
audio_timestamp
ในgeneration_config
- เครื่องหมายวรรคตอนในการถอดเสียง: (หากใช้ Gemini 1.5 Flash) โมเดลอาจแสดงผลลัพธ์การถอดเสียงที่ไม่มีเครื่องหมายวรรคตอน
เอกสาร (เช่น PDF): ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด
เอกสาร: ข้อกำหนด
ในส่วนนี้ คุณจะดูข้อมูลเกี่ยวกับประเภท MIME ที่รองรับและขีดจํากัดต่อคําขอสําหรับเอกสาร (เช่น PDF)
ประเภท MIME ที่รองรับ
โมเดลมัลติโมดของ Gemini รองรับประเภท MIME ของเอกสารต่อไปนี้
ประเภท MIME ของเอกสาร | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF - application/pdf |
|||
ข้อความ - text/plain |
จำนวนที่จำกัดต่อคำขอ
ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้นหน้าเดียวของ PDF จะถือว่าเป็นรูปภาพ 1 รูป จํานวนหน้าในพรอมต์ที่อนุญาตจะจํากัดตามจํานวนรูปภาพที่โมเดลรองรับ ดังนี้
- Gemini 1.0 Pro Vision: 16 หน้า
- Gemini 1.5 Pro และ Gemini 1.5 Flash: 1,000 หน้า
เอกสาร: การแปลงข้อมูลเป็นโทเค็น
การแปลงข้อมูลบัตรเป็นโทเค็น PDF
ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้นระบบจะแบ่งแต่ละหน้าของ PDF เป็นโทเค็นในลักษณะเดียวกับรูปภาพ
ส่วนค่าใช้จ่ายสำหรับไฟล์ PDF จะเป็นไปตามราคารูปภาพของ Gemini เช่น หากรวม PDF แบบ 2 หน้าไว้ในการเรียก Gemini API คุณจะต้องเสียค่าธรรมเนียมป้อนข้อมูลในการประมวลผลรูปภาพ 2 รูป
การแยกคำของข้อความธรรมดา
เอกสารข้อความธรรมดาจะแบ่งออกเป็นโทเค็นเป็นข้อความ เช่น หากใส่เอกสารข้อความธรรมดา 100 คำในการเรียก Gemini API คุณจะต้องเสียค่าธรรมเนียมการป้อนข้อมูลในการประมวลผล 100 คำ
เอกสาร: แนวทางปฏิบัติแนะนำ
เมื่อใช้ PDF ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
- หากพรอมต์มี PDF ไฟล์เดียว ให้วางไฟล์ PDF ไว้ก่อนพรอมต์ข้อความในคำขอ
- หากมีเอกสารที่ยาว ให้ลองแบ่งออกเป็น PDF หลายไฟล์เพื่อประมวลผล
- ใช้ PDF ที่สร้างด้วยข้อความที่แสดงเป็นข้อความแทนการใช้ข้อความในรูปภาพที่สแกน รูปแบบนี้ช่วยให้มั่นใจได้ว่าข้อความจะอ่านได้ด้วยเครื่อง เพื่อให้โมเดลแก้ไข ค้นหา และปรับเปลี่ยนได้ง่ายขึ้นเมื่อเทียบกับ PDF รูปภาพที่สแกน แนวทางปฏิบัตินี้ให้ผลลัพธ์ที่ดีที่สุดเมื่อทำงานกับเอกสารที่มีข้อความมาก เช่น สัญญา
เอกสาร: ข้อจำกัด
แม้ว่าโมเดลสื่อหลายรูปแบบของ Gemini จะมีประสิทธิภาพในการใช้งานแบบหลายรูปแบบได้หลายกรณี แต่คุณก็ควรทำความเข้าใจข้อจํากัดของโมเดลดังนี้
- การให้เหตุผลเชิงพื้นที่: โมเดลระบุตำแหน่งข้อความหรือวัตถุใน PDF ได้ไม่แม่นยำ โดยอาจแสดงเฉพาะจํานวนวัตถุโดยประมาณ
- ความแม่นยำ: โมเดลอาจพบความไม่สมเหตุสมผลเมื่อตีความข้อความที่เขียนด้วยลายมือในเอกสาร PDF