เมื่อเรียกใช้ Gemini API จากแอปโดยใช้ Firebase AI Logic SDK คุณสามารถแจ้งให้โมเดล Gemini สร้างข้อความตามอินพุตหลายรูปแบบ เช่น รูปภาพ วิดีโอ และเสียง รวมถึงเอกสาร (เช่น PDF)
คุณต้องใช้ประเภทไฟล์ที่รองรับ ระบุประเภท MIME ที่รองรับ และตรวจสอบว่าไฟล์และคำขอแบบมัลติโมดัลเป็นไปตามข้อกำหนดและแนวทางปฏิบัติแนะนำ
หน้านี้เกี่ยวข้องกับการใช้ GenerativeModel โดยเฉพาะ และอธิบายสิ่งต่อไปนี้
รายละเอียดเกี่ยวกับประเภท MIME ที่รองรับ แนวทางปฏิบัติแนะนำ และข้อจำกัดสำหรับ อินพุตไฟล์ต่อไปนี้
รูปภาพ | วิดีโอ | เสียง | เอกสาร (เช่น PDF)
ตัวเลือกในการระบุไฟล์ในคำขอแบบมัลติโมดัล
|
เลือกผู้ให้บริการ Gemini API เพื่อดูเนื้อหาเฉพาะของผู้ให้บริการในหน้านี้ |
ในคำขอแบบมัลติโมดัลแต่ละรายการ คุณต้องระบุข้อมูลต่อไปนี้เสมอ
mimeTypeของไฟล์ ดูประเภท MIME ที่รองรับของไฟล์อินพุตแต่ละไฟล์ได้ใน ส่วนที่เกี่ยวข้องของหน้านี้ไฟล์ คุณจะ ระบุไฟล์เป็นข้อมูลแบบอินไลน์หรือ ระบุไฟล์โดยใช้ URL ของไฟล์ก็ได้
ขนาดและจำนวนไฟล์ที่คุณระบุในคำขอจะขึ้นอยู่กับ ประเภทไฟล์อินพุต วิธีระบุไฟล์ และโมเดลที่ใช้ (ดูรายละเอียดได้ในส่วนของประเภทไฟล์อินพุตแต่ละประเภทในหน้านี้)
ตัวเลือกที่ 1: ระบุไฟล์เป็นข้อมูลแบบอินไลน์
โปรดทราบข้อมูลต่อไปนี้เกี่ยวกับไฟล์ที่ระบุเป็นข้อมูลแบบอินไลน์
ส่งได้เฉพาะไฟล์ขนาดเล็กเป็นข้อมูลแบบอินไลน์เท่านั้น เนื่องจากขนาดคำขอทั้งหมด สูงสุดคือ 20 MB
ระบบจะเข้ารหัสไฟล์เป็น base64 ในระหว่างการส่ง (ซึ่งจะเพิ่มขนาดไฟล์)
ดูตัวอย่างที่แสดงวิธีรวมไฟล์เป็นข้อมูลแบบอินไลน์ได้ที่สร้างข้อความจากอินพุตข้อความและไฟล์ (มัลติโมดัล) โปรดทราบว่า SDK สำหรับแพลตฟอร์ม Android และ Apple สามารถจัดการรูปภาพในบรรทัดในคำขอได้โดยไม่ต้องระบุประเภท MIME ดูข้อมูลเพิ่มเติม
ตัวเลือกที่ 2: ระบุไฟล์โดยใช้ URL
ประเภท URL ที่ยอมรับเมื่อใช้ Gemini Developer API มีดังนี้
URL ของวิดีโอ YouTube: วิดีโอ YouTube ต้องเป็นสาธารณะหรือแบบไม่เป็นสาธารณะ
คุณระบุ URL ของวิดีโอ YouTube ได้ 1 รายการต่อคำขอ
รูปภาพ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด
รูปภาพ: ข้อกำหนด
ในส่วนนี้ คุณจะได้ทราบเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับรูปภาพ
ประเภท MIME ที่รองรับ
Gemini โมเดลแบบมัลติโมดัลรองรับประเภท MIME ของรูปภาพต่อไปนี้
- PNG -
image/png - JPEG -
image/jpeg - WebP -
image/webp
จำนวนที่จำกัดต่อคำขอ
ไม่มีการจำกัดจำนวนพิกเซลในรูปภาพ อย่างไรก็ตาม ระบบจะปรับขนาดรูปภาพที่ใหญ่กว่าและเพิ่มพื้นที่ว่างเพื่อให้มีความละเอียดสูงสุด 3072 x 3072 โดยคงสัดส่วนภาพเดิมไว้
ไฟล์สูงสุดต่อคำขอ: ไฟล์รูปภาพ 3,000 ไฟล์
รูปภาพ: การแปลงข้อมูลเป็นโทเค็น
วิธีการคำนวณโทเค็นสำหรับรูปภาพมีดังนี้
- หากทั้ง 2 ด้านของรูปภาพมีขนาดไม่เกิน 384 พิกเซล ระบบจะใช้โทเค็น 258 รายการ
- หากรูปภาพมีด้านใดด้านหนึ่งยาวกว่า 384 พิกเซล ระบบจะครอบตัดรูปภาพเป็นไทล์ ขนาดไทล์แต่ละรายการจะตั้งค่าเริ่มต้นเป็นขนาดที่เล็กที่สุด (ความกว้างหรือความสูง) หารด้วย 1.5 หากจำเป็น ระบบจะปรับแต่ละไทล์ให้มีขนาดไม่เล็กกว่า 256 พิกเซลและไม่ใหญ่กว่า 768 พิกเซล จากนั้นจะปรับขนาดแต่ละไทล์เป็น 768x768 และใช้โทเค็น 258 รายการ
รูปภาพ: แนวทางปฏิบัติแนะนำ
เมื่อใช้รูปภาพ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
- หากต้องการตรวจหาข้อความในรูปภาพ ให้ใช้พรอมต์ที่มีรูปภาพเดียวเพื่อ ให้ผลลัพธ์ดีกว่าพรอมต์ที่มีรูปภาพหลายรูป
- หากพรอมต์มีรูปภาพเดียว ให้วางรูปภาพก่อนพรอมต์ข้อความในคำขอ
- หากพรอมต์มีรูปภาพหลายรูปและคุณต้องการอ้างอิงถึงรูปภาพเหล่านั้นในพรอมต์ในภายหลังหรือต้องการให้โมเดลอ้างอิงถึงรูปภาพเหล่านั้นในคำตอบของโมเดล การกำหนดดัชนีให้กับแต่ละรูปภาพก่อนรูปภาพจะช่วยได้ ใช้
หรือabc สำหรับดัชนี ตัวอย่างการใช้รูปภาพที่จัดทำดัชนีในพรอมต์มีดังนี้image 1image 2image 3image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - ใช้รูปภาพที่มีความละเอียดสูงขึ้นเพื่อให้ได้ผลลัพธ์ที่ดีกว่า
- ใส่ตัวอย่าง 2-3 รายการในพรอมต์
- หมุนรูปภาพให้เป็นแนวที่ถูกต้องก่อนเพิ่มลงในพรอมต์
- หลีกเลี่ยงรูปภาพที่เบลอ
รูปภาพ: ข้อจำกัด
แม้ว่าGeminiโมเดลมัลติโมดอลจะมีประสิทธิภาพในกรณีการใช้งานมัลติโมดอลหลายกรณี แต่คุณควรทำความเข้าใจข้อจำกัดของโมเดล
- การกลั่นกรองเนื้อหา: โมเดลปฏิเสธที่จะตอบคำถามในรูปภาพที่ละเมิดนโยบายด้านความปลอดภัยของเรา
- การใช้เหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการระบุตำแหน่ง ข้อความหรือออบเจ็กต์ในรูปภาพ โดยอาจแสดงเฉพาะจำนวนโดยประมาณของ ออบเจ็กต์
- การใช้งานทางการแพทย์: โมเดลไม่เหมาะสำหรับการตีความ รูปภาพทางการแพทย์ (เช่น เอ็กซ์เรย์และซีทีสแกน) หรือการให้คำแนะนำทางการแพทย์
- การจดจำบุคคล: โมเดลไม่ได้มีไว้เพื่อใช้ ระบุตัวบุคคลที่ไม่ใช่คนดังในรูปภาพ
- ความแม่นยำ: โมเดลอาจสร้างข้อมูลที่ไม่เป็นความจริงหรือทำผิดพลาด เมื่อตีความรูปภาพที่มีคุณภาพต่ำ หมุน หรือมีความละเอียดต่ำมาก นอกจากนี้ โมเดลยังอาจสร้างข้อมูลที่ไม่ถูกต้องขึ้นมาเองเมื่อตีความข้อความที่เขียนด้วยลายมือในเอกสารรูปภาพ
วิดีโอ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด
วิดีโอ: ข้อกำหนด
ในส่วนนี้ คุณจะได้ดูข้อมูลเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับวิดีโอ
ประเภท MIME ที่รองรับ
Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของวิดีโอต่อไปนี้
- FLV -
video/x-flv - MOV -
video/quicktime - MPEG -
video/mpeg - MPEGPS -
video/mpegps - MPG -
video/mpg - MP4 -
video/mp4 - WEBM -
video/webm - WMV -
video/wmv - 3GPP -
video/3gpp
จำนวนที่จำกัดต่อคำขอ
ไฟล์สูงสุดต่อคำขอ: ไฟล์วิดีโอ 10 ไฟล์
วิดีโอ: การแปลงข้อมูลเป็นโทเค็น
วิธีการคำนวณโทเค็นสำหรับวิดีโอมีดังนี้
-
แทร็กเสียงมีการเข้ารหัสด้วยเฟรมวิดีโอ แทร็กเสียงยังแบ่งออกเป็น
ส่วนยาว 1 วินาที ซึ่งแต่ละส่วนมีโทเค็น 32 รายการ เฟรมวิดีโอและโทเค็นเสียงจะสลับกันพร้อมกับการประทับเวลา ของแต่ละรายการ การประทับเวลาจะแสดงเป็นโทเค็น 5 รายการ -
สำหรับวิดีโอที่สุ่มตัวอย่างที่หรือต่ำกว่า
1 เฟรมต่อวินาที (fps) การประทับเวลาสำหรับวิดีโอชั่วโมงแรกจะแสดงเป็น 5 โทเค็นต่อ เฟรมวิดีโอ การประทับเวลาที่เหลือจะแสดงเป็นโทเค็น 7 รายการต่อเฟรมวิดีโอ -
สำหรับวิดีโอที่สุ่มตัวอย่างสูงกว่า
1 เฟรมต่อวินาที (fps) การประทับเวลาสำหรับวิดีโอชั่วโมงแรกจะแสดงเป็น 9 โทเค็นต่อ เฟรมวิดีโอ การประทับเวลาที่เหลือจะแสดงเป็นโทเค็น 11 รายการต่อ วิดีโอเฟรม
วิดีโอ: แนวทางปฏิบัติแนะนำ
เมื่อใช้วิดีโอ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
- หากพรอมต์มีวิดีโอรายการเดียว ให้วางวิดีโอก่อนพรอมต์ข้อความ
- หากต้องการให้มีการแปลการประทับเวลาในวิดีโอที่มีเสียง ให้ขอให้โมเดล สร้างการประทับเวลาตามรูปแบบที่อธิบายไว้ใน "รูปแบบการประทับเวลา"
วิดีโอ: ข้อจำกัด
แม้ว่าGeminiโมเดลมัลติโมดอลจะมีประสิทธิภาพในกรณีการใช้งานมัลติโมดอลหลายกรณี แต่คุณควรทำความเข้าใจข้อจำกัดของโมเดล
- การกลั่นกรองเนื้อหา: โมเดลปฏิเสธที่จะตอบคำถามในวิดีโอที่ละเมิดนโยบายด้านความปลอดภัยของเรา
- การจดจำเสียงที่ไม่ใช่คำพูด: โมเดลที่รองรับ เสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาดได้
เสียง: ข้อกำหนดและข้อจำกัด
เสียง: ข้อกำหนด
ในส่วนนี้ คุณจะได้ทราบเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับ เสียง
ประเภท MIME ที่รองรับ
Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของเสียงต่อไปนี้
- AAC -
audio/aac - FLAC -
audio/flac - MP3 -
audio/mp3 - MPA -
audio/m4a - MPEG -
audio/mpeg - MPGA -
audio/mpga - MP4 -
audio/mp4 - OPUS -
audio/opus - PCM -
audio/pcm - WAV -
audio/wav - WEBM -
audio/webm
จำนวนที่จำกัดต่อคำขอ
ไฟล์สูงสุดต่อคำขอ: ไฟล์เสียง 1 ไฟล์
เสียง: ข้อจำกัด
แม้ว่าGeminiโมเดลมัลติโมดอลจะมีประสิทธิภาพในกรณีการใช้งานมัลติโมดอลหลายกรณี แต่คุณควรทำความเข้าใจข้อจำกัดของโมเดล
- การจดจำเสียงที่ไม่ใช่คำพูด: โมเดลที่รองรับ เสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาดได้
- การประทับเวลาสำหรับเสียงเท่านั้น: หากต้องการสร้างการประทับเวลาสำหรับไฟล์เสียงเท่านั้นอย่างถูกต้อง คุณต้องกำหนดค่าพารามิเตอร์
audio_timestampในgeneration_config
เอกสาร (เช่น PDF): ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด
เอกสาร: ข้อกำหนด
ในส่วนนี้ คุณจะได้ดูข้อมูลเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับ เอกสาร (เช่น PDF)
ประเภท MIME ที่รองรับ
Gemini โมเดลแบบมัลติโมดัลรองรับประเภท MIME ของเอกสารต่อไปนี้
- PDF -
application/pdf - ข้อความ -
text/plain
จำนวนที่จำกัดต่อคำขอ
ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้น PDF 1 หน้าจึงถือเป็นรูปภาพ 1 รูป จำนวนหน้าเว็บที่อนุญาตในพรอมต์จะจำกัดตามจำนวนรูปภาพที่Geminiโมเดลหลายรูปแบบรองรับ
- ไฟล์สูงสุดต่อคำขอ: 3,000 ไฟล์
- หน้าสูงสุดต่อไฟล์: 1,000 หน้าต่อไฟล์
- ขนาดสูงสุดต่อไฟล์: 50 MB ต่อไฟล์
เอกสาร: การแปลงข้อมูลเป็นโทเค็น
การแปลง PDF เป็นโทเค็น
ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้นแต่ละหน้าของ PDF จะได้รับการแปลงเป็นโทเค็นในลักษณะเดียวกับรูปภาพ
นอกจากนี้ ค่าใช้จ่ายสำหรับไฟล์ PDF จะเป็นไปตามGeminiราคาของรูปภาพ ตัวอย่างเช่น หากคุณรวม PDF 2 หน้าในการเรียกใช้ Gemini API คุณจะต้องเสียค่าธรรมเนียมอินพุตสำหรับการประมวลผลรูปภาพ 2 รูป
เอกสาร: แนวทางปฏิบัติแนะนำ
เมื่อใช้ PDF ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
- หากพรอมต์มี PDF เพียงไฟล์เดียว ให้วาง PDF ไว้ก่อนข้อความ พรอมต์ในคำขอ
- หากมีเอกสารขนาดยาว ให้ลองแบ่งเอกสารออกเป็น PDF หลายไฟล์ เพื่อประมวลผล
- ใช้ PDF ที่สร้างขึ้นโดยแสดงข้อความเป็นข้อความแทนการใช้ข้อความในรูปภาพที่สแกน รูปแบบนี้ช่วยให้มั่นใจได้ว่าข้อความจะอ่านได้ด้วยเครื่อง เพื่อให้โมเดล แก้ไข ค้นหา และจัดการได้ง่ายกว่าไฟล์ PDF ที่เป็นรูปภาพซึ่งสแกนมา แนวทางปฏิบัตินี้จะให้ผลลัพธ์ที่ดีที่สุดเมื่อทำงานกับเอกสารที่มีข้อความจำนวนมาก เช่น สัญญา
เอกสาร: ข้อจำกัด
แม้ว่าGeminiโมเดลมัลติโมดอลจะมีประสิทธิภาพในกรณีการใช้งานมัลติโมดอลหลายกรณี แต่คุณควรทำความเข้าใจข้อจำกัดของโมเดล
- การให้เหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการระบุตำแหน่ง ข้อความหรือออบเจ็กต์ใน PDF โดยอาจแสดงเฉพาะจำนวนโดยประมาณของ ออบเจ็กต์
- ความถูกต้อง: โมเดลอาจสร้างข้อมูลที่ไม่เป็นความจริงเมื่อตีความ ข้อความที่เขียนด้วยลายมือในเอกสาร PDF