เมื่อเรียกใช้ Gemini API จากแอปโดยใช้ Firebase AI Logic SDK คุณสามารถแจ้งให้โมเดล Gemini สร้างข้อความตามอินพุตหลายรูปแบบ เช่น รูปภาพ วิดีโอ และเสียง รวมถึงเอกสาร (เช่น PDF)
คุณต้องใช้ประเภทไฟล์ที่รองรับ ระบุประเภท MIME ที่รองรับ และตรวจสอบว่าไฟล์และคำขอหลายรูปแบบเป็นไปตามข้อกำหนดและแนวทางปฏิบัติแนะนำ
หน้านี้มีไว้สำหรับการใช้ GenerativeModel โดยเฉพาะ และอธิบายสิ่งต่อไปนี้
รายละเอียดเกี่ยวกับประเภท MIME ที่รองรับ แนวทางปฏิบัติแนะนำ และข้อจำกัดสำหรับ อินพุตไฟล์ต่อไปนี้:
รูปภาพ | วิดีโอ | เสียง | เอกสาร (เช่น PDF)
ตัวเลือกสำหรับการระบุไฟล์ในคำขอหลายรูปแบบ
|
เลือกผู้ให้บริการ Gemini API เพื่อดูเนื้อหาเฉพาะของผู้ให้บริการในหน้านี้ |
ในคำขอหลายรูปแบบแต่ละรายการ คุณต้องระบุข้อมูลต่อไปนี้เสมอ
mimeTypeของไฟล์ ดูประเภท MIME ที่รองรับของไฟล์อินพุตแต่ละไฟล์ในส่วนที่เกี่ยวข้องของหน้านี้ไฟล์ คุณสามารถระบุไฟล์เป็นข้อมูลแบบอินไลน์หรือระบุไฟล์โดยใช้ URL ของไฟล์ก็ได้
ขนาดและจำนวนไฟล์ที่คุณระบุได้ในคำขอจะขึ้นอยู่กับประเภทไฟล์อินพุต วิธีที่คุณระบุไฟล์ และโมเดลที่ใช้ (ดูรายละเอียดในส่วนของประเภทไฟล์อินพุตแต่ละประเภทในหน้านี้)
ตัวเลือกที่ 1: ระบุไฟล์เป็นข้อมูลแบบอินไลน์
สิ่งที่ควรทราบเกี่ยวกับไฟล์ที่ระบุเป็นข้อมูลแบบอินไลน์มีดังนี้
คุณจะส่งได้เฉพาะไฟล์ขนาดเล็กเป็นข้อมูลแบบอินไลน์เท่านั้น เนื่องจาก ขีดจำกัดขนาดคำขอทั้งหมดอยู่ที่ 20 MB
ระบบจะเข้ารหัสไฟล์เป็น base64 ระหว่างการส่ง (ซึ่งจะเพิ่มขนาดไฟล์)
ดูตัวอย่างวิธีรวมไฟล์เป็นข้อมูลแบบอินไลน์ได้ที่ สร้างข้อความจากอินพุตข้อความและไฟล์ (หลายรูปแบบ) โปรดทราบว่า SDK สำหรับแพลตฟอร์ม Android และ Apple สามารถจัดการรูปภาพแบบอินไลน์ในคำขอได้โดยไม่ต้องระบุประเภท MIME ดูข้อมูลเพิ่มเติม
ตัวเลือกที่ 2: ระบุไฟล์โดยใช้ URL
ประเภท URL ที่ยอมรับเมื่อใช้ Gemini Developer API มีดังนี้
URL ของวิดีโอ YouTube: วิดีโอ YouTube ต้องเป็น แบบสาธารณะหรือแบบไม่แสดง
คุณระบุ URL ของวิดีโอ YouTube ได้ 1 รายการต่อคำขอ
รูปภาพ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด
รูปภาพ: ข้อกำหนด
ในส่วนนี้ คุณจะได้เรียนรู้เกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับรูปภาพ
ประเภท MIME ที่รองรับ
Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของรูปภาพต่อไปนี้
- PNG -
image/png - JPEG -
image/jpeg - WebP -
image/webp
ขีดจำกัดต่อคำขอ
ไม่มีขีดจำกัดที่เฉพาะเจาะจงสำหรับจำนวนพิกเซลในรูปภาพ อย่างไรก็ตาม ระบบจะปรับขนาดรูปภาพที่ใหญ่ขึ้นและเพิ่มระยะขอบเพื่อให้มีความละเอียดสูงสุด 3072 x 3072 โดยรักษาสัดส่วนภาพเดิมไว้
จำนวนไฟล์สูงสุดต่อคำขอ: ไฟล์รูปภาพ 3,000 ไฟล์
รูปภาพ: การแปลงข้อมูลเป็นโทเค็น
วิธีคำนวณโทเค็นสำหรับรูปภาพมีดังนี้
- หากขนาดทั้ง 2 ด้านของรูปภาพมีขนาดไม่เกิน 384 พิกเซล ระบบจะใช้โทเค็น 258 รายการ
- หากขนาดด้านใดด้านหนึ่งของรูปภาพมีขนาดมากกว่า 384 พิกเซล ระบบจะครอบตัดรูปภาพออกเป็นไทล์ ขนาดเริ่มต้นของไทล์แต่ละรายการคือขนาดที่เล็กที่สุด มิติ (ความกว้างหรือความสูง) หารด้วย 1.5 ระบบจะปรับไทล์แต่ละรายการตามความจำเป็นเพื่อให้มีขนาดไม่เล็กกว่า 256 พิกเซลและไม่ใหญ่กว่า 768 พิกเซล จากนั้นระบบจะปรับขนาดไทล์แต่ละรายการเป็น 768x768 และใช้โทเค็น 258 รายการ
Google รูปภาพ: แนวทางปฏิบัติแนะนำ
เมื่อใช้รูปภาพ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
- หากต้องการตรวจหาข้อความในรูปภาพ ให้ใช้พรอมต์ที่มีรูปภาพเดียวเพื่อให้ได้ ผลลัพธ์ที่ดีกว่าพรอมต์ที่มีรูปภาพหลายรูป
- หากพรอมต์มีรูปภาพเดียว ให้วางรูปภาพไว้ก่อนพรอมต์ข้อความ ในคำขอ
- หากพรอมต์มีรูปภาพหลายรูปและคุณต้องการอ้างอิงรูปภาพเหล่านั้นในพรอมต์ในภายหลังหรือต้องการให้โมเดลอ้างอิงรูปภาพเหล่านั้นในคำตอบของโมเดล
การใส่ดัชนีให้กับรูปภาพแต่ละรูปก่อนรูปภาพอาจช่วยได้ ใช้
หรือabc สำหรับดัชนี ต่อไปนี้เป็นตัวอย่างการใช้รูปภาพที่มีดัชนีใน พรอมต์image 1image 2image 3image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - ใช้รูปภาพที่มีความละเอียดสูงขึ้นเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น
- ใส่ตัวอย่าง 2-3 ตัวอย่างในพรอมต์
- หมุนรูปภาพให้อยู่ในแนวที่ถูกต้องก่อนเพิ่มลงใน พรอมต์
- หลีกเลี่ยงรูปภาพที่เบลอ
Google รูปภาพ: ข้อจำกัด
แม้ว่าโมเดลหลายรูปแบบของ Gemini จะมีประสิทธิภาพในกรณีการใช้งานหลายรูปแบบมากมาย คุณควรทำความเข้าใจข้อจำกัดของโมเดลดังนี้
- การกลั่นกรองเนื้อหา: โมเดลจะไม่ให้คำตอบ เกี่ยวกับรูปภาพที่ละเมิดนโยบายด้านความปลอดภัยของเรา
- การให้เหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการระบุตำแหน่ง ข้อความหรือออบเจ็กต์ในรูปภาพ โดยอาจแสดงเฉพาะจำนวนออบเจ็กต์โดยประมาณ
- การใช้งานทางการแพทย์: โมเดลไม่เหมาะสำหรับการตีความ รูปภาพทางการแพทย์ (เช่น เอ็กซ์เรย์และ CT สแกน) หรือให้คำแนะนำทางการแพทย์
- การจดจำบุคคล: โมเดลไม่ได้มีไว้เพื่อใช้ ระบุบุคคลที่ไม่ใช่คนดังในรูปภาพ
- ความแม่นยำ: โมเดลอาจเกิดอาการหลอนของ AI หรือทำผิดพลาดเมื่อตีความรูปภาพคุณภาพต่ำ หมุน หรือมีความละเอียดต่ำมาก นอกจากนี้ โมเดลยังอาจแสดงข้อมูลที่ไม่ถูกต้องเมื่อตีความข้อความที่เขียนด้วยลายมือใน เอกสารรูปภาพ
วิดีโอ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด
วิดีโอ: ข้อกำหนด
ในส่วนนี้ คุณจะได้เรียนรู้เกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับวิดีโอ
ประเภท MIME ที่รองรับ
Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของวิดีโอต่อไปนี้
- FLV -
video/x-flv - MOV -
video/quicktime - MPEG -
video/mpeg - MPEGPS -
video/mpegps - MPG -
video/mpg - MP4 -
video/mp4 - WEBM -
video/webm - WMV -
video/wmv - 3GPP -
video/3gpp
ขีดจำกัดต่อคำขอ
จำนวนไฟล์สูงสุดต่อคำขอ: ไฟล์วิดีโอ 10 ไฟล์
วิดีโอ: การแปลงข้อมูลเป็นโทเค็น
วิธีคำนวณโทเค็นสำหรับวิดีโอมีดังนี้
-
ระบบจะเข้ารหัสแทร็กเสียงด้วยเฟรมวิดีโอ นอกจากนี้ ระบบยังแบ่งแทร็กเสียงออกเป็นส่วนๆ ความยาว
1 วินาที ซึ่งแต่ละส่วนคิดเป็นโทเค็น 32 รายการ ระบบจะสลับโทเค็นเฟรมวิดีโอและโทเค็นเสียงเข้าด้วยกันพร้อม การประทับเวลา การประทับเวลาจะแสดงเป็นโทเค็น 5 รายการ -
สำหรับวิดีโอที่มีการสุ่มตัวอย่างที่หรือต่ำกว่า
1 เฟรมต่อวินาที (fps) , การประทับเวลาสำหรับวิดีโอชั่วโมงแรกจะแสดงเป็นโทเค็น 5 รายการต่อ เฟรมวิดีโอ การประทับเวลาที่เหลือจะแสดงเป็นโทเค็น 7 รายการต่อ เฟรมวิดีโอ -
สำหรับวิดีโอที่มีการสุ่มตัวอย่างสูงกว่า
1 เฟรมต่อวินาที (fps) , การประทับเวลาสำหรับวิดีโอชั่วโมงแรกจะแสดงเป็นโทเค็น 9 รายการต่อ เฟรมวิดีโอ การประทับเวลาที่เหลือจะแสดงเป็นโทเค็น 11 รายการต่อ เฟรมวิดีโอ
วิดีโอ: แนวทางปฏิบัติแนะนำ
เมื่อใช้วิดีโอ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
- หากพรอมต์มีวิดีโอเดียว ให้วางวิดีโอไว้ก่อนพรอมต์ข้อความ
- หากต้องการให้การประทับเวลาเป็นภาษาท้องถิ่นในวิดีโอที่มีเสียง ให้ขอให้โมเดล สร้างการประทับเวลาตามรูปแบบที่อธิบายไว้ใน "รูปแบบการประทับเวลา"
วิดีโอ: ข้อจำกัด
แม้ว่าโมเดลหลายรูปแบบของ Gemini จะมีประสิทธิภาพในกรณีการใช้งานหลายรูปแบบมากมาย คุณควรทำความเข้าใจข้อจำกัดของโมเดลดังนี้
- การกลั่นกรองเนื้อหา: โมเดลจะไม่ให้คำตอบ เกี่ยวกับวิดีโอที่ละเมิดนโยบายด้านความปลอดภัยของเรา
- การจดจำเสียงที่ไม่ใช่คำพูด: โมเดลที่รองรับ เสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด
เสียง: ข้อกำหนดและข้อจำกัด
เสียง: ข้อกำหนด
ในส่วนนี้ คุณจะได้เรียนรู้เกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับเสียง
ประเภท MIME ที่รองรับ
Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของเสียงต่อไปนี้
- AAC -
audio/aac - FLAC -
audio/flac - MP3 -
audio/mp3 - MPA -
audio/m4a - MPEG -
audio/mpeg - MPGA -
audio/mpga - MP4 -
audio/mp4 - OPUS -
audio/opus - PCM -
audio/pcm - WAV -
audio/wav - WEBM -
audio/webm
ขีดจำกัดต่อคำขอ
จำนวนไฟล์สูงสุดต่อคำขอ: ไฟล์เสียง 1 ไฟล์
เสียง: ข้อจำกัด
แม้ว่าโมเดลหลายรูปแบบของ Gemini จะมีประสิทธิภาพในกรณีการใช้งานหลายรูปแบบมากมาย คุณควรทำความเข้าใจข้อจำกัดของโมเดลดังนี้
- การจดจำเสียงที่ไม่ใช่คำพูด: โมเดลที่รองรับ เสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด
- การประทับเวลาสำหรับเสียงเท่านั้น: หากต้องการสร้าง
การประทับเวลาสำหรับไฟล์เสียงเท่านั้นอย่างถูกต้อง คุณต้องกำหนดค่าพารามิเตอร์
audio_timestampในgeneration_config
เอกสาร (เช่น PDF): ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด
เอกสาร: ข้อกำหนด
ในส่วนนี้ คุณจะได้เรียนรู้เกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับเอกสาร (เช่น PDF)
ประเภท MIME ที่รองรับ
โมเดลหลายรูปแบบของ Gemini รองรับประเภท MIME ของเอกสารต่อไปนี้
- PDF -
application/pdf - ข้อความ -
text/plain
ขีดจำกัดต่อคำขอ
ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้น PDF 1 หน้าจะถือเป็นรูปภาพ 1 รูป จำนวนหน้าที่อนุญาตในพรอมต์จะจำกัดตามจำนวนรูปภาพที่โมเดลหลายรูปแบบของ Gemini รองรับ
- จำนวนไฟล์สูงสุดต่อคำขอ: 3,000 ไฟล์
- จำนวนหน้าสูงสุดต่อไฟล์: 1,000 หน้าต่อไฟล์
- ขนาดสูงสุดต่อไฟล์: 50 MB ต่อไฟล์
เอกสาร: การแปลงข้อมูลเป็นโทเค็น
การแปลง PDF เป็นโทเค็น
ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้นระบบจะแปลง PDF แต่ละหน้าเป็นโทเค็นในลักษณะเดียวกับรูปภาพ
นอกจากนี้ ค่าใช้จ่ายสำหรับ PDF จะเป็นไปตาม Gemini ราคาของรูปภาพ เช่น หากคุณรวม PDF 2 หน้าในการเรียก API Gemini คุณจะต้องเสียค่าธรรมเนียมอินพุตสำหรับการประมวลผลรูปภาพ 2 รูป
เอกสาร: แนวทางปฏิบัติแนะนำ
เมื่อใช้ PDF ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
- หากพรอมต์มี PDF เดียว ให้วาง PDF ไว้ก่อนพรอมต์ข้อความ ในคำขอ
- หากเอกสารยาว ให้ลองแบ่งเอกสารออกเป็น PDF หลายไฟล์เพื่อประมวลผล
- ใช้ PDF ที่สร้างขึ้นโดยแสดงข้อความเป็นข้อความแทนการใช้ข้อความใน รูปภาพที่สแกน รูปแบบนี้ช่วยให้มั่นใจได้ว่าข้อความสามารถอ่านได้ด้วยเครื่อง ซึ่งจะช่วยให้โมเดลแก้ไข ค้นหา และจัดการได้ง่ายกว่า PDF รูปภาพที่สแกน แนวทางปฏิบัตินี้ให้ผลลัพธ์ที่ดีที่สุดเมื่อทำงานกับ เอกสารที่มีข้อความจำนวนมาก เช่น สัญญา
เอกสาร: ข้อจำกัด
แม้ว่าโมเดลหลายรูปแบบของ Gemini จะมีประสิทธิภาพในกรณีการใช้งานหลายรูปแบบมากมาย คุณควรทำความเข้าใจข้อจำกัดของโมเดลดังนี้
- การให้เหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการระบุตำแหน่ง ข้อความหรือออบเจ็กต์ใน PDF โดยอาจแสดงเฉพาะจำนวนออบเจ็กต์โดยประมาณ
- ความแม่นยำ: โมเดลอาจเกิดอาการหลอนของ AI เมื่อตีความข้อความที่เขียนด้วยลายมือในเอกสาร PDF