Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

Gemini 2.0 Flash and Flash-Lite models will be retired on March 3, 2026. To avoid service disruption, update to a newer model like gemini-2.5-flash-lite. Learn more.

ไฟล์อินพุตที่รองรับและข้อกำหนด

เมื่อเรียกใช้ Gemini API จากแอปโดยใช้ Firebase AI Logic SDK คุณสามารถแจ้งให้โมเดล Gemini สร้างข้อความตามอินพุตหลายรูปแบบ เช่น รูปภาพ วิดีโอ และเสียง รวมถึงเอกสาร (เช่น PDF)

คุณต้องใช้ประเภทไฟล์ที่รองรับ ระบุประเภท MIME ที่รองรับ และตรวจสอบว่าไฟล์และคำขอแบบมัลติโมดัลเป็นไปตามข้อกำหนดและแนวทางปฏิบัติแนะนำ

หน้านี้เกี่ยวข้องกับการใช้ GenerativeModel โดยเฉพาะ และอธิบายสิ่งต่อไปนี้

ตัวเลือกในการระบุไฟล์ในคำขอ
รายละเอียดเกี่ยวกับประเภท MIME ที่รองรับ แนวทางปฏิบัติแนะนำ และข้อจำกัดสำหรับ อินพุตไฟล์ต่อไปนี้
รูปภาพ | วิดีโอ | เสียง | เอกสาร (เช่น PDF)

ตัวเลือกในการระบุไฟล์ในคำขอแบบมัลติโมดัล

เลือกผู้ให้บริการ Gemini API เพื่อดูเนื้อหาเฉพาะของผู้ให้บริการในหน้านี้

ในคำขอแบบมัลติโมดัลแต่ละรายการ คุณต้องระบุข้อมูลต่อไปนี้เสมอ

mimeType ของไฟล์ ดูประเภท MIME ที่รองรับของไฟล์อินพุตแต่ละไฟล์ได้ใน ส่วนที่เกี่ยวข้องของหน้านี้
ไฟล์ คุณจะ ระบุไฟล์เป็นข้อมูลแบบอินไลน์หรือ ระบุไฟล์โดยใช้ URL ของไฟล์ก็ได้

ขนาดและจำนวนไฟล์ที่คุณระบุในคำขอจะขึ้นอยู่กับ ประเภทไฟล์อินพุต วิธีระบุไฟล์ และโมเดลที่ใช้ (ดูรายละเอียดได้ในส่วนของประเภทไฟล์อินพุตแต่ละประเภทในหน้านี้)

ตัวเลือกที่ 1: ระบุไฟล์เป็นข้อมูลแบบอินไลน์

โปรดทราบข้อมูลต่อไปนี้เกี่ยวกับไฟล์ที่ระบุเป็นข้อมูลแบบอินไลน์

ส่งได้เฉพาะไฟล์ขนาดเล็กเป็นข้อมูลแบบอินไลน์เท่านั้น เนื่องจากขนาดคำขอทั้งหมด สูงสุดคือ 20 MB
ระบบจะเข้ารหัสไฟล์เป็น base64 ในระหว่างการส่ง (ซึ่งจะเพิ่มขนาดไฟล์)

ดูตัวอย่างที่แสดงวิธีรวมไฟล์เป็นข้อมูลแบบอินไลน์ได้ที่ สร้างข้อความจากอินพุตข้อความและไฟล์ (มัลติโมดัล) โปรดทราบว่า SDK สำหรับแพลตฟอร์ม Android และ Apple สามารถจัดการรูปภาพในบรรทัดในคำขอได้โดยไม่ต้องระบุประเภท MIME ดูข้อมูลเพิ่มเติม

ตัวเลือกที่ 2: ระบุไฟล์โดยใช้ URL

ประเภท URL ที่ยอมรับเมื่อใช้ Gemini Developer API มีดังนี้

URL ของวิดีโอ YouTube: วิดีโอ YouTube ต้องเป็นสาธารณะหรือแบบไม่เป็นสาธารณะ

คุณระบุ URL ของวิดีโอ YouTube ได้ 1 รายการต่อคำขอ

รูปภาพ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

รูปภาพ: ข้อกำหนด

ในส่วนนี้ คุณจะได้ดูข้อมูลเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับรูปภาพ

ประเภท MIME ที่รองรับ

Gemini โมเดลแบบมัลติโมดัลรองรับประเภท MIME ของรูปภาพต่อไปนี้

PNG - image/png
JPEG - image/jpeg
WebP - image/webp

จำนวนที่จำกัดต่อคำขอ

ไม่มีการจำกัดจำนวนพิกเซลในรูปภาพ อย่างไรก็ตาม ระบบจะปรับขนาดรูปภาพที่ใหญ่กว่าและเพิ่มพื้นที่ว่างเพื่อให้มีความละเอียดสูงสุด 3072 x 3072 โดยคงสัดส่วนภาพเดิมไว้

ไฟล์สูงสุดต่อคำขอ: ไฟล์รูปภาพ 3,000 ไฟล์

รูปภาพ: การแปลงข้อมูลเป็นโทเค็น

วิธีการคำนวณโทเค็นสำหรับรูปภาพมีดังนี้

หากทั้ง 2 ด้านของรูปภาพมีขนาดไม่เกิน 384 พิกเซล ระบบจะใช้โทเค็น 258 รายการ
หากรูปภาพมีด้านใดด้านหนึ่งยาวกว่า 384 พิกเซล ระบบจะครอบตัด รูปภาพเป็นไทล์ ขนาดไทล์แต่ละรายการจะตั้งค่าเริ่มต้นเป็นขนาดที่เล็กที่สุด (ความกว้างหรือความสูง) หารด้วย 1.5 หากจำเป็น ระบบจะปรับแต่ละไทล์ให้มีขนาดไม่เล็กกว่า 256 พิกเซลและไม่ใหญ่กว่า 768 พิกเซล จากนั้นจะปรับขนาดแต่ละไทล์เป็น 768x768 และใช้โทเค็น 258 รายการ

รูปภาพ: แนวทางปฏิบัติแนะนำ

เมื่อใช้รูปภาพ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

หากต้องการตรวจหาข้อความในรูปภาพ ให้ใช้พรอมต์ที่มีรูปภาพเดียวเพื่อ ให้ผลลัพธ์ดีกว่าพรอมต์ที่มีรูปภาพหลายรูป
หากพรอมต์มีรูปภาพเดียว ให้วางรูปภาพก่อนพรอมต์ข้อความในคำขอ
หากพรอมต์มีรูปภาพหลายรูปและคุณต้องการอ้างอิงถึงรูปภาพเหล่านั้นในพรอมต์ในภายหลังหรือต้องการให้โมเดลอ้างอิงถึงรูปภาพเหล่านั้นในคำตอบของโมเดล การกำหนดดัชนีให้กับแต่ละรูปภาพก่อนรูปภาพจะช่วยได้ ใช้ a b c หรือ image 1 image 2 image 3 สำหรับดัชนี ตัวอย่างการใช้รูปภาพที่จัดทำดัชนีในพรอมต์มีดังนี้
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
ใช้รูปภาพที่มีความละเอียดสูงขึ้นเพื่อให้ได้ผลลัพธ์ที่ดีกว่า
ใส่ตัวอย่าง 2-3 รายการในพรอมต์
หมุนรูปภาพให้เป็นแนวที่ถูกต้องก่อนเพิ่มลงในพรอมต์
หลีกเลี่ยงรูปภาพที่เบลอ

รูปภาพ: ข้อจำกัด

แม้ว่าGeminiโมเดลมัลติโมดอลจะมีประสิทธิภาพในกรณีการใช้งานมัลติโมดอลหลายกรณี แต่คุณควรทำความเข้าใจข้อจำกัดของโมเดล

การกลั่นกรองเนื้อหา: โมเดลปฏิเสธที่จะตอบคำถามในรูปภาพที่ละเมิดนโยบายด้านความปลอดภัยของเรา
การใช้เหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการระบุตำแหน่ง ข้อความหรือออบเจ็กต์ในรูปภาพ โดยอาจแสดงเฉพาะจำนวนโดยประมาณของ ออบเจ็กต์
การใช้งานทางการแพทย์: โมเดลไม่เหมาะสำหรับการตีความ รูปภาพทางการแพทย์ (เช่น เอ็กซ์เรย์และซีทีสแกน) หรือการให้คำแนะนำทางการแพทย์
การจดจำบุคคล: โมเดลไม่ได้มีไว้เพื่อใช้ ระบุตัวบุคคลที่ไม่ใช่คนดังในรูปภาพ
ความแม่นยำ: โมเดลอาจสร้างข้อมูลที่ไม่เป็นความจริงหรือทำผิดพลาด เมื่อตีความรูปภาพที่มีคุณภาพต่ำ หมุน หรือมีความละเอียดต่ำมาก นอกจากนี้ โมเดลยังอาจสร้างข้อมูลที่ไม่ถูกต้องขึ้นมาเองเมื่อตีความข้อความที่เขียนด้วยลายมือในเอกสารรูปภาพ

วิดีโอ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

วิดีโอ: ข้อกำหนด

ในส่วนนี้ คุณจะได้ดูข้อมูลเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับวิดีโอ

ประเภท MIME ที่รองรับ

Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของวิดีโอต่อไปนี้

FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

จำนวนที่จำกัดต่อคำขอ

ไฟล์สูงสุดต่อคำขอ: ไฟล์วิดีโอ 10 ไฟล์

วิดีโอ: การแปลงข้อมูลเป็นโทเค็น

วิธีการคำนวณโทเค็นสำหรับวิดีโอมีดังนี้

แทร็กเสียงมีการเข้ารหัสด้วยเฟรมวิดีโอ แทร็กเสียงยังแบ่งออกเป็นส่วนยาว 1 วินาที ซึ่งแต่ละส่วนมีโทเค็น 32 รายการ เฟรมวิดีโอและโทเค็นเสียงจะสลับกันพร้อมกับการประทับเวลา ของแต่ละรายการ การประทับเวลาจะแสดงเป็นโทเค็น 5 รายการ
สำหรับวิดีโอที่สุ่มตัวอย่างที่หรือต่ำกว่า 1 เฟรมต่อวินาที (fps) การประทับเวลาสำหรับวิดีโอชั่วโมงแรกจะแสดงเป็น 5 โทเค็นต่อ เฟรมวิดีโอ การประทับเวลาที่เหลือจะแสดงเป็นโทเค็น 7 รายการต่อเฟรมวิดีโอ
สำหรับวิดีโอที่สุ่มตัวอย่างที่สูงกว่า 1 เฟรมต่อวินาที (fps) การประทับเวลาสำหรับวิดีโอชั่วโมงแรกจะแสดงเป็นโทเค็น 9 รายการต่อ เฟรมวิดีโอ การประทับเวลาที่เหลือจะแสดงเป็นโทเค็น 11 รายการต่อ วิดีโอเฟรม

วิดีโอ: แนวทางปฏิบัติแนะนำ

เมื่อใช้วิดีโอ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

หากพรอมต์มีวิดีโอรายการเดียว ให้วางวิดีโอก่อนพรอมต์ข้อความ
หากต้องการให้มีการแปลการประทับเวลาในวิดีโอที่มีเสียง ให้ขอให้โมเดล สร้างการประทับเวลาตามรูปแบบที่อธิบายไว้ใน "รูปแบบการประทับเวลา"

วิดีโอ: ข้อจำกัด

การกลั่นกรองเนื้อหา: โมเดลปฏิเสธที่จะตอบคำถามในวิดีโอที่ละเมิดนโยบายด้านความปลอดภัยของเรา
การจดจำเสียงที่ไม่ใช่คำพูด: โมเดลที่รองรับ เสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด

เสียง: ข้อกำหนดและข้อจำกัด

เสียง: ข้อกำหนด

ในส่วนนี้ คุณจะได้ทราบเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับ เสียง

ประเภท MIME ที่รองรับ

Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของเสียงต่อไปนี้

AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

จำนวนที่จำกัดต่อคำขอ

ไฟล์สูงสุดต่อคำขอ: ไฟล์เสียง 1 ไฟล์

เสียง: ข้อจำกัด

การจดจำเสียงที่ไม่ใช่คำพูด: โมเดลที่รองรับ เสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด
การประทับเวลาสำหรับเสียงเท่านั้น: หากต้องการสร้างการประทับเวลาสำหรับไฟล์เสียงเท่านั้นอย่างถูกต้อง คุณต้องกำหนดค่าพารามิเตอร์ audio_timestamp ใน generation_config

เอกสาร (เช่น PDF): ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

เอกสาร: ข้อกำหนด

ในส่วนนี้ คุณจะได้ดูข้อมูลเกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับ เอกสาร (เช่น PDF)

ประเภท MIME ที่รองรับ

Gemini โมเดลแบบมัลติโมดัลรองรับประเภท MIME ของเอกสารต่อไปนี้

PDF - application/pdf
ข้อความ - text/plain

จำนวนที่จำกัดต่อคำขอ

ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้น PDF 1 หน้าจึงถือเป็นรูปภาพ 1 รูป จำนวนหน้าเว็บที่อนุญาตในพรอมต์จะจำกัดตามจำนวนรูปภาพที่Geminiโมเดลหลายรูปแบบรองรับ

ไฟล์สูงสุดต่อคำขอ: 3,000 ไฟล์
หน้าสูงสุดต่อไฟล์: 1,000 หน้าต่อไฟล์
ขนาดสูงสุดต่อไฟล์: 50 MB ต่อไฟล์

เอกสาร: การแปลงข้อมูลเป็นโทเค็น

การแปลง PDF เป็นโทเค็น

ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้นแต่ละหน้าของ PDF จะได้รับการแปลงเป็นโทเค็นในลักษณะเดียวกับรูปภาพ

นอกจากนี้ ค่าใช้จ่ายสำหรับไฟล์ PDF จะเป็นไปตามGeminiราคาของรูปภาพ ตัวอย่างเช่น หากคุณรวม PDF 2 หน้าในการเรียกใช้ Gemini API คุณจะต้องเสียค่าธรรมเนียมอินพุตสำหรับการประมวลผลรูปภาพ 2 รูป

เอกสาร: แนวทางปฏิบัติแนะนำ

เมื่อใช้ PDF ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

หากพรอมต์มี PDF เพียงไฟล์เดียว ให้วาง PDF ไว้ก่อนข้อความ พรอมต์ในคำขอ
หากมีเอกสารขนาดยาว ให้ลองแบ่งเอกสารออกเป็น PDF หลายไฟล์ เพื่อประมวลผล
ใช้ PDF ที่สร้างขึ้นโดยแสดงข้อความเป็นข้อความแทนการใช้ข้อความในรูปภาพที่สแกน รูปแบบนี้ช่วยให้มั่นใจได้ว่าข้อความจะอ่านได้ด้วยเครื่อง เพื่อให้โมเดล แก้ไข ค้นหา และจัดการได้ง่ายกว่าไฟล์ PDF ที่เป็นรูปภาพซึ่งสแกนมา แนวทางปฏิบัตินี้จะให้ผลลัพธ์ที่ดีที่สุดเมื่อทำงานกับเอกสารที่มีข้อความจำนวนมาก เช่น สัญญา

เอกสาร: ข้อจำกัด

การให้เหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการระบุตำแหน่ง ข้อความหรือออบเจ็กต์ใน PDF โดยอาจแสดงเฉพาะจำนวนโดยประมาณของ ออบเจ็กต์
ความถูกต้อง: โมเดลอาจเกิดอาการหลอนเมื่อตีความ ข้อความที่เขียนด้วยลายมือในเอกสาร PDF