The latest Gemini models, like Gemini 3.5 Flash, are available to use with Firebase AI Logic! Learn more.

Gemini 2.0 Flash and Flash-Lite models were shut down on June 1, 2026. To avoid service disruption, update to a newer model like gemini-3.1-flash-lite. Learn more.

All Imagen models will shut down on June 24, 2026. Learn about migrating your apps to use Nano Banana.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

ไฟล์อินพุตที่รองรับและข้อกำหนด

เมื่อเรียกใช้ Gemini API จากแอปโดยใช้ Firebase AI Logic SDK คุณสามารถแจ้งให้โมเดล Gemini สร้างข้อความตามอินพุตหลายรูปแบบ เช่น รูปภาพ วิดีโอ และเสียง รวมถึงเอกสาร (เช่น PDF)

คุณต้องใช้ประเภทไฟล์ที่รองรับ ระบุประเภท MIME ที่รองรับ และตรวจสอบว่าไฟล์และคำขอหลายรูปแบบเป็นไปตามข้อกำหนดและแนวทางปฏิบัติแนะนำ

หน้านี้มีไว้สำหรับการใช้ GenerativeModel โดยเฉพาะ และอธิบายสิ่งต่อไปนี้

ตัวเลือกสำหรับการระบุไฟล์ในคำขอ
รายละเอียดเกี่ยวกับประเภท MIME ที่รองรับ แนวทางปฏิบัติแนะนำ และข้อจำกัดสำหรับ อินพุตไฟล์ต่อไปนี้:
รูปภาพ | วิดีโอ | เสียง | เอกสาร (เช่น PDF)

ตัวเลือกสำหรับการระบุไฟล์ในคำขอหลายรูปแบบ

เลือกผู้ให้บริการ Gemini API เพื่อดูเนื้อหาเฉพาะของผู้ให้บริการในหน้านี้

ในคำขอหลายรูปแบบแต่ละรายการ คุณต้องระบุข้อมูลต่อไปนี้เสมอ

mimeType ของไฟล์ ดูประเภท MIME ที่รองรับของไฟล์อินพุตแต่ละไฟล์ในส่วนที่เกี่ยวข้องของหน้านี้
ไฟล์ คุณสามารถระบุไฟล์เป็นข้อมูลแบบอินไลน์หรือระบุไฟล์โดยใช้ URL ของไฟล์ก็ได้

ขนาดและจำนวนไฟล์ที่คุณระบุได้ในคำขอจะขึ้นอยู่กับประเภทไฟล์อินพุต วิธีที่คุณระบุไฟล์ และโมเดลที่ใช้ (ดูรายละเอียดในส่วนของประเภทไฟล์อินพุตแต่ละประเภทในหน้านี้)

ตัวเลือกที่ 1: ระบุไฟล์เป็นข้อมูลแบบอินไลน์

สิ่งที่ควรทราบเกี่ยวกับไฟล์ที่ระบุเป็นข้อมูลแบบอินไลน์มีดังนี้

คุณจะส่งได้เฉพาะไฟล์ขนาดเล็กเป็นข้อมูลแบบอินไลน์เท่านั้น เนื่องจาก ขีดจำกัดขนาดคำขอทั้งหมดอยู่ที่ 20 MB
ระบบจะเข้ารหัสไฟล์เป็น base64 ระหว่างการส่ง (ซึ่งจะเพิ่มขนาดไฟล์)

ดูตัวอย่างวิธีรวมไฟล์เป็นข้อมูลแบบอินไลน์ได้ที่ สร้างข้อความจากอินพุตข้อความและไฟล์ (หลายรูปแบบ) โปรดทราบว่า SDK สำหรับแพลตฟอร์ม Android และ Apple สามารถจัดการรูปภาพแบบอินไลน์ในคำขอได้โดยไม่ต้องระบุประเภท MIME ดูข้อมูลเพิ่มเติม

ตัวเลือกที่ 2: ระบุไฟล์โดยใช้ URL

ประเภท URL ที่ยอมรับเมื่อใช้ Gemini Developer API มีดังนี้

URL ของวิดีโอ YouTube: วิดีโอ YouTube ต้องเป็น แบบสาธารณะหรือแบบไม่แสดง

คุณระบุ URL ของวิดีโอ YouTube ได้ 1 รายการต่อคำขอ

รูปภาพ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

รูปภาพ: ข้อกำหนด

ในส่วนนี้ คุณจะได้เรียนรู้เกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับรูปภาพ

ประเภท MIME ที่รองรับ

Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของรูปภาพต่อไปนี้

PNG - image/png
JPEG - image/jpeg
WebP - image/webp

ขีดจำกัดต่อคำขอ

ไม่มีขีดจำกัดที่เฉพาะเจาะจงสำหรับจำนวนพิกเซลในรูปภาพ อย่างไรก็ตาม ระบบจะปรับขนาดรูปภาพที่ใหญ่ขึ้นและเพิ่มระยะขอบเพื่อให้มีความละเอียดสูงสุด 3072 x 3072 โดยรักษาสัดส่วนภาพเดิมไว้

จำนวนไฟล์สูงสุดต่อคำขอ: ไฟล์รูปภาพ 3,000 ไฟล์

รูปภาพ: การแปลงข้อมูลเป็นโทเค็น

วิธีคำนวณโทเค็นสำหรับรูปภาพมีดังนี้

หากขนาดทั้ง 2 ด้านของรูปภาพมีขนาดไม่เกิน 384 พิกเซล ระบบจะใช้โทเค็น 258 รายการ
หากขนาดด้านใดด้านหนึ่งของรูปภาพมีขนาดมากกว่า 384 พิกเซล ระบบจะครอบตัดรูปภาพออกเป็นไทล์ ขนาดเริ่มต้นของไทล์แต่ละรายการคือขนาดที่เล็กที่สุด มิติ (ความกว้างหรือความสูง) หารด้วย 1.5 ระบบจะปรับไทล์แต่ละรายการตามความจำเป็นเพื่อให้มีขนาดไม่เล็กกว่า 256 พิกเซลและไม่ใหญ่กว่า 768 พิกเซล จากนั้นระบบจะปรับขนาดไทล์แต่ละรายการเป็น 768x768 และใช้โทเค็น 258 รายการ

Google รูปภาพ: แนวทางปฏิบัติแนะนำ

เมื่อใช้รูปภาพ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

หากต้องการตรวจหาข้อความในรูปภาพ ให้ใช้พรอมต์ที่มีรูปภาพเดียวเพื่อให้ได้ ผลลัพธ์ที่ดีกว่าพรอมต์ที่มีรูปภาพหลายรูป
หากพรอมต์มีรูปภาพเดียว ให้วางรูปภาพไว้ก่อนพรอมต์ข้อความ ในคำขอ
หากพรอมต์มีรูปภาพหลายรูปและคุณต้องการอ้างอิงรูปภาพเหล่านั้นในพรอมต์ในภายหลังหรือต้องการให้โมเดลอ้างอิงรูปภาพเหล่านั้นในคำตอบของโมเดล การใส่ดัชนีให้กับรูปภาพแต่ละรูปก่อนรูปภาพอาจช่วยได้ ใช้ a b c หรือ image 1 image 2 image 3 สำหรับดัชนี ต่อไปนี้เป็นตัวอย่างการใช้รูปภาพที่มีดัชนีใน พรอมต์
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
ใช้รูปภาพที่มีความละเอียดสูงขึ้นเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น
ใส่ตัวอย่าง 2-3 ตัวอย่างในพรอมต์
หมุนรูปภาพให้อยู่ในแนวที่ถูกต้องก่อนเพิ่มลงใน พรอมต์
หลีกเลี่ยงรูปภาพที่เบลอ

Google รูปภาพ: ข้อจำกัด

แม้ว่าโมเดลหลายรูปแบบของ Gemini จะมีประสิทธิภาพในกรณีการใช้งานหลายรูปแบบมากมาย คุณควรทำความเข้าใจข้อจำกัดของโมเดลดังนี้

การกลั่นกรองเนื้อหา: โมเดลจะไม่ให้คำตอบ เกี่ยวกับรูปภาพที่ละเมิดนโยบายด้านความปลอดภัยของเรา
การให้เหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการระบุตำแหน่ง ข้อความหรือออบเจ็กต์ในรูปภาพ โดยอาจแสดงเฉพาะจำนวนออบเจ็กต์โดยประมาณ
การใช้งานทางการแพทย์: โมเดลไม่เหมาะสำหรับการตีความ รูปภาพทางการแพทย์ (เช่น เอ็กซ์เรย์และ CT สแกน) หรือให้คำแนะนำทางการแพทย์
การจดจำบุคคล: โมเดลไม่ได้มีไว้เพื่อใช้ ระบุบุคคลที่ไม่ใช่คนดังในรูปภาพ
ความแม่นยำ: โมเดลอาจเกิดอาการหลอนของ AI หรือทำผิดพลาดเมื่อตีความรูปภาพคุณภาพต่ำ หมุน หรือมีความละเอียดต่ำมาก นอกจากนี้ โมเดลยังอาจแสดงข้อมูลที่ไม่ถูกต้องเมื่อตีความข้อความที่เขียนด้วยลายมือใน เอกสารรูปภาพ

วิดีโอ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

วิดีโอ: ข้อกำหนด

ในส่วนนี้ คุณจะได้เรียนรู้เกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับวิดีโอ

ประเภท MIME ที่รองรับ

Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของวิดีโอต่อไปนี้

FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

ขีดจำกัดต่อคำขอ

จำนวนไฟล์สูงสุดต่อคำขอ: ไฟล์วิดีโอ 10 ไฟล์

วิดีโอ: การแปลงข้อมูลเป็นโทเค็น

วิธีคำนวณโทเค็นสำหรับวิดีโอมีดังนี้

ระบบจะเข้ารหัสแทร็กเสียงด้วยเฟรมวิดีโอ นอกจากนี้ ระบบยังแบ่งแทร็กเสียงออกเป็นส่วนๆ ความยาว 1 วินาที ซึ่งแต่ละส่วนคิดเป็นโทเค็น 32 รายการ ระบบจะสลับโทเค็นเฟรมวิดีโอและโทเค็นเสียงเข้าด้วยกันพร้อม การประทับเวลา การประทับเวลาจะแสดงเป็นโทเค็น 5 รายการ
สำหรับวิดีโอที่มีการสุ่มตัวอย่างที่หรือต่ำกว่า 1 เฟรมต่อวินาที (fps), การประทับเวลาสำหรับวิดีโอชั่วโมงแรกจะแสดงเป็นโทเค็น 5 รายการต่อ เฟรมวิดีโอ การประทับเวลาที่เหลือจะแสดงเป็นโทเค็น 7 รายการต่อ เฟรมวิดีโอ
สำหรับวิดีโอที่มีการสุ่มตัวอย่างสูงกว่า 1 เฟรมต่อวินาที (fps), การประทับเวลาสำหรับวิดีโอชั่วโมงแรกจะแสดงเป็นโทเค็น 9 รายการต่อ เฟรมวิดีโอ การประทับเวลาที่เหลือจะแสดงเป็นโทเค็น 11 รายการต่อ เฟรมวิดีโอ

วิดีโอ: แนวทางปฏิบัติแนะนำ

เมื่อใช้วิดีโอ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

หากพรอมต์มีวิดีโอเดียว ให้วางวิดีโอไว้ก่อนพรอมต์ข้อความ
หากต้องการให้การประทับเวลาเป็นภาษาท้องถิ่นในวิดีโอที่มีเสียง ให้ขอให้โมเดล สร้างการประทับเวลาตามรูปแบบที่อธิบายไว้ใน "รูปแบบการประทับเวลา"

วิดีโอ: ข้อจำกัด

การกลั่นกรองเนื้อหา: โมเดลจะไม่ให้คำตอบ เกี่ยวกับวิดีโอที่ละเมิดนโยบายด้านความปลอดภัยของเรา
การจดจำเสียงที่ไม่ใช่คำพูด: โมเดลที่รองรับ เสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด

เสียง: ข้อกำหนดและข้อจำกัด

เสียง: ข้อกำหนด

ในส่วนนี้ คุณจะได้เรียนรู้เกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับเสียง

ประเภท MIME ที่รองรับ

Gemini โมเดลหลายรูปแบบรองรับประเภท MIME ของเสียงต่อไปนี้

AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

ขีดจำกัดต่อคำขอ

จำนวนไฟล์สูงสุดต่อคำขอ: ไฟล์เสียง 1 ไฟล์

เสียง: ข้อจำกัด

การจดจำเสียงที่ไม่ใช่คำพูด: โมเดลที่รองรับ เสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด
การประทับเวลาสำหรับเสียงเท่านั้น: หากต้องการสร้าง การประทับเวลาสำหรับไฟล์เสียงเท่านั้นอย่างถูกต้อง คุณต้องกำหนดค่าพารามิเตอร์ audio_timestamp ใน generation_config

เอกสาร (เช่น PDF): ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

เอกสาร: ข้อกำหนด

ในส่วนนี้ คุณจะได้เรียนรู้เกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับเอกสาร (เช่น PDF)

ประเภท MIME ที่รองรับ

โมเดลหลายรูปแบบของ Gemini รองรับประเภท MIME ของเอกสารต่อไปนี้

PDF - application/pdf
ข้อความ - text/plain

ขีดจำกัดต่อคำขอ

ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้น PDF 1 หน้าจะถือเป็นรูปภาพ 1 รูป จำนวนหน้าที่อนุญาตในพรอมต์จะจำกัดตามจำนวนรูปภาพที่โมเดลหลายรูปแบบของ Gemini รองรับ

จำนวนไฟล์สูงสุดต่อคำขอ: 3,000 ไฟล์
จำนวนหน้าสูงสุดต่อไฟล์: 1,000 หน้าต่อไฟล์
ขนาดสูงสุดต่อไฟล์: 50 MB ต่อไฟล์

เอกสาร: การแปลงข้อมูลเป็นโทเค็น

การแปลง PDF เป็นโทเค็น

ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้นระบบจะแปลง PDF แต่ละหน้าเป็นโทเค็นในลักษณะเดียวกับรูปภาพ

นอกจากนี้ ค่าใช้จ่ายสำหรับ PDF จะเป็นไปตาม Gemini ราคาของรูปภาพ เช่น หากคุณรวม PDF 2 หน้าในการเรียก API Gemini คุณจะต้องเสียค่าธรรมเนียมอินพุตสำหรับการประมวลผลรูปภาพ 2 รูป

เอกสาร: แนวทางปฏิบัติแนะนำ

เมื่อใช้ PDF ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

หากพรอมต์มี PDF เดียว ให้วาง PDF ไว้ก่อนพรอมต์ข้อความ ในคำขอ
หากเอกสารยาว ให้ลองแบ่งเอกสารออกเป็น PDF หลายไฟล์เพื่อประมวลผล
ใช้ PDF ที่สร้างขึ้นโดยแสดงข้อความเป็นข้อความแทนการใช้ข้อความใน รูปภาพที่สแกน รูปแบบนี้ช่วยให้มั่นใจได้ว่าข้อความสามารถอ่านได้ด้วยเครื่อง ซึ่งจะช่วยให้โมเดลแก้ไข ค้นหา และจัดการได้ง่ายกว่า PDF รูปภาพที่สแกน แนวทางปฏิบัตินี้ให้ผลลัพธ์ที่ดีที่สุดเมื่อทำงานกับ เอกสารที่มีข้อความจำนวนมาก เช่น สัญญา

เอกสาร: ข้อจำกัด

การให้เหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการระบุตำแหน่ง ข้อความหรือออบเจ็กต์ใน PDF โดยอาจแสดงเฉพาะจำนวนออบเจ็กต์โดยประมาณ
ความแม่นยำ: โมเดลอาจเกิดอาการหลอนของ AI เมื่อตีความข้อความที่เขียนด้วยลายมือในเอกสาร PDF