ไฟล์อินพุตที่รองรับและข้อกำหนดสำหรับ Vertex AI Gemini API

เมื่อเรียกใช้ Vertex AI Gemini API จากแอปโดยใช้ Vertex AI in Firebase SDK คุณสามารถแจ้งให้โมเดล Gemini สร้างข้อความตามอินพุตแบบหลายมิติได้ พรอมต์แบบหลายโมดัลอาจมีหลายโมดัล (หรือประเภทอินพุต) เช่น ข้อความพร้อมกับรูปภาพ, PDF, วิดีโอ และเสียง

สำหรับอินพุตที่ไม่ใช่ข้อความ (เช่น ไฟล์สื่อ) คุณต้องใช้ประเภทไฟล์ที่รองรับ ระบุประเภท MIME ที่รองรับ และตรวจสอบว่าไฟล์และคำขอแบบหลายรูปแบบเป็นไปตามข้อกำหนดและแนวทางปฏิบัติแนะนำ

หน้านี้จะอธิบายข้อมูลต่อไปนี้

ตัวเลือกในการส่งไฟล์ในคำขอสื่อหลายรูปแบบ

ในคำขอแบบมัลติโมเดลแต่ละรายการ คุณต้องระบุข้อมูลต่อไปนี้เสมอ

ขนาดและจำนวนไฟล์ที่คุณระบุในคำขอจะขึ้นอยู่กับประเภทไฟล์อินพุต วิธีระบุไฟล์ และโมเดลที่ใช้ (ดูรายละเอียดได้ในส่วนประเภทไฟล์อินพุตแต่ละประเภทในหน้านี้)

ตัวเลือกที่ 1: ระบุไฟล์โดยใช้ URL หรือ URI

ประเภท URL หรือ URI ที่ยอมรับมีดังนี้

  • Cloud Storage for Firebase URL ของที่เก็บข้อมูล: URL ของไฟล์ต้องเป็นแบบสาธารณะ หรือผู้ใช้ที่ลงชื่อเข้าใช้หรือไคลเอ็นต์ต้องมีสิทธิ์เข้าถึงไฟล์อย่างเพียงพอ ดูข้อมูลเพิ่มเติมเกี่ยวกับ Cloud Storage for Firebase ประโยชน์, ข้อกำหนดของ URL, และ ตัวอย่างโค้ด

  • URL ของที่เก็บข้อมูล Google Cloud Storage: URL ของไฟล์ต้องเป็นแบบสาธารณะ นอกจากนี้ หากที่เก็บข้อมูลอยู่ในโปรเจ็กต์อื่นที่ไม่ใช่โปรเจ็กต์ที่คุณใช้กับ Vertex AI in Firebase ให้ใช้รูปแบบ https://storage.googleapis.com/BUCKET_NAME/PATH/TO/FILE สำหรับ URL

  • URL ของเบราว์เซอร์/HTTP: URL ของไฟล์ต้องอ่านได้แบบสาธารณะ ตัวอย่าง ได้แก่ URL จากเว็บไซต์โฮสติ้งสื่อ, URL ที่แสดงสื่อโดยตรง (ไม่ใช่หน้าเว็บที่โฮสต์สื่อ) หรือไฟล์ Google ไดรฟ์หรือ Google Workspace ที่เผยแพร่

  • URL ของวิดีโอ YouTube: วิดีโอ YouTube ต้องเป็นแบบสาธารณะหรือไม่เป็นสาธารณะ

ดูข้อมูลเพิ่มเติมเกี่ยวกับข้อกําหนดสําหรับ URL และ URI ในเอกสารประกอบของ Google Cloud

ตัวเลือกที่ 2: ส่งไฟล์เป็นข้อมูลในบรรทัด

โปรดทราบข้อมูลต่อไปนี้เกี่ยวกับไฟล์ที่ระบุเป็นข้อมูลในบรรทัด

  • เฉพาะไฟล์ขนาดเล็กเท่านั้นที่ส่งเป็นข้อมูลในบรรทัดได้ เนื่องจากขนาดคำขอทั้งหมดมีขีดจำกัดอยู่ที่ 20 MB

  • ระบบจะเข้ารหัสไฟล์เป็น Base64 ระหว่างการรับส่ง (ซึ่งจะเพิ่มขนาดไฟล์)

ดูตัวอย่างวิธีรวมไฟล์เป็นข้อมูลในบรรทัดได้ที่สร้างข้อความจากพรอมต์แบบหลายรูปแบบโดยใช้ Gemini API



รูปภาพ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

รูปภาพ: ข้อกำหนด

ส่วนนี้จะอธิบายเกี่ยวกับประเภท MIME ที่รองรับและขีดจํากัดต่อคําขอสําหรับรูปภาพ

ประเภท MIME ที่รองรับ

Gemini โมเดลมัลติโมดรองรับประเภท MIME ของรูปภาพต่อไปนี้

ประเภท MIME ของรูปภาพ Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
PNG - image/png
JPEG - image/jpeg
WebP - image/webp

จำนวนที่จำกัดต่อคำขอ

ไม่มีการจำกัดจำนวนพิกเซลในรูปภาพ อย่างไรก็ตาม ระบบจะปรับขนาดรูปภาพขนาดใหญ่ให้เล็กลงและเพิ่มพื้นที่ว่างเพื่อให้พอดีกับความละเอียดสูงสุด 3072 x 3072 โดยยังคงรักษาสัดส่วนภาพเดิมไว้

จำนวนไฟล์รูปภาพสูงสุดที่อนุญาตในคำขอพรอมต์มีดังนี้

  • Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite: 3,000 รูปภาพ

รูปภาพ: การแปลงข้อมูลเป็นโทเค็น

ต่อไปนี้คือวิธีคำนวณโทเค็นสำหรับรูปภาพ

  • Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite:
    • หากทั้ง 2 ขนาดของรูปภาพน้อยกว่าหรือเท่ากับ 384 พิกเซล ระบบจะใช้โทเค็น 258 รายการ
    • หากรูปภาพมีขนาด 1 ด้านเกิน 384 พิกเซล ระบบจะครอบตัดรูปภาพเป็นไทล์ ขนาดการ์ดแต่ละขนาดจะมีค่าเริ่มต้นเป็นมิติข้อมูล (ความกว้างหรือความสูง) ที่เล็กที่สุดหารด้วย 1.5 หากจำเป็น ระบบจะปรับแต่ละการ์ดให้มีขนาดไม่เล็กกว่า 256 พิกเซลและไม่ใหญ่กว่า 768 พิกเซล จากนั้นระบบจะปรับขนาดแต่ละการ์ดเป็น 768x768 และใช้โทเค็น 258 รายการ

รูปภาพ: แนวทางปฏิบัติแนะนำ

เมื่อใช้รูปภาพ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

  • หากต้องการตรวจหาข้อความในรูปภาพ ให้ใช้พรอมต์ที่มีรูปภาพเดียวเพื่อให้ได้ผลลัพธ์ที่ดีกว่าพรอมต์ที่มีรูปภาพหลายรูป
  • หากพรอมต์มีรูปภาพเดียว ให้วางรูปภาพไว้ก่อนพรอมต์ข้อความในคำขอ
  • หากพรอมต์มีรูปภาพหลายรูปและคุณต้องการอ้างอิงรูปภาพเหล่านั้นในพรอมต์ในภายหลังหรือให้โมเดลอ้างอิงรูปภาพเหล่านั้นในการตอบกลับของโมเดล ก็อาจช่วยได้ด้วยการระบุดัชนีก่อนรูปภาพแต่ละรูป ใช้ a b c หรือ image 1 image 2 image 3 สำหรับดัชนี ต่อไปนี้เป็นตัวอย่างการใช้รูปภาพที่จัดทำดัชนีในพรอมต์
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • ใช้รูปภาพที่มีความละเอียดสูงขึ้นเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น
  • ใส่ตัวอย่าง 2-3 รายการในพรอมต์
  • หมุนรูปภาพให้อยู่ในแนวที่ถูกต้องก่อนที่จะเพิ่มลงในพรอมต์
  • หลีกเลี่ยงรูปภาพที่เบลอ

รูปภาพ: ข้อจำกัด

แม้ว่าGeminiโมเดลสื่อหลายรูปแบบจะมีประสิทธิภาพในการใช้งานแบบหลายรูปแบบหลายกรณี แต่คุณก็ควรทำความเข้าใจข้อจํากัดของโมเดลดังนี้

  • การดูแลเนื้อหา: ผู้เข้าร่วมปฏิเสธที่จะตอบคำถามเกี่ยวกับรูปภาพที่ละเมิดนโยบายด้านความปลอดภัย
  • การหาเหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการหาตำแหน่งข้อความหรือวัตถุในรูปภาพ โดยอาจแสดงเฉพาะจํานวนวัตถุโดยประมาณ
  • การใช้ทางการแพทย์: โมเดลไม่เหมาะสำหรับการตีความรูปภาพทางการแพทย์ (เช่น ภาพเอ็กซเรย์และภาพ CT) หรือให้คำแนะนำทางการแพทย์
  • การจดจำบุคคล: โมเดลไม่ได้มีไว้เพื่อระบุตัวตนบุคคลที่ไม่ใช่คนดังในรูปภาพ
  • ความแม่นยำ: โมเดลอาจเห็นภาพหลอนหรือทำผิดพลาดเมื่อตีความรูปภาพคุณภาพต่ำ รูปภาพที่หมุน หรือรูปภาพที่มีความละเอียดต่ำมาก นอกจากนี้ โมเดลอาจตีความข้อความที่เขียนด้วยมือในเอกสารรูปภาพผิดพลาดด้วย



วิดีโอ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

วิดีโอ: ข้อกำหนด

ในส่วนนี้ คุณจะดูข้อมูลเกี่ยวกับประเภท MIME ที่รองรับและขีดจํากัดต่อคําขอสําหรับวิดีโอได้

ประเภท MIME ที่รองรับ

Gemini โมเดลมัลติโมดรองรับประเภท MIME ของวิดีโอต่อไปนี้

ประเภท MIME ของวิดีโอ Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

จำนวนที่จำกัดต่อคำขอ

จำนวนไฟล์วิดีโอสูงสุดที่อนุญาตในคำขอพรอมต์มีดังนี้

  • Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite: ไฟล์วิดีโอ 10 ไฟล์

วิดีโอ: การแปลงข้อมูลเป็นโทเค็น

วิธีคำนวณโทเค็นสำหรับวิดีโอมีดังนี้

  • Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite: ระบบจะเข้ารหัสแทร็กเสียงด้วยเฟรมวิดีโอ นอกจากนี้ ระบบจะแบ่งแทร็กเสียงออกเป็นกลุ่ม 1 วินาที โดยแต่ละกลุ่มจะมีโทเค็น 32 รายการ โทเค็นเฟรมวิดีโอและเสียงจะสลับกันพร้อมกับการประทับเวลา การประทับเวลาจะแสดงเป็นโทเค็น 7 รายการ
  • โมเดลมัลติโมดัลของ Gemini ทั้งหมด: ระบบจะสุ่มตัวอย่างวิดีโอที่1 เฟรมต่อวินาที (FPS) เฟรมวิดีโอแต่ละเฟรมมีโทเค็น 258 รายการ

วิดีโอ: แนวทางปฏิบัติแนะนำ

เมื่อใช้วิดีโอ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

  • หากพรอมต์มีวิดีโอเพียงรายการเดียว ให้วางวิดีโอไว้ก่อนพรอมต์ที่เป็นข้อความ
  • หากต้องการการแปลการประทับเวลาในวิดีโอที่มีเสียง ให้ขอให้โมเดลสร้างการประทับเวลาในรูปแบบ MM:SS โดยตัวเลข 2 หลักแรกแสดงนาทีและตัวเลข 2 หลักสุดท้ายแสดงวินาที ใช้รูปแบบเดียวกันกับคำถามที่ถามเกี่ยวกับการประทับเวลา

วิดีโอ: ข้อจำกัด

แม้ว่าGeminiโมเดลสื่อหลายรูปแบบจะมีประสิทธิภาพในการใช้งานแบบหลายรูปแบบหลายกรณี แต่คุณก็ควรทำความเข้าใจข้อจํากัดของโมเดลดังนี้

  • การดูแลเนื้อหา: นางแบบปฏิเสธที่จะให้คำตอบในวิดีโอที่ละเมิดนโยบายด้านความปลอดภัย
  • การจดจำเสียงที่ไม่ใช่คำพูด: รุ่นที่รองรับเสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด
  • การเคลื่อนไหวด้วยความเร็วสูง: โมเดลอาจเข้าใจการเคลื่อนไหวด้วยความเร็วสูงในวิดีโอผิดพลาดเนื่องจากอัตราการสุ่มตัวอย่างที่ตายตัวซึ่งคือ1 เฟรมต่อวินาที (FPS)



เสียง: ข้อกำหนดและข้อจำกัด

เสียง: ข้อกำหนด

ส่วนนี้จะอธิบายประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับเสียง

ประเภท MIME ที่รองรับ

Gemini โมเดลมัลติโมดรองรับประเภท MIME ของเสียงต่อไปนี้

ประเภท MIME ของเสียง Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

จำนวนที่จำกัดต่อคำขอ

คุณรวมไฟล์เสียง 1 ไฟล์ในคำขอพรอมต์ได้สูงสุด

เสียง: ข้อจำกัด

แม้ว่าGeminiโมเดลสื่อหลายรูปแบบจะมีประสิทธิภาพในการใช้งานแบบหลายรูปแบบหลายกรณี แต่คุณก็ควรทำความเข้าใจข้อจํากัดของโมเดลดังนี้

  • การจดจำเสียงที่ไม่ใช่คำพูด: รุ่นที่รองรับเสียงอาจจดจำเสียงที่ไม่ใช่คำพูดผิดพลาด
  • การประทับเวลาสำหรับเสียงเท่านั้น: หากต้องการสร้างการประทับเวลาสำหรับไฟล์ที่เป็นเสียงเท่านั้นอย่างถูกต้อง คุณต้องกำหนดค่าพารามิเตอร์ audio_timestamp ใน generation_config



เอกสาร (เช่น PDF): ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

เอกสาร: ข้อกำหนด

ในส่วนนี้ คุณจะดูข้อมูลเกี่ยวกับประเภท MIME ที่รองรับและขีดจํากัดต่อคําขอสําหรับเอกสาร (เช่น PDF)

ประเภท MIME ที่รองรับ

Gemini โมเดลมัลติโมดัลรองรับประเภท MIME ของเอกสารต่อไปนี้

ประเภท MIME ของเอกสาร Gemini 2.0 Flash Gemini 2.0 Flash‑Lite
PDF - application/pdf
ข้อความ - text/plain

จำนวนที่จำกัดต่อคำขอ

ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้นหน้าเดียวของ PDF จะถือว่าเป็นรูปภาพ 1 รูป จำนวนหน้าในพรอมต์จะจำกัดตามจำนวนรูปภาพที่โมเดลรองรับ ดังนี้

  • Gemini 2.0 Flash และ Gemini 2.0 Flash‑Lite:
    • ไฟล์สูงสุดต่อคำขอ: 3,000 ไฟล์
    • หน้าสูงสุดต่อไฟล์: 1,000 หน้า
    • ขนาดสูงสุดต่อไฟล์: 50 MB

เอกสาร: การแปลงข้อมูลเป็นโทเค็น

การแปลงข้อมูลบัตรเป็นโทเค็น PDF

ระบบจะถือว่า PDF เป็นรูปภาพ ดังนั้นระบบจะแบ่งแต่ละหน้าของ PDF เป็นโทเค็นในลักษณะเดียวกับรูปภาพ

นอกจากนี้ ค่าใช้จ่ายสำหรับ PDF จะเป็นไปตามราคารูปภาพ Gemini ตัวอย่างเช่น หากคุณรวม PDF 2 หน้าในการเรียกใช้ Gemini API คุณจะต้องเสียค่าธรรมเนียมอินพุตสำหรับการประมวลผลรูปภาพ 2 รูป

การแยกคำของข้อความธรรมดา

เอกสารข้อความธรรมดาจะแบ่งออกเป็นโทเค็นเป็นข้อความ ตัวอย่างเช่น หากคุณรวมเอกสารข้อความธรรมดา 100 คำในการเรียก API Gemini คุณจะต้องเสียค่าธรรมเนียมอินพุตสำหรับการประมวลผล 100 คำ

เอกสาร: แนวทางปฏิบัติแนะนำ

เมื่อใช้ไฟล์ PDF ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

  • หากพรอมต์มี PDF ไฟล์เดียว ให้วางไฟล์ PDF ไว้ก่อนพรอมต์ข้อความในคำขอ
  • หากมีเอกสารที่ยาว ให้ลองแบ่งออกเป็น PDF หลายไฟล์เพื่อประมวลผล
  • ใช้ PDF ที่สร้างขึ้นด้วยข้อความที่แสดงผลเป็นข้อความแทนการใช้ข้อความในรูปภาพที่สแกน รูปแบบนี้ช่วยให้มั่นใจได้ว่าข้อความจะอ่านได้ด้วยเครื่อง เพื่อให้โมเดลแก้ไข ค้นหา และดัดแปลงได้ง่ายขึ้นเมื่อเทียบกับ PDF รูปภาพที่สแกน แนวทางปฏิบัตินี้ให้ผลลัพธ์ที่ดีที่สุดเมื่อทำงานกับเอกสารที่มีข้อความมาก เช่น สัญญา

เอกสาร: ข้อจำกัด

แม้ว่าGeminiโมเดลสื่อหลายรูปแบบจะมีประสิทธิภาพในการใช้งานแบบหลายรูปแบบหลายกรณี แต่คุณก็ควรทำความเข้าใจข้อจํากัดของโมเดลดังนี้

  • การหาเหตุผลเชิงพื้นที่: โมเดลไม่แม่นยำในการค้นหาข้อความหรือวัตถุใน PDF โดยอาจแสดงเฉพาะจํานวนวัตถุโดยประมาณ
  • ความแม่นยำ: โมเดลอาจตีความข้อความที่เขียนด้วยมือในเอกสาร PDF ผิดพลาด