เมื่อเรียกใช้ Vertex AI Gemini API จากแอปของคุณโดยใช้ Vertex AI สำหรับ Firebase SDK คุณสามารถสั่งให้โมเดล Gemini สร้างข้อความได้ โดยอิงตามอินพุตในหลายโมดัล พรอมต์แบบหลายโมดัลอาจมีรูปแบบต่างๆ มากมาย (หรือประเภทของอินพุต) เช่น ข้อความพร้อมรูปภาพ, PDF, วิดีโอ และเสียง
สำหรับอินพุตส่วนที่ไม่ใช่ข้อความ (เช่น ไฟล์สื่อ) คุณต้องใช้ ประเภทไฟล์ที่สนับสนุน ระบุประเภท MIME ที่สนับสนุน และตรวจสอบให้แน่ใจว่า ไฟล์และคำขอหลายรูปแบบจะเป็นไปตามข้อกำหนดและทำตามแนวทางปฏิบัติแนะนำ
ไฟล์อินพุตที่รองรับจะแตกต่างกันไปตามรุ่นและอาจมีรูปภาพ, PDF, วิดีโอ และ เสียง
- โปรดทราบว่าอินพุตวิดีโอที่รองรับจะแตกต่างกันไปตามรุ่น หรืออาจรวม เฟรมเท่านั้นหรือเฟรมที่มีเสียง
ข้อกำหนดและแนวทางปฏิบัติที่ดีที่สุดสำหรับไฟล์อินพุตและคำขอหลายรูปแบบ
ใน ดูข้อมูลเกี่ยวกับโมเดล Gemini คุณสามารถดูสรุปสั้นๆ เกี่ยวกับข้อกำหนดไฟล์ที่รองรับ โดยอิงจาก ในโมเดล (เช่น จำนวนไฟล์สูงสุดและขนาดไฟล์สูงสุด)
โปรดดูข้อมูลโดยละเอียดในเอกสารประกอบของ Google Cloud เกี่ยวกับ ข้อกำหนด และ แนวทางปฏิบัติแนะนำ สำหรับไฟล์อินพุตและคำขอหลายรูปแบบ (เช่น ประเภท MIME ที่รองรับ และเวลาที่ควรระบุไฟล์อินพุตในคำขอ)
ข้อกำหนดเฉพาะสำหรับ Vertex AI สำหรับ Firebase SDK
สำหรับ Vertex AI สำหรับ Firebase SDK ขนาดคำขอสูงสุดคือ 20 MB คุณจะได้รับข้อผิดพลาด HTTP 413 หากคำขอมีขนาดใหญ่เกินไป
หากขนาดของไฟล์จะทำให้คำขอรวมมีขนาดเกิน 20 MB ใช้ URL ของ Cloud Storage for Firebase เพื่อรวมไฟล์ในคำขอหลายรูปแบบ
หากไฟล์มีขนาดเล็ก คุณมักจะส่งผ่านไฟล์ในรูปแบบข้อมูลในบรรทัดได้โดยตรง อย่างไรก็ตาม โปรดทราบว่าไฟล์ที่ระบุเป็นข้อมูลแบบอินไลน์จะได้รับการเข้ารหัสเป็น base64 in ซึ่งจะเพิ่มขนาดของคำขอ ตัวอย่างที่แสดงวิธีการ รวมไฟล์เป็นข้อมูลในบรรทัด โปรดดู สร้างข้อความจากพรอมต์แบบหลายโมดัลโดยใช้ Gemini API