สร้างข้อความจากพรอมต์แบบหลายโมดัลโดยใช้ Gemini API


เมื่อเรียกใช้ Gemini API จากแอปโดยใช้ Vertex AI in Firebase SDK คุณสามารถแจ้งให้โมเดล Gemini สร้างข้อความตามอินพุตแบบหลายรูปแบบได้ พรอมต์แบบหลายโมดัลอาจมีโมดัล (หรือประเภทอินพุต) หลายรายการ เช่น ข้อความพร้อมกับรูปภาพ, PDF, วิดีโอ และเสียง

เราขอแนะนำให้ใช้ Vertex AI Studio สำหรับการทดสอบและปรับปรุงพรอมต์แบบมัลติโมด

ก่อนเริ่มต้น

ทําตามคู่มือการเริ่มต้นใช้งาน Vertex AI in FirebaseSDK ให้เสร็จสมบูรณ์ หากยังไม่ได้ดำเนินการ ตรวจสอบว่าคุณได้ดำเนินการทั้งหมดต่อไปนี้แล้ว

  1. ตั้งค่าโปรเจ็กต์ Firebase ใหม่หรือที่มีอยู่ รวมถึงใช้แพ็กเกจราคา Blaze และเปิดใช้ API ที่จําเป็น

  2. เชื่อมต่อแอปกับ Firebase ซึ่งรวมถึงการลงทะเบียนแอปและเพิ่มการกําหนดค่า Firebase ลงในแอป

  3. เพิ่ม SDK และเริ่มต้นVertex AIบริการและโมเดล Generative ในแอป

หลังจากเชื่อมต่อแอปกับ Firebase, เพิ่ม SDK และเริ่มต้นบริการ Vertex AI และ Generative Model แล้ว คุณก็พร้อมเรียกใช้ Gemini API

สร้างข้อความจากข้อความและรูปภาพเดียว

โปรดศึกษาส่วนก่อนเริ่มต้นของคู่มือนี้ให้จบก่อนที่จะลองใช้ตัวอย่างนี้

คุณสามารถเรียกใช้ Gemini API ด้วยพรอมต์แบบมัลติโมดัลที่มีทั้งข้อความและไฟล์เดียว (เช่น รูปภาพตามที่แสดงในตัวอย่างนี้) สำหรับการเรียกใช้เหล่านี้ คุณต้องใช้โมเดลที่รองรับพรอมต์แบบหลายสื่อ (เช่น Gemini 1.5 Pro)

ไฟล์ที่รองรับ ได้แก่ รูปภาพ, PDF, วิดีโอ, เสียง และอื่นๆ โปรดอ่านข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

เลือกว่าต้องการสตรีมคำตอบ (generateContentStream) หรือรอคำตอบจนกว่าระบบจะสร้างผลลัพธ์ทั้งหมด (generateContent)

อุปกรณ์การสตรีม

คุณสามารถโต้ตอบได้เร็วขึ้นโดยไม่ต้องรอผลลัพธ์ทั้งหมดจากการสร้างโมเดล และใช้การสตรีมเพื่อจัดการผลลัพธ์บางส่วนแทน

โดยไม่สตรีม

หรือจะรอผลลัพธ์ทั้งหมดแทนการสตรีมก็ได้ เนื่องจากผลลัพธ์จะแสดงหลังจากที่โมเดลเสร็จสิ้นกระบวนการสร้างทั้งหมดแล้ว

ดูวิธีเลือกโมเดล Gemini และตำแหน่งที่ไม่บังคับสำหรับกรณีการใช้งานและแอปของคุณ

สร้างข้อความจากข้อความและรูปภาพหลายรูป

โปรดอ่านส่วนก่อนเริ่มต้นของคู่มือนี้ให้เสร็จสิ้นก่อนลองใช้ตัวอย่างนี้

คุณสามารถเรียกใช้ Gemini API ด้วยพรอมต์แบบมัลติโมดัลที่มีทั้งข้อความและไฟล์หลายรายการ (เช่น รูปภาพตามที่แสดงในตัวอย่างนี้) สำหรับการเรียกใช้เหล่านี้ คุณต้องใช้โมเดลที่รองรับพรอมต์แบบหลายสื่อ (เช่น Gemini 1.5 Pro)

ไฟล์ที่รองรับ ได้แก่ รูปภาพ, PDF, วิดีโอ, เสียง และอื่นๆ โปรดอ่านข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

เลือกว่าต้องการสตรีมคำตอบ (generateContentStream) หรือรอคำตอบจนกว่าจะสร้างผลลัพธ์ทั้งหมด (generateContent)

อุปกรณ์การสตรีม

คุณสามารถโต้ตอบได้เร็วขึ้นโดยไม่ต้องรอผลลัพธ์ทั้งหมดจากการสร้างโมเดล และใช้การสตรีมเพื่อจัดการผลลัพธ์บางส่วนแทน

โดยไม่ต้องสตรีม

อีกวิธีหนึ่งคือ รอผลลัพธ์ทั้งหมดแทนการสตรีม ระบบจะแสดงผลผลลัพธ์หลังจากที่โมเดลเสร็จสิ้นกระบวนการสร้างทั้งหมดแล้วเท่านั้น

ดูวิธีเลือกรูปแบบ Gemini และตำแหน่ง (ไม่บังคับ) ที่เหมาะสมกับกรณีการใช้งานและแอป

สร้างข้อความจากข้อความและวิดีโอ

โปรดอ่านส่วนก่อนเริ่มต้นของคู่มือนี้ให้เสร็จสิ้นก่อนลองใช้ตัวอย่างนี้

คุณสามารถเรียกใช้ Gemini API ด้วยพรอมต์แบบมัลติโมดัลที่มีทั้งข้อความและวิดีโอรายการเดียว (ดังที่แสดงในตัวอย่างนี้) สำหรับการเรียกใช้เหล่านี้ คุณต้องใช้โมเดลที่รองรับพรอมต์แบบหลายสื่อ (เช่น Gemini 1.5 Pro)

โปรดอ่านข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

เลือกว่าต้องการสตรีมคำตอบ (generateContentStream) หรือรอคำตอบจนกว่าจะสร้างผลลัพธ์ทั้งหมด (generateContent)

อุปกรณ์การสตรีม

คุณสามารถโต้ตอบได้เร็วขึ้นโดยไม่ต้องรอผลลัพธ์ทั้งหมดจากการสร้างโมเดล และใช้การสตรีมเพื่อจัดการผลลัพธ์บางส่วนแทน

โดยไม่สตรีม

หรือจะรอผลลัพธ์ทั้งหมดแทนการสตรีมก็ได้ โดยระบบจะแสดงผลลัพธ์หลังจากที่โมเดลสร้างภาพเสร็จสมบูรณ์แล้วเท่านั้น

ดูวิธีเลือกรูปแบบ Gemini และตำแหน่ง (ไม่บังคับ) ที่เหมาะสมกับกรณีการใช้งานและแอป

ข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

ดูข้อมูลเกี่ยวกับประเภทไฟล์ที่รองรับ วิธีระบุประเภท MIME และวิธีตรวจสอบว่าไฟล์และคำขอแบบหลายรูปแบบเป็นไปตามข้อกำหนดและเป็นไปตามแนวทางปฏิบัติแนะนำได้ที่ไฟล์อินพุตที่รองรับและข้อกำหนดสำหรับ Vertex AI Gemini API

คุณทำอะไรได้อีกบ้าง

  • ดูวิธีนับโทเค็นก่อนส่งพรอมต์แบบยาวไปยังโมเดล
  • ตั้งค่า Cloud Storage for Firebase เพื่อให้คุณรวมไฟล์ขนาดใหญ่ในคำขอแบบหลายรูปแบบได้โดยใช้ URL Cloud Storage ไฟล์ดังกล่าวอาจเป็นรูปภาพ, PDF, วิดีโอ และเสียง
  • เริ่มคิดเกี่ยวกับการเตรียมความพร้อมสำหรับเวอร์ชันที่ใช้งานจริง ซึ่งรวมถึงการตั้งค่า Firebase App Check เพื่อปกป้อง Gemini API จากการละเมิดโดยลูกค้าที่ไม่ได้รับอนุญาต

ลองใช้ความสามารถอื่นๆ ของ Gemini API

ดูวิธีควบคุมการสร้างเนื้อหา

คุณยังทดสอบพรอมต์และการกําหนดค่ารูปแบบได้โดยใช้ Vertex AI Studio

ดูข้อมูลเพิ่มเติมเกี่ยวกับรุ่นต่างๆ ของ Gemini

ดูข้อมูลเกี่ยวกับโมเดลที่พร้อมใช้งานสำหรับกรณีการใช้งานต่างๆ รวมถึงโควต้าและราคา


แสดงความคิดเห็นเกี่ยวกับประสบการณ์ของคุณในการใช้ Vertex AI in Firebase