สร้างข้อความจากพรอมต์แบบหลายโมดัลโดยใช้ Gemini API


เมื่อเรียกใช้ Gemini API จากแอปของคุณโดยใช้ Vertex AI สำหรับ Firebase SDK คุณสามารถบอกให้โมเดล Gemini สร้างข้อความโดยอิงตามอินพุตหลายรูปแบบได้ พรอมต์หลายรูปแบบอาจมีวิธีการหลายแบบ (หรืออินพุตประเภทต่างๆ) เช่น ข้อความ พร้อมด้วยรูปภาพ, PDF, วิดีโอ และเสียง

สำหรับการทดสอบและทำซ้ำข้อความแจ้งแบบหลายโมดัล เราขอแนะนำให้ใช้ Vertex AI Studio

ก่อนเริ่มต้น

หากคุณยังไม่ได้ดำเนินการ โปรดดำเนินการ คู่มือเริ่มต้นใช้งาน Vertex AI สำหรับ Firebase SDK ตรวจสอบว่าคุณได้ดำเนินการทั้งหมดต่อไปนี้แล้ว

  • สร้างโปรเจ็กต์ Firebase ใหม่หรือที่มีอยู่ รวมถึงการใช้ แพ็กเกจราคา Blaze และเปิดใช้ API ที่จำเป็น

  • เชื่อมต่อแอปกับ Firebase รวมถึงการลงทะเบียนแอปและเพิ่ม การกำหนดค่า Firebase ให้กับแอป

  • เพิ่ม SDK และเริ่มต้นบริการ Vertex AI และโมเดล Generative ในแอปของคุณ

หลังจากที่เชื่อมต่อแอปกับ Firebase แล้ว ให้เพิ่ม SDK และเริ่มต้น บริการ Vertex AI และโมเดล Generative คุณก็พร้อมที่จะเรียกใช้ Gemini API แล้ว

สร้างข้อความจากข้อความและรูปภาพเดียว

โปรดตรวจสอบว่าคุณดำเนินการตามก่อนเริ่มต้นจนเสร็จสมบูรณ์แล้ว ของคู่มือนี้ก่อนที่จะลองใช้ตัวอย่างนี้

คุณสามารถเรียกใช้ Gemini API ได้ด้วยพรอมต์แบบหลายโมดัลที่มี ทั้งแบบข้อความและไฟล์เดียว (เช่น รูปภาพ ตามที่แสดงในตัวอย่างนี้) สำหรับ คุณต้องใช้โมเดลที่รองรับพรอมต์หลายรูปแบบ (เช่น Gemini 1.5 Pro)

ไฟล์ที่รองรับประกอบด้วยรูปภาพ, PDF, วิดีโอ, เสียง และอื่นๆ อย่าลืมอ่าน ข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

เลือกว่าต้องการสตรีมคำตอบ (generateContentStream) หรือรอ สำหรับคำตอบจนกว่าจะสร้างผลลัพธ์ทั้งหมด (generateContent)

อุปกรณ์การสตรีม

คุณสามารถโต้ตอบได้เร็วขึ้นโดยไม่ต้องรอผลลัพธ์ทั้งหมดจาก การสร้างโมเดล และใช้สตรีมมิงเพื่อจัดการผลลัพธ์บางส่วนแทน

ตัวอย่างนี้แสดงวิธีใช้ generateContentStream() ในการสตรีมที่สร้างขึ้น ข้อความจากพรอมต์แบบหลายโมดัลที่มีข้อความและรูปภาพเดียว:

โดยไม่ต้องสตรีม

หรือจะรอผลลัพธ์ทั้งหมดแทนการสตรีมก็ได้ เวลา ส่งคืนผลลัพธ์หลังจากที่โมเดลเสร็จสิ้นการสร้างทั้งหมดแล้วเท่านั้น ขั้นตอนได้

ตัวอย่างนี้แสดงวิธีใช้ generateContent() เพื่อสร้างข้อความจาก พรอมต์หลายรูปแบบที่มีข้อความและรูปภาพเดียว:

ดูวิธีเลือกโมเดล Gemini และเลือกสถานที่ ที่เหมาะกับกรณีการใช้งานและแอปของคุณ

สร้างข้อความจากข้อความและรูปภาพหลายรูป

โปรดตรวจสอบว่าคุณดำเนินการตามก่อนเริ่มต้นจนเสร็จสมบูรณ์แล้ว ของคู่มือนี้ก่อนที่จะลองใช้ตัวอย่างนี้

คุณสามารถเรียกใช้ Gemini API ได้ด้วยพรอมต์แบบหลายโมดัลที่มี ทั้งข้อความและไฟล์หลายไฟล์ (เช่น รูปภาพ ตามที่แสดงในตัวอย่างนี้) สำหรับ คุณต้องใช้โมเดลที่รองรับพรอมต์หลายรูปแบบ (เช่น Gemini 1.5 Pro)

ไฟล์ที่รองรับประกอบด้วยรูปภาพ, PDF, วิดีโอ, เสียง และอื่นๆ อย่าลืมอ่าน ข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

เลือกว่าต้องการสตรีมคำตอบ (generateContentStream) หรือรอ สำหรับคำตอบจนกว่าจะสร้างผลลัพธ์ทั้งหมด (generateContent)

อุปกรณ์การสตรีม

คุณสามารถโต้ตอบได้เร็วขึ้นโดยไม่ต้องรอผลลัพธ์ทั้งหมดจาก การสร้างโมเดล และใช้สตรีมมิงเพื่อจัดการผลลัพธ์บางส่วนแทน

ตัวอย่างนี้แสดงวิธีใช้ generateContentStream() ในการสตรีมที่สร้างขึ้น ข้อความจากพรอมต์หลายรูปแบบที่มีข้อความและรูปภาพหลายรูป ดังนี้

โดยไม่ต้องสตรีม

อีกวิธีหนึ่งคือ คุณสามารถรอผลลัพธ์ทั้งหมดแทน สตรีมมิง; ผลลัพธ์จะส่งคืนหลังจากที่โมเดลเสร็จสิ้นขั้นตอนทั้งหมดแล้วเท่านั้น กระบวนการสร้าง

ตัวอย่างนี้แสดงวิธีใช้ generateContent() เพื่อสร้างข้อความจาก คำขอพรอมต์หลายรูปแบบที่มีข้อความและรูปภาพหลายรูป:

ดูวิธีเลือกโมเดล Gemini และเลือกสถานที่ ที่เหมาะกับกรณีการใช้งานและแอปของคุณ

สร้างข้อความจากข้อความและวิดีโอ

โปรดตรวจสอบว่าคุณดำเนินการตามก่อนเริ่มต้นจนเสร็จสมบูรณ์แล้ว ของคู่มือนี้ก่อนที่จะลองใช้ตัวอย่างนี้

คุณสามารถเรียกใช้ Gemini API ได้ด้วยพรอมต์แบบหลายโมดัลที่มี ทั้งแบบข้อความและวิดีโอรายการเดียว (ตามที่แสดงในตัวอย่างนี้) สำหรับ คุณต้องใช้โมเดลที่รองรับพรอมต์หลายรูปแบบ (เช่น Gemini 1.5 Pro)

อย่าลืมอ่าน ข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

เลือกว่าต้องการสตรีมคำตอบ (generateContentStream) หรือรอ สำหรับคำตอบจนกว่าจะสร้างผลลัพธ์ทั้งหมด (generateContent)

อุปกรณ์การสตรีม

คุณสามารถโต้ตอบได้เร็วขึ้นโดยไม่ต้องรอผลลัพธ์ทั้งหมดจาก การสร้างโมเดล และใช้สตรีมมิงเพื่อจัดการผลลัพธ์บางส่วนแทน

ตัวอย่างนี้แสดงวิธีใช้ generateContentStream() ในการสตรีมที่สร้างขึ้น ข้อความจากพรอมต์แบบหลายโมดัลที่มีข้อความและวิดีโอรายการเดียว:

โดยไม่ต้องสตรีม

หรือจะรอผลลัพธ์ทั้งหมดแทนการสตรีมก็ได้ เวลา ส่งคืนผลลัพธ์หลังจากที่โมเดลเสร็จสิ้นการสร้างทั้งหมดแล้วเท่านั้น ขั้นตอนได้

ตัวอย่างนี้แสดงวิธีใช้ generateContent() เพื่อสร้างข้อความจาก คำขอพรอมต์แบบหลายโมดัลที่มีข้อความและวิดีโอรายการเดียว:

ดูวิธีเลือกโมเดล Gemini และเลือกสถานที่ ที่เหมาะกับกรณีการใช้งานและแอปของคุณ

ข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

หากต้องการเรียนรู้เกี่ยวกับประเภทไฟล์ที่รองรับ วิธีระบุประเภท MIME และวิธีสร้าง ตรวจสอบว่าไฟล์และคำขอผ่านสื่อหลากรูปแบบ เป็นไปตามข้อกำหนดและ ดูแนวทางปฏิบัติแนะนำ ไฟล์อินพุตที่รองรับและข้อกำหนดสำหรับ Vertex AI Gemini API

คุณทำอะไรได้อีกบ้าง

  • ดูวิธีนับโทเค็น ก่อนที่จะส่งพรอมต์ยาวๆ ไปยังโมเดล
  • ตั้งค่า Cloud Storage สำหรับ Firebase เพื่อให้คุณสามารถรวมไฟล์ขนาดใหญ่ในคำขอสื่อหลากรูปแบบโดยใช้ URL ของ Cloud Storage ไฟล์อาจประกอบด้วยรูปภาพ, PDF, วิดีโอ และเสียง
  • เริ่มพิจารณาเกี่ยวกับการเตรียมพร้อมสำหรับการผลิต เช่น การตั้งค่า Firebase App Check เพื่อปกป้อง Gemini API จากการละเมิดโดยไคลเอ็นต์ที่ไม่ได้รับอนุญาต

ลองใช้ความสามารถอื่นๆ ของ Gemini API

เรียนรู้วิธีควบคุมการสร้างเนื้อหา

คุณยังสามารถทดสอบข้อความแจ้งและการกำหนดค่าโมเดลโดยใช้ Vertex AI Studio

ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดล Gemini

ดูข้อมูลเกี่ยวกับ รุ่นที่เหมาะกับกรณีการใช้งานที่หลากหลาย และ โควต้าและการกำหนดราคา


แสดงความคิดเห็น เกี่ยวกับประสบการณ์การใช้งาน Vertex AI สำหรับ Firebase