Firebase is back at Cloud Next on April 9 - 11. Register now.

หน้านี้ได้รับการแปลโดย Cloud Translation API

สร้างข้อความจากพรอมต์แบบหลายโมดัลโดยใช้ Gemini API

เมื่อเรียก Gemini API จากแอปโดยใช้ Vertex AI in Firebase SDK คุณสามารถแจ้งให้โมเดล Gemini สร้างข้อความตามอินพุตแบบหลายรูปแบบได้ พรอมต์แบบมัลติโมดัลอาจมีรูปแบบ (หรือประเภทอินพุต) หลายรูปแบบ เช่น ข้อความพร้อมกับรูปภาพ, PDF, ไฟล์ข้อความธรรมดา, วิดีโอ และเสียง

ในคำขอแบบมัลติโมเดลแต่ละรายการ คุณต้องระบุข้อมูลต่อไปนี้เสมอ

mimeType ของไฟล์ ดูข้อมูลเกี่ยวกับประเภท MIME ที่รองรับของไฟล์อินพุตแต่ละประเภท
ไฟล์ คุณสามารถระบุไฟล์เป็นข้อมูลในหน้า (ตามที่แสดงในหน้านี้) หรือใช้ URL หรือ URI ของไฟล์ก็ได้

เราขอแนะนำให้ใช้ Vertex AI Studio สำหรับการทดสอบและปรับปรุงพรอมต์แบบมัลติโมด

ตัวเลือกอื่นๆ สำหรับการทำงานกับ Gemini API

หากต้องการ ให้ลองใช้ Gemini API
เวอร์ชัน "Google AI" อื่น คุณสามารถรับสิทธิ์เข้าถึงได้แบบไม่มีค่าใช้จ่าย (ภายในขีดจำกัดและเมื่อพร้อมให้บริการ) โดยใช้ Google AI Studio และ Google AI SDK ของไคลเอ็นต์ SDK เหล่านี้ควรใช้สำหรับการสร้างต้นแบบเท่านั้นในแอปบนอุปกรณ์เคลื่อนที่และเว็บ

เมื่อคุ้นเคยกับวิธีการทำงานของ Gemini API แล้ว ให้เปลี่ยนไปใช้ Vertex AI in FirebaseSDK (เอกสารประกอบนี้) ซึ่งมีฟีเจอร์เพิ่มเติมมากมายที่สําคัญสําหรับแอปบนอุปกรณ์เคลื่อนที่และเว็บ เช่น การปกป้อง API จากการละเมิดโดยใช้ Firebase App Check และรองรับไฟล์สื่อขนาดใหญ่ในคําขอ

เรียกใช้ Vertex AI Gemini API ฝั่งเซิร์ฟเวอร์ (เช่น ด้วย Python, Node.js หรือ Go)
ใช้ Vertex AI SDK ฝั่งเซิร์ฟเวอร์, Firebase Genkit หรือ Firebase Extensions สำหรับ Gemini API (ไม่บังคับ)

ก่อนเริ่มต้น

ทําตามคู่มือการเริ่มต้นใช้งาน Vertex AI in FirebaseSDK ให้เสร็จสมบูรณ์ หากยังไม่ได้ดำเนินการ ตรวจสอบว่าคุณได้ทำสิ่งต่อไปนี้ทั้งหมดแล้ว

ตั้งค่าโปรเจ็กต์ Firebase ใหม่หรือที่มีอยู่ รวมถึงใช้แพ็กเกจราคา Blaze และเปิดใช้ API ที่จําเป็น
เชื่อมต่อแอปกับ Firebase ซึ่งรวมถึงการลงทะเบียนแอปและเพิ่มการกําหนดค่า Firebase ลงในแอป
เพิ่ม SDK และเริ่มต้นVertex AIบริการและโมเดล Generative ในแอป

หลังจากเชื่อมต่อแอปกับ Firebase, เพิ่ม SDK และเริ่มต้นบริการ Vertex AI และ Generative Model แล้ว คุณก็พร้อมเรียกใช้ Gemini API

สร้างข้อความจากข้อความและรูปภาพเดียว สร้างข้อความจากข้อความและรูปภาพหลายรูป สร้างข้อความจากข้อความและวิดีโอ

ไฟล์สื่อตัวอย่าง

หากยังไม่มีไฟล์สื่อ คุณสามารถใช้ไฟล์ต่อไปนี้ที่เผยแพร่ต่อสาธารณะ เนื่องจากไฟล์เหล่านี้จัดเก็บอยู่ในที่เก็บข้อมูลซึ่งไม่ได้อยู่ในโปรเจ็กต์ Firebase คุณจึงต้องใช้รูปแบบ https://storage.googleapis.com/BUCKET_NAME/PATH/TO/FILE กับ URL

รูปภาพ: https://storage.googleapis.com/cloud-samples-data/generative-ai/image/scones.jpg มีประเภท MIME เป็น image/jpeg ดูหรือดาวน์โหลดรูปภาพนี้
PDF: https://storage.googleapis.com/cloud-samples-data/generative-ai/pdf/2403.05530.pdf ที่มีประเภท MIME เป็น application/pdf ดูหรือดาวน์โหลด PDF นี้
วิดีโอ: https://storage.googleapis.com/cloud-samples-data/video/animals.mp4 ที่มีประเภท MIME เป็น video/mp4 ดูหรือดาวน์โหลดวิดีโอนี้
เสียง: https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3 ที่มีประเภท MIME เป็น audio/mp3 ฟังหรือดาวน์โหลดเสียงนี้

สร้างข้อความจากข้อความและรูปภาพเดียว

โปรดอ่านส่วนก่อนเริ่มต้นของคู่มือนี้ให้เสร็จสิ้นก่อนลองใช้ตัวอย่างนี้

คุณสามารถเรียกใช้ Gemini API ด้วยพรอมต์แบบมัลติโมดัลที่มีทั้งข้อความและไฟล์เดียว (เช่น รูปภาพตามที่แสดงในตัวอย่างนี้) สำหรับคำเรียกเหล่านี้ คุณต้องใช้โมเดลที่รองรับสื่อในพรอมต์ (เช่น Gemini 2.0 Flash)

โปรดอ่านข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

เลือกว่าต้องการสตรีมคำตอบ (generateContentStream) หรือรอคำตอบจนกว่าระบบจะสร้างผลลัพธ์ทั้งหมด (generateContent)

อุปกรณ์การสตรีม โดยไม่สตรีม

คุณสามารถโต้ตอบได้เร็วขึ้นโดยไม่ต้องรอผลลัพธ์ทั้งหมดจากการสร้างโมเดล และใช้การสตรีมเพื่อจัดการผลลัพธ์บางส่วนแทน

ตัวอย่างนี้แสดงวิธีใช้ generateContentStream() เพื่อสตรีมข้อความที่สร้างขึ้นจากคําขอพรอมต์แบบมัลติโมเดลซึ่งมีข้อความและรูปภาพ 1 รูป

import FirebaseVertexAI

// Initialize the Vertex AI service
let vertex = VertexAI.vertexAI()

// Initialize the generative model with a model that supports your use case
let model = vertex.generativeModel(modelName: "gemini-2.0-flash")

guard let image = UIImage(systemName: "bicycle") else { fatalError() }

// Provide a text prompt to include with the image
let prompt = "What's in this picture?"

// To stream generated text output, call generateContentStream and pass in the prompt
let contentStream = try model.generateContentStream(image, prompt)
for try await chunk in contentStream {
  if let text = chunk.text {
    print(text)
  }
}

หมายเหตุ: ตัวอย่างข้างต้นใช้ประโยชน์จากวิธีจัดการรูปภาพประเภทต่างๆ ของแพลตฟอร์ม (UIImage, NSImage, CIImage และ CGImage) ในพรอมต์แบบหลายรูปแบบ ระบบจะแปลงรูปภาพประเภทเหล่านี้ (โดยไม่คำนึงถึงรูปแบบเดิม) เป็น JPEG ที่คุณภาพ 80% ฝั่งไคลเอ็นต์ก่อนที่จะส่งไปยังเซิร์ฟเวอร์ ซึ่งหมายความว่าเมื่อคุณระบุรูปภาพในบรรทัดดังตัวอย่างด้านบน คุณไม่จำเป็นต้องระบุประเภท MIME

หากต้องการควบคุมรูปแบบและการเปลี่ยนรูปแบบรูปภาพได้มากขึ้น คุณสามารถส่งรูปภาพเป็น InlineDataPart และระบุประเภท MIME ที่เฉพาะเจาะจง ตัวอย่างเช่น InlineDataPart(data: Data(/* PNG Data */), mimeType: "image/png")

หรือจะรอผลลัพธ์ทั้งหมดแทนการสตรีมก็ได้ โดยระบบจะแสดงผลลัพธ์หลังจากที่โมเดลสร้างภาพเสร็จสมบูรณ์แล้วเท่านั้น

ตัวอย่างนี้แสดงวิธีใช้ generateContent() เพื่อสร้างข้อความจากคําขอพรอมต์แบบหลายสื่อซึ่งมีข้อความและรูปภาพเดียว

import FirebaseVertexAI

// Initialize the Vertex AI service
let vertex = VertexAI.vertexAI()

// Initialize the generative model with a model that supports your use case
let model = vertex.generativeModel(modelName: "gemini-2.0-flash")

guard let image = UIImage(systemName: "bicycle") else { fatalError() }

// Provide a text prompt to include with the image
let prompt = "What's in this picture?"

// To generate text output, call generateContent and pass in the prompt
let response = try await model.generateContent(image, prompt)
print(response.text ?? "No text in response.")

ดูวิธีเลือกโมเดลและตำแหน่ง (ไม่บังคับ) ที่เหมาะสมกับกรณีการใช้งานและแอป

สร้างข้อความจากข้อความและรูปภาพหลายรายการ

คุณสามารถเรียกใช้ Gemini API ด้วยพรอมต์แบบมัลติโมดัลที่มีทั้งข้อความและไฟล์หลายรายการ (เช่น รูปภาพตามที่แสดงในตัวอย่างนี้) สำหรับคำเรียกเหล่านี้ คุณต้องใช้โมเดลที่รองรับสื่อในพรอมต์ (เช่น Gemini 2.0 Flash)

โปรดอ่านข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

อุปกรณ์การสตรีม โดยไม่สตรีม

ตัวอย่างนี้แสดงวิธีใช้ generateContentStream() เพื่อสตรีมข้อความที่สร้างขึ้นจากคําขอพรอมต์แบบมัลติโมดัลซึ่งมีข้อความและรูปภาพหลายรูป

import FirebaseVertexAI

// Initialize the Vertex AI service
let vertex = VertexAI.vertexAI()

// Initialize the generative model with a model that supports your use case
let model = vertex.generativeModel(modelName: "gemini-2.0-flash")

guard let image1 = UIImage(systemName: "car") else { fatalError() }
guard let image2 = UIImage(systemName: "car.2") else { fatalError() }

// Provide a text prompt to include with the images
let prompt = "What's different between these pictures?"

// To stream generated text output, call generateContentStream and pass in the prompt
let contentStream = try model.generateContentStream(image1, image2, prompt)
for try await chunk in contentStream {
  if let text = chunk.text {
    print(text)
  }
}

หรือจะรอผลลัพธ์ทั้งหมดแทนการสตรีมก็ได้ โดยระบบจะแสดงผลลัพธ์หลังจากที่โมเดลสร้างผลลัพธ์ทั้งหมดเสร็จแล้วเท่านั้น

ตัวอย่างนี้แสดงวิธีใช้ generateContent() เพื่อสร้างข้อความจากคําขอพรอมต์แบบมัลติโมดัลซึ่งมีข้อความและรูปภาพหลายรูป

import FirebaseVertexAI

// Initialize the Vertex AI service
let vertex = VertexAI.vertexAI()

// Initialize the generative model with a model that supports your use case
let model = vertex.generativeModel(modelName: "gemini-2.0-flash")

guard let image1 = UIImage(systemName: "car") else { fatalError() }
guard let image2 = UIImage(systemName: "car.2") else { fatalError() }

// Provide a text prompt to include with the images
let prompt = "What's different between these pictures?"

// To generate text output, call generateContent and pass in the prompt
let response = try await model.generateContent(image1, image2, prompt)
print(response.text ?? "No text in response.")

สร้างข้อความจากข้อความและวิดีโอ

คุณสามารถเรียกใช้ Gemini API ด้วยพรอมต์แบบมัลติโมดัลที่มีทั้งไฟล์ข้อความและวิดีโอ (ดังที่แสดงในตัวอย่างนี้) สำหรับการเรียกใช้เหล่านี้ คุณต้องใช้โมเดลที่รองรับสื่อในพรอมต์ (เช่น Gemini 2.0 Flash)

โปรดอ่านข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

อุปกรณ์การสตรีม โดยไม่สตรีม

ตัวอย่างนี้แสดงวิธีใช้ generateContentStream() เพื่อสตรีมข้อความที่สร้างขึ้นจากคำขอพรอมต์แบบหลายสื่อซึ่งมีข้อความและวิดีโอรายการเดียว

import FirebaseVertexAI

// Initialize the Vertex AI service
let vertex = VertexAI.vertexAI()

// Initialize the generative model with a model that supports your use case
let model = vertex.generativeModel(modelName: "gemini-2.0-flash")

// Provide the video as `Data` with the appropriate MIME type
let video = InlineDataPart(data: try Data(contentsOf: videoURL), mimeType: "video/mp4")

// Provide a text prompt to include with the video
let prompt = "What is in the video?"

// To stream generated text output, call generateContentStream with the text and video
let contentStream = try model.generateContentStream(video, prompt)
for try await chunk in contentStream {
  if let text = chunk.text {
    print(text)
  }
}

ตัวอย่างนี้แสดงวิธีใช้ generateContent() เพื่อสร้างข้อความจากคําขอพรอมต์แบบหลายรูปแบบซึ่งมีข้อความและวิดีโอรายการเดียว

import FirebaseVertexAI

// Initialize the Vertex AI service
let vertex = VertexAI.vertexAI()

// Initialize the generative model with a model that supports your use case
let model = vertex.generativeModel(modelName: "gemini-2.0-flash")

// Provide the video as `Data` with the appropriate MIME type.
let video = InlineDataPart(data: try Data(contentsOf: videoURL), mimeType: "video/mp4")

// Provide a text prompt to include with the video
let prompt = "What is in the video?"

// To generate text output, call generateContent with the text and video
let response = try await model.generateContent(video, prompt)
print(response.text ?? "No text in response.")

ข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

ดูข้อมูลต่อไปนี้จากหัวข้อไฟล์อินพุตที่รองรับและข้อกำหนดสำหรับ Vertex AI Gemini API

ตัวเลือกต่างๆ ในการส่งไฟล์ในคำขอ
ประเภทไฟล์ที่รองรับ
ประเภท MIME ที่รองรับและวิธีระบุ
ข้อกำหนดและแนวทางปฏิบัติแนะนำสำหรับไฟล์และคําขอแบบหลายสื่อ

สำคัญ: สำหรับ SDK Vertex AI in Firebase ขนาดคำขอสูงสุดคือ 20 MB คุณจะได้รับข้อผิดพลาด HTTP 413 หากคำขอมีขนาดใหญ่เกินไป

หากขนาดของไฟล์จะทำให้ขนาดคำขอทั้งหมดเกิน 20 MB คุณจะต้องระบุไฟล์โดยใช้ URL (เช่น โดยใช้ Cloud Storage for Firebase URL) อย่างไรก็ตาม หากไฟล์มีขนาดเล็ก คุณมักจะส่งไฟล์เป็นข้อมูลในบรรทัดโดยตรงได้ (ดังที่แสดงในตัวอย่างด้านบน) อย่างไรก็ตาม โปรดทราบว่าไฟล์ที่ระบุเป็นข้อมูลในบรรทัดจะได้รับการเข้ารหัสเป็น Base64 ระหว่างการรับส่ง ซึ่งจะเพิ่มขนาดของคําขอ

คุณทำอะไรได้อีกบ้าง

ดูวิธีนับโทเค็นก่อนส่งพรอมต์แบบยาวไปยังโมเดล
ตั้งค่า Cloud Storage for Firebase เพื่อให้คุณรวมไฟล์ขนาดใหญ่ในคำขอแบบหลายรูปแบบได้ และมีโซลูชันที่มีการจัดการมากขึ้นสำหรับการแสดงไฟล์ในพรอมต์ ไฟล์อาจรวมถึงรูปภาพ, PDF, วิดีโอ และเสียง
เริ่มคิดเกี่ยวกับการเตรียมความพร้อมสำหรับเวอร์ชันที่ใช้งานจริง ซึ่งรวมถึงการตั้งค่า Firebase App Check เพื่อปกป้อง Gemini API จากการละเมิดโดยลูกค้าที่ไม่ได้รับอนุญาต นอกจากนี้ โปรดอ่านรายการตรวจสอบเวอร์ชันที่ใช้งานจริง

ลองใช้ความสามารถอื่นๆ ของ Gemini API

สร้างการสนทนาแบบหลายรอบ (แชท)
สร้างข้อความจากพรอมต์แบบข้อความเท่านั้น
สร้างเอาต์พุตที่มีโครงสร้าง (เช่น JSON) จากทั้งพรอมต์แบบข้อความและแบบมัลติโมเดล
ใช้การเรียกฟังก์ชันเพื่อเชื่อมต่อโมเดล Generative กับระบบและข้อมูลภายนอก

ดูวิธีควบคุมการสร้างเนื้อหา

ทำความเข้าใจการออกแบบพรอมต์ ซึ่งรวมถึงแนวทางปฏิบัติแนะนำ กลยุทธ์ และตัวอย่างพรอมต์
กําหนดค่าพารามิเตอร์ของโมเดล เช่น อุณหภูมิและโทเค็นเอาต์พุตสูงสุด (สําหรับ Gemini) หรือสัดส่วนภาพ และการสร้างบุคคล (สําหรับ Imagen)
ใช้การตั้งค่าความปลอดภัยเพื่อปรับความเป็นไปได้ที่จะได้รับคำตอบที่อาจถือว่าอันตราย

คุณยังทดสอบพรอมต์และการกําหนดค่ารูปแบบได้โดยใช้ Vertex AI Studio

ดูข้อมูลเพิ่มเติมเกี่ยวกับรูปแบบที่รองรับ

ดูข้อมูลเกี่ยวกับรูปแบบที่ใช้ได้กับกรณีการใช้งานต่างๆ รวมถึงโควต้าและราคา

แสดงความคิดเห็นเกี่ยวกับประสบการณ์การใช้งาน Vertex AI in Firebase