Firebase is back at Cloud Next on April 9 - 11. Register now.

本頁面由 Cloud Translation API 翻譯而成。

使用 Gemini-API，根據多模態提示生成文字
bookmark_border 透過集合功能整理內容你可以依據偏好儲存及分類內容。

使用 Vertex AI in Firebase SDK 從應用程式呼叫 Gemini API 時，您可以提示 Gemini 模型根據多模態輸入內容產生文字。多模態提示可包含多種模態 (或輸入類型)，例如文字和圖片、PDF、純文字檔案、影片和音訊。

在每個多模態要求中，您都必須提供下列項目：

檔案為 mimeType。瞭解各個輸入檔案支援的 MIME 類型。
檔案。您可以將檔案做為內嵌資料提供 (如本頁所示)，或使用檔案的網址或 URI。

如要測試及重複使用多模式提示，建議您使用 Vertex AI Studio。

其他與 Gemini API 相關的選項

您可以選擇嘗試 Gemini API
的「Google AI」替代版本，使用 Google AI Studio 和 Google AI 用戶端 SDK 取得免付費存取權 (在限制範圍內及適用情況下)。這些 SDK 應僅用於行動應用程式和網頁應用程式的原型設計。

熟悉 Gemini API 的運作方式後，請遷移至我們的 Vertex AI in Firebase SDK (本說明文件)，其中提供許多對行動和網頁應用程式重要的額外功能，例如使用 Firebase App Check 保護 API 免遭濫用，以及支援要求中的大型媒體檔案。

視情況呼叫 Vertex AI Gemini API 伺服器端 (例如使用 Python、Node.js 或 Go)
使用伺服器端 Vertex AI SDK、Genkit 或 Firebase Extensions 來處理 Gemini API。

事前準備

如果您尚未完成，請參閱入門指南，瞭解如何設定 Firebase 專案、將應用程式連結至 Firebase、新增 SDK、初始化 Vertex AI 服務，以及建立 GenerativeModel 例項。

從文字和單張圖片生成文字從文字和多張圖片生成文字從文字和影片生成文字

媒體檔案範例

如果您沒有媒體檔案，可以使用下列公開檔案。由於這些檔案儲存在不在 Firebase 專案中的儲存桶中，因此您需要使用 https://storage.googleapis.com/BUCKET_NAME/PATH/TO/FILE 格式建立網址。

圖片：https://storage.googleapis.com/cloud-samples-data/generative-ai/image/scones.jpg，MIME 類型為 image/jpeg。查看或下載這張圖片。
PDF：https://storage.googleapis.com/cloud-samples-data/generative-ai/pdf/2403.05530.pdf，MIME 類型為 application/pdf。查看或下載這個 PDF 檔案。
影片：https://storage.googleapis.com/cloud-samples-data/video/animals.mp4，MIME 類型為 video/mp4。觀看或下載這部影片。
音訊：https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3，MIME 類型為 audio/mp3。聆聽或下載這段音訊。

使用文字和單一圖片生成文字

請先完成本指南的「事前準備」一節，再嘗試使用這個範例。

您可以使用含有文字和單一檔案 (例如圖片，如本範例所示) 的多模態提示呼叫 Gemini API。針對這些呼叫，您必須使用支援提示中媒體的模型 (例如 Gemini 2.0 Flash)。

請務必詳閱輸入檔案的規定和建議。

選擇要串流回應 (generateContentStream)，還是等待回應產生整個結果 (generateContent)。

串流不使用串流

您可以不等待模型產生的完整結果，改用串流處理部分結果，以便加快互動速度。

以下範例說明如何使用 generateContentStream()，從包含文字和單一圖片的多模態提示要求中，串流產生的文字：

import FirebaseVertexAI

// Initialize the Vertex AI service
let vertex = VertexAI.vertexAI()

// Create a `GenerativeModel` instance with a model that supports your use case
let model = vertex.generativeModel(modelName: "gemini-2.0-flash")

guard let image = UIImage(systemName: "bicycle") else { fatalError() }

// Provide a text prompt to include with the image
let prompt = "What's in this picture?"

// To stream generated text output, call generateContentStream and pass in the prompt
let contentStream = try model.generateContentStream(image, prompt)
for try await chunk in contentStream {
  if let text = chunk.text {
    print(text)
  }
}

注意：上述範例採用簡化方式，在多模態提示中處理平台原生圖片類型 (UIImage、NSImage、CIImage 和 CGImage)。無論原始格式為何，這些圖片類型都會在傳送至伺服器前，以 80% 的品質在用戶端轉換為 JPEG。也就是說，如果您像上述範例一樣提供內嵌圖片，就不需要指定 MIME 類型。

如要進一步控管圖片格式和轉換作業，您可以將圖片做為 InlineDataPart 提供，並提供特定 MIME 類型。例如：InlineDataPart(data: Data(/* PNG Data */), mimeType: "image/png")。

或者，您可以等待整個結果，而不是串流；只有在模型完成整個產生程序後，系統才會傳回結果。

以下範例說明如何使用 generateContent()，從包含文字和單一圖片的多模態提示要求產生文字：

import FirebaseVertexAI

// Initialize the Vertex AI service
let vertex = VertexAI.vertexAI()

// Create a `GenerativeModel` instance with a model that supports your use case
let model = vertex.generativeModel(modelName: "gemini-2.0-flash")

guard let image = UIImage(systemName: "bicycle") else { fatalError() }

// Provide a text prompt to include with the image
let prompt = "What's in this picture?"

// To generate text output, call generateContent and pass in the prompt
let response = try await model.generateContent(image, prompt)
print(response.text ?? "No text in response.")

瞭解如何選擇適合用途和應用程式的模型，以及選用的位置。

使用文字和多張圖片生成文字

請先完成本指南的「事前準備」一節，再嘗試使用這個範例。

您可以使用含有文字和多個檔案 (例如圖片，如本範例所示) 的多模態提示，呼叫 Gemini API。針對這些呼叫，您必須使用支援提示中媒體的模型 (例如 Gemini 2.0 Flash)。

請務必詳閱輸入檔案的規定和建議。

選擇要串流回應 (generateContentStream)，還是等待回應產生整個結果 (generateContent)。

串流不使用串流

您可以不等待模型產生的完整結果，改用串流處理部分結果，以便加快互動速度。

以下範例說明如何使用 generateContentStream()，從包含文字和多張圖片的多模態提示要求中，串流傳輸產生的文字：

import FirebaseVertexAI

// Initialize the Vertex AI service
let vertex = VertexAI.vertexAI()

// Create a `GenerativeModel` instance with a model that supports your use case
let model = vertex.generativeModel(modelName: "gemini-2.0-flash")

guard let image1 = UIImage(systemName: "car") else { fatalError() }
guard let image2 = UIImage(systemName: "car.2") else { fatalError() }

// Provide a text prompt to include with the images
let prompt = "What's different between these pictures?"

// To stream generated text output, call generateContentStream and pass in the prompt
let contentStream = try model.generateContentStream(image1, image2, prompt)
for try await chunk in contentStream {
  if let text = chunk.text {
    print(text)
  }
}

或者，您也可以等待整個結果，而不是串流；結果只會在模型完成整個產生程序後傳回。

以下範例說明如何使用 generateContent()，從包含文字和多張圖片的多模態提示要求產生文字：

import FirebaseVertexAI

// Initialize the Vertex AI service
let vertex = VertexAI.vertexAI()

// Create a `GenerativeModel` instance with a model that supports your use case
let model = vertex.generativeModel(modelName: "gemini-2.0-flash")

guard let image1 = UIImage(systemName: "car") else { fatalError() }
guard let image2 = UIImage(systemName: "car.2") else { fatalError() }

// Provide a text prompt to include with the images
let prompt = "What's different between these pictures?"

// To generate text output, call generateContent and pass in the prompt
let response = try await model.generateContent(image1, image2, prompt)
print(response.text ?? "No text in response.")

瞭解如何選擇適合用途和應用程式的模型，以及選用的位置。

使用文字和影片生成文字

請先完成本指南的「事前準備」一節，再嘗試使用這個範例。

您可以使用包含文字和影片檔案的多模態提示呼叫 Gemini API (如本範例所示)。針對這些呼叫，您必須使用支援提示中媒體的模型 (例如 Gemini 2.0 Flash)。

請務必詳閱輸入檔案的規定和建議。

選擇要串流回應 (generateContentStream)，還是等待回應產生整個結果 (generateContent)。

串流不使用串流

您可以不等待模型產生的完整結果，改用串流處理部分結果，以便加快互動速度。

以下範例說明如何使用 generateContentStream()，從包含文字和單一影片的多模態提示要求串流生成文字：

import FirebaseVertexAI

// Initialize the Vertex AI service
let vertex = VertexAI.vertexAI()

// Create a `GenerativeModel` instance with a model that supports your use case
let model = vertex.generativeModel(modelName: "gemini-2.0-flash")

// Provide the video as `Data` with the appropriate MIME type
let video = InlineDataPart(data: try Data(contentsOf: videoURL), mimeType: "video/mp4")

// Provide a text prompt to include with the video
let prompt = "What is in the video?"

// To stream generated text output, call generateContentStream with the text and video
let contentStream = try model.generateContentStream(video, prompt)
for try await chunk in contentStream {
  if let text = chunk.text {
    print(text)
  }
}

或者，您可以等待整個結果，而不是串流；只有在模型完成整個產生程序後，系統才會傳回結果。

以下範例說明如何使用 generateContent()，從包含文字和單一影片的多模態提示要求產生文字：

import FirebaseVertexAI

// Initialize the Vertex AI service
let vertex = VertexAI.vertexAI()

// Create a `GenerativeModel` instance with a model that supports your use case
let model = vertex.generativeModel(modelName: "gemini-2.0-flash")

// Provide the video as `Data` with the appropriate MIME type.
let video = InlineDataPart(data: try Data(contentsOf: videoURL), mimeType: "video/mp4")

// Provide a text prompt to include with the video
let prompt = "What is in the video?"

// To generate text output, call generateContent with the text and video
let response = try await model.generateContent(video, prompt)
print(response.text ?? "No text in response.")

瞭解如何選擇適合用途和應用程式的模型，以及選用的位置。

輸入檔案的規定和建議

請參閱「支援的 Vertex AI Gemini API 輸入檔案和相關規定」，瞭解下列資訊：

在要求中提供檔案的不同選項
支援的檔案類型
支援的 MIME 類型和指定方式
檔案和多模態要求的規定和最佳做法

你還可以做些什麼？

瞭解如何在向模型傳送長提示之前，計算符記。
設定 Cloud Storage for Firebase，這樣您就能在多模態要求中加入大型檔案，並透過更有條理的解決方案在提示中提供檔案。檔案可包含圖片、PDF、影片和音訊。
開始著手準備正式版，包括設定 Firebase App Check，以防範未經授權的用戶端濫用 Gemini API。此外，請務必詳閱製作檢查清單。

試用其他功能

建構多輪對話 (聊天)。
使用文字提示來生成文字。
從文字和多模態提示產生結構化輸出內容 (例如 JSON)。
使用文字提示生成圖像。
使用函式呼叫，將生成模型連結至外部系統和資訊。

瞭解如何控管內容產生

瞭解提示設計，包括最佳做法、策略和提示範例。
設定模型參數，例如溫度和輸出符記數量上限 (適用於 Gemini)，或顯示比例和人物生成 (適用於 Imagen)。
使用安全性設定，調整可能會收到有害回應的機率。

您也可以使用 Vertex AI Studio 實驗提示和模型設定。

進一步瞭解支援的型號

瞭解可用於各種用途的模型，以及相關配額和價格。

針對 Vertex AI in Firebase 的使用體驗提供意見回饋

使用 Gemini-API，根據多模態提示生成文字 bookmark_borderbookmark 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

事前準備

媒體檔案範例

使用文字和單一圖片生成文字

使用文字和多張圖片生成文字

使用文字和影片生成文字

輸入檔案的規定和建議

你還可以做些什麼？

試用其他功能

瞭解如何控管內容產生

進一步瞭解支援的型號

使用 Gemini-API，根據多模態提示生成文字
bookmark_border 透過集合功能整理內容你可以依據偏好儲存及分類內容。