Gemini API を使用してマルチモーダル プロンプトからテキストを生成する


Vertex AI for Firebase SDK を使用してアプリから Gemini API を呼び出す場合は、マルチモーダル入力に基づいてテキストを生成するように Gemini モデルに指示できます。マルチモーダル プロンプトには、テキスト、画像、PDF、動画、音声など、複数のモダリティ(または入力の種類)を含めることができます。

マルチモーダル プロンプトのテストと反復処理には、Vertex AI Studio を使用することをおすすめします。

始める前に

まだ行っていない場合は、Vertex AI for Firebase SDK のスタートガイドをご覧ください。以下のことをすべて完了していることを確認してください。

  • 新規または既存の Firebase プロジェクトを設定します。Blaze 料金プランの使用や、必要な API の有効化も行えます。

  • アプリの登録やアプリへの Firebase 構成の追加など、アプリを Firebase に接続します。

  • SDK を追加し、アプリで Vertex AI サービスと生成モデルを初期化します。

アプリを Firebase に接続して SDK を追加し、Vertex AI サービスと生成モデルを初期化したら、Gemini API を呼び出す準備は完了です。

テキストと 1 つの画像からテキストを生成する

このサンプルを試す前に、このガイドの始める前にセクションを完了していることを確認してください。

テキストと単一のファイル(この例に示す画像など)の両方を含むマルチモーダル プロンプトで Gemini API を呼び出すことができます。これらの呼び出しでは、マルチモーダル プロンプトをサポートするモデル(Gemini 1.5 Pro など)を使用する必要があります。

画像、PDF、動画、音声などがサポートされています。入力ファイルの要件と推奨事項を必ず確認してください。

レスポンスをストリーミングするか(generateContentStream)、結果全体が生成されるまでレスポンスを待つか(generateContent)を選択します。

ストリーミング

モデル生成の結果全体を待たずに、ストリーミングを使用して部分的な結果を処理することで、インタラクションを高速化できます。

次の例は、generateContentStream() を使用して、テキストと単一の画像を含むマルチモーダル プロンプト リクエストで生成されたテキストをストリーミングする方法を示しています。

ストリーミングなし

ストリーミングではなく、結果全体を待つこともできます。結果は、モデルが生成プロセス全体を完了した後にのみ返されます。

次の例は、generateContent() を使用して、テキストと単一の画像を含むマルチモーダル プロンプト リクエストからテキストを生成する方法を示しています。

ユースケースとアプリに適した Gemini モデルと、必要に応じてロケーションを選択する方法を学習します。

テキストと複数の画像からテキストを生成する

このサンプルを試す前に、このガイドの始める前にセクションを完了していることを確認してください。

テキストと複数のファイル(この例に示すように画像など)の両方を含むマルチモーダル プロンプトで Gemini API を呼び出すことができます。これらの呼び出しでは、マルチモーダル プロンプトをサポートするモデル(Gemini 1.5 Pro など)を使用する必要があります。

画像、PDF、動画、音声などがサポートされています。入力ファイルの要件と推奨事項を必ず確認してください。

レスポンスをストリーミングするか(generateContentStream)、結果全体が生成されるまでレスポンスを待つか(generateContent)を選択します。

ストリーミング

モデル生成の結果全体を待たずに、ストリーミングを使用して部分的な結果を処理することで、インタラクションを高速化できます。

次の例は、generateContentStream() を使用して、テキストと複数の画像を含むマルチモーダル プロンプト リクエストで生成されたテキストをストリーミングする方法を示しています。

ストリーミングなし

ストリーミングではなく、結果全体を待つこともできます。結果は、モデルが生成プロセス全体を完了した後にのみ返されます。

次の例は、generateContent() を使用して、テキストと複数の画像を含むマルチモーダル プロンプト リクエストからテキストを生成する方法を示しています。

ユースケースとアプリに適した Gemini モデルと、必要に応じてロケーションを選択する方法を学習します。

テキストと動画からテキストを生成する

このサンプルを試す前に、このガイドの始める前にセクションを完了していることを確認してください。

この例に示すように、テキストと単一の動画の両方を含むマルチモーダル プロンプトで Gemini API を呼び出すことができます。これらの呼び出しでは、マルチモーダル プロンプトをサポートするモデル(Gemini 1.5 Pro など)を使用する必要があります。

入力ファイルの要件と推奨事項を必ず確認してください。

レスポンスをストリーミングするか(generateContentStream)、結果全体が生成されるまでレスポンスを待つか(generateContent)を選択します。

ストリーミング

モデル生成の結果全体を待たずに、ストリーミングを使用して部分的な結果を処理することで、インタラクションを高速化できます。

次の例は、generateContentStream() を使用して、テキストと単一の動画を含むマルチモーダル プロンプト リクエストで生成されたテキストをストリーミングする方法を示しています。

ストリーミングなし

ストリーミングではなく、結果全体を待つこともできます。結果は、モデルが生成プロセス全体を完了した後にのみ返されます。

次の例は、generateContent() を使用して、テキストと単一の動画を含むマルチモーダル プロンプト リクエストからテキストを生成する方法を示しています。

ユースケースとアプリに適した Gemini モデルと、必要に応じてロケーションを選択する方法を学習します。

入力ファイルの要件と推奨事項

サポートされているファイル形式、MIME タイプの指定方法、ファイルとマルチモーダル リクエストが要件を満たしてベスト プラクティスに従う方法については、Vertex AI Gemini API でサポートされている入力ファイルと要件をご覧ください。

Google アシスタントの機能

  • 長いプロンプトをモデルに送信する前にトークンをカウントする方法を学習する。
  • Cloud Storage for Firebase を設定し、Cloud Storage URL を使用してマルチモーダル リクエストにサイズの大きなファイルを含められるようにします。ファイルには、画像、PDF、動画、音声を含めることができます。
  • 未承認のクライアントによる Gemini API の不正使用から Gemini API を保護するための Firebase App Check の設定など、本番環境に向けた準備をご検討ください。

Gemini API のその他の機能を試す

コンテンツの生成を制御する方法

Vertex AI Studio を使用して、プロンプトとモデル構成を試すこともできます。

Gemini モデルの詳細

さまざまなユースケースで利用可能なモデルと、その割り当てと料金について学習する。


Vertex AI for Firebase の使用に関するフィードバックを送信する