サポートされている入力ファイルと Vertex AI Gemini API の要件

Vertex AI for Firebase SDK を使用してアプリから Vertex AI Gemini API を呼び出す場合、マルチモーダル入力に基づいてテキストを生成するように Gemini モデルに指示できます。マルチモーダル プロンプトには、テキスト、画像、PDF、動画、音声など、複数のモダリティ(または入力の種類)を含めることができます。

入力のテキスト以外の部分(メディア ファイルなど)については、サポートされているファイル形式を使用し、サポートされている MIME タイプを指定する必要があります。また、ファイルとマルチモーダル リクエストが要件を満たし、ベスト プラクティスに従っている必要があります。

  • サポートされている入力ファイルはモデルによって異なり、画像、PDF、動画、音声などがあります。

    • サポートされている動画入力もモデルによって異なり、フレームのみ、または音声付きのフレームが含まれる場合があります。
  • 入力ファイルとマルチモーダル リクエストの要件とベスト プラクティス:

    • Gemini モデルの詳細では、モデルに基づいてサポートされているファイルの要件(最大ファイル数、最大ファイルサイズなど)の簡単な概要を確認できます。

    • Google Cloud のドキュメントでは、入力ファイルとマルチモーダル リクエストの要件ベスト プラクティスに関する詳細情報(サポートされている MIME タイプ、リクエストで入力ファイルを提供するタイミングなど)を確認できます。

Vertex AI for Firebase SDK に固有の要件

Vertex AI for Firebase SDK の場合、リクエストの最大サイズは 20 MB です。リクエストが大きすぎると、HTTP 413 エラーが発生します。