Gemini API を使用してアプリから Firebase AI Logic SDK を呼び出すと、 Gemini モデルに、画像、動画、音声、ドキュメント(PDF など)などのマルチモーダル 入力に基づいてテキストを生成させることができます。
サポートされているファイル形式を使用し、サポートされている MIME タイプを指定する必要があります。また、ファイルとマルチモーダル リクエストが要件を満たし、ベスト プラクティスに準拠していることを確認してください。
このページでは、GenerativeModel の使用に固有の内容について説明します。
次のファイル入力でサポートされている MIME タイプ、ベスト プラクティス、制限事項の詳細:
画像 | 動画 | 音声 | ドキュメント(PDF など)。
マルチモーダル リクエストでファイルを提供するオプション
|
Gemini API プロバイダを選択して、このページでプロバイダ固有のコンテンツを表示します |
各マルチモーダル リクエストでは、常に次のものを提供する必要があります。
ファイルの
mimeType。各入力ファイルでサポートされている MIME タイプについては、このページの該当するセクションをご覧ください。ファイル。ファイルをインライン データとして提供することも 、URL を使用して提供することもできます 。
リクエストで提供できるファイルのサイズと数は、入力ファイルのタイプ、ファイルの提供方法、使用するモデルによって異なります(詳しくは、このページの各入力ファイルタイプのセクションをご覧ください)。
オプション 1: ファイルをインライン データとして提供する
インライン データとして提供されるファイルについては、次の点にご注意ください。
インライン データとして送信できるのは小さいファイルのみです。リクエストの合計サイズの上限は 20 MB です。
ファイルは転送中に base64 にエンコードされます(これによりファイルサイズが増加します)。
ファイルをインライン データとして含める方法の例については、 テキストとファイル(マルチモーダル)入力からテキストを生成するをご覧ください。 Android プラットフォームと Apple プラットフォーム用の SDK は、MIME タイプを指定しなくても、リクエスト内のインライン画像を処理できます。詳細
オプション 2: URL を使用してファイルを提供する
Gemini Developer API を使用する場合に使用できる URL のタイプは次のとおりです。
YouTube 動画の URL: YouTube 動画は 公開または非公開にする必要があります。
リクエストごとに 1 つの YouTube 動画の URL を指定できます。
画像: 要件、ベスト プラクティス、制限事項
画像検索: 要件
このセクションでは、画像でサポートされている MIME タイプとリクエストごとの上限について説明します。
サポートされている MIME タイプ
Gemini マルチモーダル モデルは、次の画像 MIME タイプをサポートしています:
- PNG -
image/png - JPEG -
image/jpeg - WebP -
image/webp
リクエストごとの上限
画像のピクセル数に特に制限はありません。ただし、 大きな画像は元のアスペクト比を維持したまま、最大解像度 3,072 x 3,072 に合わせて縮小され、パディングされます。
リクエストあたりの最大ファイル数: 3,000 個の画像ファイル
画像: トークン化
画像のトークンの計算方法は次のとおりです。
- 画像の両方の寸法が 384 ピクセル以下の場合、258 個のトークンが使用されます。
- 画像の 1 つの寸法が 384 ピクセルを超える場合、画像はタイルに切り抜かれます。各タイルサイズは、デフォルトで最小の寸法(幅または高さ)を 1.5 で割った値になります。必要に応じて、各タイルは 256 ピクセル以上、768 ピクセル以下になるように調整されます。各タイルは 768x768 にサイズ変更され、258 個のトークンを使用します。
画像: ベスト プラクティス
画像を使用する場合は、最適な結果を得るために、次のベスト プラクティスと情報を使用してください。
- 画像内のテキストを検出する必要がある場合は、1 つの画像を使用するプロンプトのほうが、複数の画像を使用するプロンプトよりも適切な結果が得られます。
- プロンプトに 1 つの画像が含まれている場合は、リクエスト内でテキスト プロンプトの前に画像を配置します。
- プロンプトに複数の画像が含まれており、これらの画像をプロンプトの後半で参照する場合、またはモデル レスポンスでモデルが参照する場合は、各画像の前にインデックスを付けると、より良い結果が得られる可能性があります。インデックスには
またはabc を使用します。プロンプトでインデックス付き画像を使用する例を次に示します。image 1image 2image 3image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - 解像度の高い画像を使用すると、より良い結果が得られます。
- プロンプトにいくつかの例を含めます。
- 画像を適切な向きに回転してから、プロンプトに追加します。
- ぼやけた画像は使用しないでください。
画像検索: 制限事項
Gemini マルチモーダル モデルは多くのマルチモーダル ユースケースで強力ですが、モデルの制限事項を理解しておくことが重要です。
- コンテンツの管理: Google の安全に関するポリシーに違反する画像に対する回答は拒否されます。
- 空間推論: 画像内のテキストやオブジェクトの位置を正確に特定することはできません。オブジェクトの数も推定値しか返されない場合があります。
- 医療目的での使用: 医療画像(X 線、CT スキャンなど)の解釈や医学的なアドバイスの提供には適していません。
- 人物認識: このモデルは、画像内の著名人以外の人物を特定することを目的としたものではありません。
- 精度: 低品質、回転、極端に低解像度の画像を解釈する際に、ハルシネーションや誤りが発生する可能性があります。また、画像ドキュメント内の手書きテキストを解釈する際に、ハルシネーションが発生することもあります。
動画: 要件、ベスト プラクティス、制限事項
動画: 要件
このセクションでは、動画でサポートされている MIME タイプとリクエストごとの上限について説明します。
サポートされている MIME タイプ
Gemini マルチモーダル モデルは、次の動画 MIME タイプをサポートしています:
- FLV -
video/x-flv - MOV -
video/quicktime - MPEG -
video/mpeg - MPEGPS -
video/mpegps - MPG -
video/mpg - MP4 -
video/mp4 - WEBM -
video/webm - WMV -
video/wmv - 3GPP -
video/3gpp
リクエストごとの上限
リクエストあたりの最大ファイル数: 10 個の動画ファイル
動画: トークン化
動画のトークンの計算方法は次のとおりです。
-
音声トラックは動画フレームでエンコードされます。また、音声トラックは
1 秒のトランク に分割されます。トランクはそれぞれ 32 個のトークンから構成されます。動画フレームと音声トークンは、タイムスタンプとともにインターリーブされます。タイムスタンプは 5 個のトークンで表されます。 -
1 フレーム/秒(fps) 以下でサンプリングされた動画の場合、動画の最初の 1 時間のタイムスタンプは、動画フレームあたり 5 トークンとして表されます。残りのタイムスタンプは、動画フレームごとに 7 個のトークンで表されます。 -
1 フレーム/秒(fps) を超えるサンプリング レートの動画の場合、動画の最初の 1 時間のタイムスタンプは、動画フレームあたり 9 個のトークンとして表されます。残りのタイムスタンプは、 動画フレームごとに 11 個のトークンで表されます。
動画: ベスト プラクティス
動画を使用する場合は、最良の結果を得るために、次のベスト プラクティスと情報を使用してください。
- プロンプトに 1 つの動画が含まれている場合は、テキスト プロンプトの前に動画を配置します。
- 音声付き動画のタイムスタンプのローカライズが必要な場合は、モデルに 「タイムスタンプ形式」で説明されている形式に従ったタイムスタンプを生成させます。
動画: 制限事項
Gemini マルチモーダル モデルは多くのマルチモーダル ユースケースで強力ですが、モデルの制限事項を理解しておくことが重要です。
- コンテンツの管理: Google の安全に関するポリシーに違反する動画に対する回答は拒否されます。
- 非音声の認識: 音声をサポートするモデルでは、音声以外の音を認識する際に誤りが発生する可能性があります。
音声: 要件と制限事項
音声: 要件
このセクションでは、音声でサポートされている MIME タイプとリクエストごとの上限について説明します。
サポートされている MIME タイプ
Gemini マルチモーダル モデルは、次の音声 MIME タイプをサポートしています:
- AAC -
audio/aac - FLAC -
audio/flac - MP3 -
audio/mp3 - MPA -
audio/m4a - MPEG -
audio/mpeg - MPGA -
audio/mpga - MP4 -
audio/mp4 - OPUS -
audio/opus - PCM -
audio/pcm - WAV -
audio/wav - WEBM -
audio/webm
リクエストごとの上限
リクエストあたりの最大ファイル数: 1 つの音声ファイル
音声: 制限事項
Gemini マルチモーダル モデルは多くのマルチモーダル ユースケースで強力ですが、モデルの制限事項を理解しておくことが重要です。
- 非音声の認識: 音声をサポートするモデルでは、音声以外の音を認識する際に誤りが発生する可能性があります。
- 音声のみのタイムスタンプ: 音声のみのファイルのタイムスタンプを正確に生成するには、
audio_timestampパラメータをgeneration_configで構成する必要があります。
ドキュメント(PDF など): 要件、ベスト プラクティス、制限事項
ドキュメント: 要件
このセクションでは、ドキュメント(PDF など)でサポートされている MIME タイプとリクエストごとの上限について説明します。
サポートされている MIME タイプ
Gemini マルチモーダル モデルは、次のドキュメント MIME タイプをサポートしています:
- PDF -
application/pdf - テキスト -
text/plain
リクエストごとの上限
PDF は画像として扱われるため、PDF の 1 ページは 1 つの 画像として扱われます。プロンプトで許可されるページ数は、 Gemini マルチモーダル モデルがサポートできる画像の数に制限されます。
- リクエストあたりの最大ファイル数: 3,000 個のファイル
- ファイルあたりの最大ページ数: ファイルあたり 1,000 ページ
- ファイルあたりの最大サイズ: ファイルあたり 50 MB
ドキュメント: トークン化
PDF のトークン化
PDF は画像として扱われるため、PDF の各ページは画像と同じ 方法でトークン化されます。
また、PDF の料金は Gemini 画像の料金に準拠します。 たとえば、Gemini API 呼び出しで 2 ページの PDF を含めると、 入力として 2 つの画像を処理する場合の料金が発生します。
ドキュメント: ベスト プラクティス
PDF を使用する場合は、次のベスト プラクティスと情報を参考にしてください。 最適な結果を得るには:
- プロンプトに 1 つの PDF が含まれている場合は、リクエスト内でテキスト プロンプトの前に PDF を配置します。
- ドキュメントが長い場合は、複数の PDF に分割して処理することを検討してください。
- スキャンした画像のテキストではなく、テキストとしてレンダリングされたテキストを含む PDF を使用します。この形式では、テキストが機械で読み取り可能になるため、スキャンした画像を PDF にした場合よりも、モデルによる編集、検索、操作が容易になります。これにより、契約書など、テキストの多いドキュメントを扱う際に最適な結果が得られます。
ドキュメント: 制限事項
Gemini マルチモーダル モデルは多くのマルチモーダル ユースケースで強力ですが、モデルの制限事項を理解しておくことが重要です。
- 空間推論: PDF 内のテキストやオブジェクトの位置を 正確に特定することはできません。オブジェクトの数も推定値しか返されない場合があります。
- 精度: PDF ドキュメント内の手書きテキストを解釈する際に、ハルシネーションが発生する可能性があります。