Gemini ファミリーのモデルは、画像、動画、テキストなどの複数のモダリティの情報を処理できるため、マルチモーダルとみなされます。たとえば、クッキーの皿の写真を Gemini モデルに送信し、それらのクッキーのレシピを提供するよう依頼できます。
プロンプト | レスポンス |
このクッキーのレシピを教えてください。 |
**材料** - 1 c. (2 本のスティック)柔らかい無塩バター - 3/4 c. グラニュー糖 - 3/4 c. パック詰めされたブラウン シュガー - 1 tsp . バニラ エッセンス - 卵大 2 個 - 2 1/4 c. 汎用小麦粉 - 1 tsp. 重曹 - 1 tsp. 塩 ... |
Google Cloud の Vertex AI が提供する Gemini API を使用して、Gemini モデル ファミリーと対話できます。モバイルアプリとウェブアプリの場合は、Vertex AI for Firebase SDK を使用して Gemini API を呼び出し、アプリから直接 Gemini モデルを操作できます。
このページでは、Gemini モデルに関する次の情報を提供します。
サポートされている入力タイプなど、さまざまな Gemini モデルのユースケースの概要比較。
各モデルの詳細の比較(最大入力トークンや動画の最大長など)。
Gemini モデルのバージョニング(具体的には、安定バージョン、自動更新バージョン、プレビュー版バージョン)についての説明。
初期化中にコードに含める使用可能なモデル名のリスト。
Gemini モデルでサポートされている言語のリスト。
使用可能なモデル
Vertex AI for Firebase では、次のいずれかの Gemini モデルを使用できます。
Gemini 1.5 Flash
1.5 Pro と同じ入力および出力タイプ(および合計トークン数)をサポートするマルチモーダル モデルですが、1.5 Flash は大容量で費用対効果の高いアプリケーション向けに特別に設計されています。Gemini 1.5 Pro
テキスト レスポンスまたはコード レスポンスのテキスト プロンプトまたはチャット プロンプトでの画像、音声、動画、PDF ファイルの追加をサポートするマルチモーダル モデル。また、最大 100 万個のトークンによる長いコンテキストの理解をサポートします。Gemini 1.0 Pro Vision
テキストまたはコード レスポンスで、テキスト、画像、動画を処理するように設計されたマルチモーダル モデル。チャットには使用できません。Gemini 1.0 Pro
自然言語タスク、テキストとコードを使用したマルチターン チャット、コード生成を処理するように設計されたモデル。
各モデルのユースケースと機能
Gemini モデルごとに、さまざまなユースケースをサポートするさまざまな機能があります。各 Gemini モデルの詳細については、Google Cloud ドキュメントをご覧ください。
各モデルでサポートされている入力と出力
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
入力値の型 | ||||
テキスト | ||||
コード | ||||
画像 | ||||
動画(フレームのみ) | ||||
動画(フレームと音声) | ||||
音声 | ||||
出力タイプ | ||||
テキスト | ||||
コード |
サポートされているファイル形式については、Vertex AI Gemini API でサポートされている入力ファイルと要件をご覧ください。
各モデルでサポートされている機能と一般的な機能
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
テキストのみのプロンプトからのテキスト生成 | |||||
マルチモーダル プロンプトからのテキスト生成 | |||||
JSON 出力(制約付きスキーマモード) (Vertex AI for Firebase SDK で近日提供予定) |
|||||
マルチターン チャット | |||||
関数呼び出し | |||||
基本的な関数呼び出し | |||||
並列関数呼び出し | |||||
関数呼び出しモード | |||||
トークンと課金対象文字数をカウントする | |||||
システム指示 |
各モデルの詳細情報
プロパティ |
Gemini 1.5 Flash / Gemini 1.5 Pro |
Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|
合計トークンの上限(入力と出力の組み合わせ)* | 100 万トークン | 16,384 トークン | 32,760 トークン |
出力トークンの上限 * | 8,192 トークン | 2,048 トークン | 8,192 トークン |
リクエストごとの画像の最大数 | 3,000 枚の画像 | 16 枚 | なし |
base64 エンコード画像の最大サイズ | 7 MB | 7 MB | なし |
PDF の最大サイズ | 30 MB | 30 MB | なし |
リクエストごとの動画ファイルの最大数 | 10 個の動画ファイル | 1 個の動画ファイル | なし |
動画の最大長(フレームのみ) | 60 分間の動画 | 2 分 | なし |
動画の最大長(フレームと音声) | 約 45 分の動画 | なし | なし |
リクエストごとの音声ファイルの最大数 | 1 個の音声ファイル | なし | なし |
音声の最大長 | 最大 8.4 時間の音声 | なし | なし |
* すべての Gemini モデルで、1 トークンは約 4 文字に相当します。したがって、100 トークンは約 60 ~ 80 単語に相当します。リクエスト内のトークンの合計数は、countTokens
を使用して確認できます。
以下では、モデルと入力ファイルに関するさらに詳しい情報を確認できます。
Google Cloud のドキュメントでマルチモーダル モデルの違いを確認する。
サポートされているファイル形式、MIME タイプの指定方法、ファイルとマルチモーダル リクエストが要件を満たしていることを確認し、Vertex AI Gemini API でサポートされている入力ファイルと要件のベスト プラクティスを確認する。
モデルのバージョニング
Gemini モデルには、安定バージョン、自動更新バージョン、プレビュー版で提供されています。
安定版は一般提供と見なされます。
- 安定版には、モデル名に特定の 3 桁のバージョン番号が付加されます(例:
)。gemini-1.0-pro-001
- 安定版には、モデル名に特定の 3 桁のバージョン番号が付加されます(例:
自動更新バージョンは常に、そのモデルの最新の安定バージョンを指します。新しい安定バージョンがリリースされると、自動更新バージョンはその新しい安定バージョンを自動的に参照し始めます。
- 自動更新バージョンには、付加情報のないモデル名(
など)が含まれます。gemini-1.0-pro
- 自動更新バージョンには、付加情報のないモデル名(
プレビュー版のバージョンには新しい機能が含まれており、安定していないと見なされます。プレビュー版は常に、そのモデルの最新のプレビュー版を参照します。新しいプレビュー版がリリースされると、既存のプレビュー バージョンは自動的にその新しいプレビュー版を指すようになります。
- プレビュー版では、モデル名に
とモデルの最初のリリース日(-preview
)が付いています。例:-MMDD
(2024 年 4 月 9 日リリース)。gemini-1.5-pro-preview-0409
- プレビュー版では、モデル名に
利用可能な Gemini モデル バージョンとそのライフサイクルの詳細については、Google Cloud ドキュメントをご覧ください。
使用可能なモデル名
モデル名とは、生成モデルの初期化(Gemini API を呼び出すために必要なステップ)でコード内に含める明示的な値です。お使いの言語の初期化の例については、スタートガイドをご覧ください。
Gemini 1.5 Flash モデル名
モデル名 | 説明 | リリース ステージ | 初回リリース日 | 廃止日 |
---|---|---|---|---|
安定版 | ||||
gemini-1.5-flash-001 |
Gemini 1.5 Flash の最新の安定版 | 一般提供 | 2024-05-24 | 2025 年 5 月 24 日以降 |
自動更新バージョン | ||||
gemini-1.5-flash |
1.5 Flash の最新の安定版を参照します (現在は gemini-1.5-flash-001 |
一般提供 | 2024-05-24 | --- |
プレビュー版 | ||||
gemini-1.5-flash-preview-0514 |
Gemini 1.5 Flash の最新プレビュー版 | 公開プレビュー版 | 2024-05-14 | 2024-06-24 |
Gemini 1.5 Pro のモデル名
モデル名 | 説明 | リリース ステージ | 初回リリース日 | 廃止日 |
---|---|---|---|---|
安定版 | ||||
gemini-1.5-pro-001 |
Gemini 1.5 Pro の最新の安定版 | 一般提供 | 2024-05-24 | 2025 年 5 月 24 日以降 |
自動更新バージョン | ||||
gemini-1.5-pro |
1.5 Pro の最新の安定版を指します (現在は gemini-1.5-pro-001 |
一般提供 | 2024-05-24 | --- |
プレビュー版 | ||||
gemini-1.5-pro-preview-0514 |
Gemini 1.5 Pro の最新プレビュー版 | 公開プレビュー版 | 2024-05-14 | 2024-06-24 |
gemini-1.5-pro-preview-0409 |
gemini-1.5-pro-preview-0514 (最新のプレビュー バージョン)を指します。 |
公開プレビュー版 | 2024-04-09 | 2024-06-14 |
Gemini 1.0 Pro Vision のモデル名
モデル名 | 説明 | リリース ステージ | 初回リリース日 | 廃止日 |
---|---|---|---|---|
安定版 | ||||
gemini-1.0-pro-vision-001 |
Gemini 1.0 Pro Vision の最新の安定版 | 一般提供 | 2024-02-15 | 2025 年 2 月 15 日以降 |
自動更新バージョン | ||||
gemini-1.0-pro-vision |
1.5 Pro Vision の最新の安定版を指します (現在は gemini-1.5-pro-vision-001 |
一般提供 | 2024-01-04 | --- |
Gemini 1.0 Pro のモデル名
モデル名 | 説明 | リリース ステージ | 初回リリース日 | 廃止日 |
---|---|---|---|---|
安定版 | ||||
gemini-1.0-pro-002 |
Gemini 1.0 Pro の最新の安定版 | 一般提供 | 2024-04-09 | 2025 年 4 月 9 日以降 |
gemini-1.0-pro-001 |
Gemini 1.0 Pro の安定版 | 一般提供 | 2024-02-15 | 2025 年 2 月 15 日以降 |
自動更新バージョン | ||||
gemini-1.0-pro |
1.0 Pro の最新の安定版を指します (現在は gemini-1.0-pro-002 |
一般提供 | 2024-02-15 | --- |
対応している言語
Gemini モデルは、次の言語をサポートしています。
アラビア語(ar)、ベンガル語(bn)、スウェーデン語(スロウク語)、スロウ語(フリュウク語)、ベンガル語(bn)、スウェーデン語(スロウク語)、スウェーデン語(bg)、中国語(簡体字および繁体字)、クロアチア語(hr)、チェコ語(cs)、デンマーク語(da)、オランダ語(fi)、フランス語(フランス語)、ドイツ語(de)、ギリシャ語(el)、ヘブライ語(iw)、ヒン
次のステップ
Gemini API の機能を試す
- マルチターンの会話(チャット)を構築します。
- テキストのみのプロンプトからテキストを生成します。
- マルチモーダル プロンプトからテキストを生成します(テキスト、画像、PDF、動画、音声など)。
- 関数呼び出しを使用して、生成モデルを外部システムや情報に接続します。