Gemini ファミリーのモデルは、画像、動画、テキストなど、複数のモダリティからの情報を処理できるため、マルチモーダル モデルと見なされます。たとえば、Gemini モデルにクッキーの皿の写真を送信し、それらのクッキーのレシピを提供するようモデルに依頼できます。
プロンプト | レスポンス |
このクッキーのレシピを教えてください。 |
**材料** - 1 c. (2 本のスティック)柔らかい無塩バター - 3/4 c. グラニュー糖 - 3/4 c. パック詰めされたブラウン シュガー - 1 tsp . バニラ エッセンス - 卵大 2 個 - 2 1/4 c. 汎用小麦粉 - 1 tsp. 重曹 - 1 tsp. 塩 ... |
Gemini ファミリーのモデルを操作するには、Google Cloud の Vertex AI が提供する Gemini API を使用します。モバイルアプリとウェブアプリでは、Vertex AI in Firebase SDK を使用して Gemini API を呼び出し、アプリから直接 Gemini モデルを操作できます。
このページでは、Gemini モデルについて次の情報を提供します。
さまざまな Gemini モデルのユースケースの大まかな比較(サポートされている入力タイプを含む)。
各モデルの詳細の比較(最大入力トークン数、動画の最大長など)。
Gemini モデルのバージョニング方法(特に安定版、自動更新版、プレビュー版)の説明。
初期化時にコードに含める使用可能なモデル名のリスト。
Gemini モデルでサポートされている言語の一覧。
使用可能なモデル
Vertex AI in Firebase では、次のいずれかの Gemini モデルを使用できます。
Gemini 1.5 Flash
1.5 Pro と同じ入力タイプと出力タイプをサポートするマルチモーダル モデルですが、100 万トークンの長いコンテキストの理解が可能です。Gemini 1.5 Flash は、大規模で費用対効果の高いアプリケーション向けに特別に設計されています。Gemini 1.5 Pro
テキスト レスポンスまたはコード レスポンス用のテキスト プロンプトまたはチャット プロンプトでの画像、音声、動画、PDF ファイルの追加をサポートするマルチモーダル モデル。また、200 万トークンによる長いコンテキストの理解をサポートします。Gemini 1.0 Pro Vision
テキストと画像、動画を処理してテキストまたはコード レスポンスを生成するように設計されたマルチモーダル モデル。チャットには使用できません。Gemini 1.0 Pro
自然言語タスク、テキストとコードによるマルチターン チャット、コード生成を処理するように設計されたモデル。
各モデルのユースケースと機能
各 Gemini モデルには、さまざまなユースケースをサポートするさまざまな機能があります。各 Gemini モデルの詳細については、Google Cloud のドキュメントをご覧ください。
各モデルでサポートされている入力と出力
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
入力値の型 | ||||
テキスト | ||||
コード | ||||
画像 | ||||
動画(フレームのみ) | ||||
動画(フレームと音声) | ||||
音声 | ||||
出力タイプ | ||||
テキスト | ||||
レスポンス スキーマを使用した構造化出力(JSON など) | ||||
コード |
サポートされているファイル形式については、サポートされている入力ファイルと Vertex AI Gemini API の要件をご覧ください。
各モデルでサポートされている機能と一般的な機能
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
テキストのみの入力からテキストを生成する | |||||
マルチモーダル入力からのテキスト生成 | |||||
レスポンス スキーマを使用した構造化出力(JSON など) | |||||
マルチターン チャット | |||||
関数呼び出し | |||||
基本的な関数呼び出し | |||||
並列関数呼び出し | |||||
関数呼び出しモード | |||||
トークンと課金対象文字数をカウントする | |||||
システム指示 |
各モデルの詳細
プロパティ | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
トークンの合計上限(入力と出力の合計)* | 1,048,576 個のトークン | 2,097,152 個のトークン | 16,384 トークン | 32,760 トークン |
出力トークンの上限 * | 8,192 トークン | 8,192 トークン | 2,048 トークン | 8,192 トークン |
リクエストあたりの画像の最大数 | 3,000 個の画像 | 3,000 個の画像 | 16 枚 | なし |
base64 エンコードされた画像の最大サイズ | 7 MB | 7 MB | 7 MB | なし |
PDF の最大サイズ | 30 MB | 30 MB | 30 MB | なし |
リクエストあたりの動画ファイルの最大数 | 10 個の動画ファイル | 10 個の動画ファイル | 1 つの動画ファイル | なし |
動画の最大長(フレームのみ) | 60 分程度の動画 | 60 分程度の動画 | 2 分 | なし |
動画の最大長(フレームと音声) | 動画: 約 45 分 | 動画: 約 45 分 | なし | なし |
リクエストあたりの音声ファイルの最大数 | 1 つの音声ファイル | 1 つの音声ファイル | なし | なし |
音声の最大長 | 約 8.4 時間の音声 | 約 8.4 時間の音声 | なし | なし |
* すべての Gemini モデルで、1 つのトークンは約 4 文字に相当するため、100 個のトークンは約 60 ~ 80 語(英語)に相当します。countTokens
を使用して、リクエスト内のトークンの合計数を特定できます。
サポートされているファイル形式、MIME タイプの指定方法、ファイルとマルチモーダル リクエストが要件を満たしていることを確認する方法、ベスト プラクティスについて詳しくは、Vertex AI Gemini API のサポートされている入力ファイルと要件をご覧ください。
モデルのバージョニング
Gemini モデルには、安定版、自動更新版、プレビュー版があります。
安定版は一般提供版と見なされます。
- 安定版のモデル名には、特定の 3 桁のバージョン番号が付加されます(例:
)。gemini-1.5-pro-002
- 安定版のモデル名には、特定の 3 桁のバージョン番号が付加されます(例:
自動更新バージョンは、常にそのモデルの最新の安定版を参照します。新しい安定版がリリースされると、自動更新バージョンは自動的にその新しい安定版を参照するようになります。
- 自動更新バージョンのモデル名には接尾辞がありません(例:
)。gemini-1.5-pro
- 自動更新バージョンのモデル名には接尾辞がありません(例:
プレビュー版には新しい機能が含まれており、安定版ではないと見なされます。プレビュー バージョンは常に、そのモデルの最新のプレビュー バージョンを参照します。新しいプレビュー バージョンがリリースされると、既存のプレビュー バージョンは自動的にその新しいプレビュー バージョンを参照するようになります。
- プレビュー バージョンのモデル名には、モデルの最初のリリース日(
)とともに-MMDD
が追加されます。たとえば、-preview
(2024 年 4 月 9 日にリリース)などです。gemini-1.5-pro-preview-0409
- プレビュー バージョンのモデル名には、モデルの最初のリリース日(
使用可能な Gemini モデルのバージョンとそのライフサイクルの詳細については、Google Cloud のドキュメントをご覧ください。
使用可能なモデル名
モデル名は、生成モデルの初期化時にコードに含める明示的な値です(これは Gemini API を呼び出すために必要な手順です)。言語の初期化例については、スタートガイドをご覧ください。
Gemini 1.5 Flash のモデル名
モデル名 | 説明 | リリース ステージ | 初回リリース日 | 廃止日 |
---|---|---|---|---|
安定版 | ||||
gemini-1.5-flash-002 |
Gemini 1.5 Flash の最新の安定版 | 一般提供 | 2024-09-24 | 2025 年 9 月 24 日以降 |
gemini-1.5-flash-001 |
Gemini 1.5 Flash の最初の安定版 | 一般提供 | 2024-05-24 | 2025 年 5 月 24 日以降 |
自動更新バージョン | ||||
gemini-1.5-flash |
1.5 Flash の最新の安定版を指します (現在は gemini-1.5-flash-002 |
一般提供 | 2024-09-24 | --- |
Gemini 1.5 Pro のモデル名
モデル名 | 説明 | リリース ステージ | 初回リリース日 | 廃止日 |
---|---|---|---|---|
安定版 | ||||
gemini-1.5-pro-002 |
Gemini 1.5 Pro の最新安定版 | 一般提供 | 2024-09-24 | 2025 年 9 月 24 日以降 |
gemini-1.5-pro-001 |
Gemini 1.5 Pro の最初の安定版 | 一般提供 | 2024-05-24 | 2025 年 5 月 24 日以降 |
自動更新バージョン | ||||
gemini-1.5-pro |
1.5 Pro の最新の安定版を指します (現在は gemini-1.5-pro-002 |
一般提供 | 2024-09-24 | --- |
Gemini 1.0 Pro Vision のモデル名
モデル名 | 説明 | リリース ステージ | 初回リリース日 | 廃止日 |
---|---|---|---|---|
安定版 | ||||
gemini-1.0-pro-vision-001 |
Gemini 1.0 Pro Vision の最新の安定版 | 一般提供 | 2024-02-15 | 2025 年 2 月 15 日以降 |
自動更新バージョン | ||||
gemini-1.0-pro-vision |
1.5 Pro Vision の最新の安定版を指します (現在は gemini-1.5-pro-vision-001 |
一般提供 | 2024-01-04 | --- |
Gemini 1.0 Pro のモデル名
モデル名 | 説明 | リリース ステージ | 初回リリース日 | 廃止日 |
---|---|---|---|---|
安定版 | ||||
gemini-1.0-pro-002 |
Gemini 1.0 Pro の最新の安定版 | 一般提供 | 2024-04-09 | 2025-04-09 以降 |
gemini-1.0-pro-001 |
Gemini 1.0 Pro の安定版 | 一般提供 | 2024-02-15 | 2025 年 2 月 15 日以降 |
自動更新バージョン | ||||
gemini-1.0-pro |
1.0 Pro の最新の安定版を指します (現在は gemini-1.0-pro-002 |
一般提供 | 2024-02-15 | --- |
サポートされている言語
すべての Gemini モデルは、次の言語を理解して応答できます。
アラビア語(ar)、ベンガル語(bn)、ブルガリア語(bg)、中国語(簡体字、繁体字)(zh)、クロアチア語(hr)、チェコ語(cs)、デンマーク語(da)、オランダ語(nl)、英語(en)、エストニア語(et)、フィンランド語(fi)、フランス語(fr)、ドイツ語(de)、ギリシャ語(el)、ヘブライ語(iw)、ヒンディー語(hi)、ハンガリー語(hu)、インドネシア語(id)、イタリア語(it)、日本語(ja)、韓国語(ko)、ラトビア語(lv)、リトアニア語(lt)、ノルウェー語(no)、ポーランド語(pl)、ポルトガル語(pt)、ルーマニア語(ro)、ロシア語(ru)、セルビア語(sr)、スロバキア語(sk)、スロベニア語(sl)、スペイン語(es)、スワヒリ語(sw)、スウェーデン語(sv)、タイ語(th)、トルコ語(tr)、ウクライナ語(uk)、ベトナム語(vi)
Gemini 1.5 Pro モデルと Gemini 1.5 Flash モデルは、次の追加の言語を認識して応答できます。
アフリカーンス語(af)、アムハラ語(am)、アッサム語(as)、アゼリー語(az)、ベラルーシ語(be)、ボスニア語(bs)、カタロニア語(ca)、セブアノ語(ceb)、コルシカ語(co)、ウェールズ語(cy)、ディーベヒ語(dv)、エスペラント語(eo)、バスク語(eu)、ペルシア語(fa)、フィリピン語(タガログ語)(fil)、フリジア語(fy)、アイルランド語(ga)、スコットランド ゲール語(gd)、ガリシア語(gl)、グジャラート語(gu)、ハウサ語(ha)、ハワイ語(haw)、モンゴル語(hmn)、ハイチ語(ht)、アルメニア語(hy)、イボ語(ig)、アイスランド語(is)、ジャワ語(jv)、グルジア語(ka)、カザフ語(kk)、クメール語(km)、カンナダ語(kn)、クリオ語(kri)、クルド語(ku)、キルギス語(ky)、ラテン語(la)、ルクセンブルク語(lb)、ラオス語(lo)、マダガスカル語(mg)、マオリ語(mi)、マケドニア語(mk)、マラヤーラム語(ml)、モンゴル語(mn)、メイテイ語(マニプル語)(mni-Mtei)、マラーティー語(mr)、マレー語(ms)、マルタ語(mt)、ミャンマー語(ビルマ語)(my)、ネパール語(ne)、ニャンジャ語(チチェワ語)(ny)、オディア語(オリア語)(or)、パンジャブ語(pa)、パシュトゥ語(ps)、シンド語(sd)、シンハラ語(シンハラ語)(si)、サモア語(sm)、ショナ語(sn)、ソマリ語(so)、アルバニア語(sq)、セソト語(st)、スンダ語(su)、タミル語(ta)、テルグ語(te)、タジク語(tg)、ウイグル語(ug)、ウルドゥ語(ur)、ウズベク語(uz)、コサ語(xh)、イディッシュ語(yi)、ヨルバ語(yo)、ズールー語(zu)
次のステップ
Gemini API の機能を試す
- マルチターンの会話(チャット)を構築します。
- テキストのみのプロンプトからテキストを生成する。
- マルチモーダル プロンプト(テキスト、画像、PDF、動画、音声など)からテキストを生成します。
- テキストとマルチモーダル プロンプトの両方から構造化出力(JSON など)を生成します。
- 関数呼び出しを使用して、生成モデルを外部システムと情報に接続します。