Gemini ファミリーのモデルは、次の機能を備えているため、マルチモーダルとみなされます。 画像、動画、画像、音声などの複数のモダリティからの情報を 生成します。たとえば、1 枚の紙皿の写真を Gemini モデルに送信できます。 そのレシピを教えてくれます
プロンプト | レスポンス |
このクッキーのレシピを教えてください。 |
**材料** - 1 c. (2 本のスティック)柔らかい無塩バター - 3/4 c. グラニュー糖 - 3/4 c. パック詰めされたブラウン シュガー - 1 tsp . バニラ エッセンス - 卵(大)2 個 - 2 1/4 c.汎用小麦粉 - 小さじ 1 杯重曹 - 小さじ 1 杯ソルト ... |
Gemini ファミリーのモデルを操作するには、 Gemini API 提供元: Vertex AI (Google Cloud)モバイルアプリとウェブアプリの場合、 Gemini API を呼び出して操作する Vertex AI in Firebase SDK アプリから直接 Gemini モデルを作成できます。
このページでは、Gemini モデルに関する次の情報を提供します。
さまざまな Gemini のユースケースの概要比較 サポートされている入力タイプなど)です。
各モデルの詳細の比較など 最大入力トークン数または動画の長さの上限を指定します。
Gemini モデルのバージョニングの具体的な説明 安定バージョン、自動更新バージョン、プレビュー版の各バージョンです。
以下に含める使用可能なモデル名のリスト 呼び出されることがあります。
Gemini モデルでサポートされている言語のリスト。
使用可能なモデル
Vertex AI in Firebase では、次のいずれかの Gemini モデルを使用できます。
Gemini 1.5 Flash
同じ入力と出力をサポートするマルチモーダル モデル 1.5 Pro と同等ですが、100 万トークンという長いコンテキストの理解が必要です。 Gemini 1.5 Flash は、大容量でコスト効率に優れた設計 説明します。Gemini 1.5 Pro
画像、音声、動画、音声の追加をサポートするマルチモーダル モデル テキストまたはコード レスポンス用のテキスト プロンプトまたはチャット プロンプトの PDF ファイル。 また、200 万個のトークンを使用した長いコンテキストの理解もサポートしています。Gemini 1.0 Pro Vision
テキストに加えてマルチモーダル モデルを扱うために テキストまたはコードによるレスポンスの場合ですチャットには使用できません。Gemini 1.0 Pro
自然言語タスク、マルチターン タスクを処理するために設計されたモデル テキストやコードによるチャット、コード生成です。
各モデルのユースケースと機能
Gemini モデルごとに、さまざまなユースケースをサポートするさまざまな機能があります。 それぞれの詳細は、Google Cloud のドキュメントで確認できます。 Gemini モデル。
各モデルでサポートされている入力と出力
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
入力値の型 | ||||
テキスト | ||||
コード | ||||
画像 | ||||
動画(フレームのみ) | ||||
動画(フレームと音声) | ||||
音声 | ||||
出力タイプ | ||||
テキスト | ||||
コード |
サポートされているファイル形式については、以下をご覧ください。 Vertex AI Gemini API でサポートされている入力ファイルと要件。
各モデルでサポートされている機能と一般的な機能
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
テキストのみのプロンプトからのテキスト生成 | |||||
マルチモーダル プロンプトからのテキスト生成 | |||||
JSON 出力(制約付きスキーマモード) (Vertex AI in Firebase SDK で近日提供予定) |
|||||
マルチターン チャット | |||||
関数呼び出し | |||||
基本的な関数呼び出し | |||||
並列関数呼び出し | |||||
関数呼び出しモード | |||||
トークンと課金対象文字数をカウントする | |||||
システム指示 |
各モデルの詳細情報
プロパティ | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
合計トークンの上限(入力と出力の組み合わせ)* | 1,048,576 トークン | 2,097,152 トークン | 16,384 トークン | 32,760 トークン |
出力トークンの上限 * | 8,192 トークン | 8,192 トークン | 2,048 トークン | 8,192 トークン |
リクエストごとの画像の最大数 | 3,000 枚の画像 | 3,000 枚の画像 | 16 枚 | なし |
base64 エンコード画像の最大サイズ | 7 MB | 7 MB | 7 MB | なし |
PDF の最大サイズ | 30 MB | 30 MB | 30 MB | なし |
リクエストごとの動画ファイルの最大数 | 10 個の動画ファイル | 10 個の動画ファイル | 1 個の動画ファイル | なし |
動画の最大長(フレームのみ) | 約 60 分の動画 | 約 60 分の動画 | 2 分 | なし |
動画の最大長(フレームと音声) | 約 45 分の動画 | 約 45 分の動画 | なし | なし |
リクエストごとの音声ファイルの最大数 | 1 個の音声ファイル | 1 個の音声ファイル | なし | なし |
音声の最大長 | 最大 8.4 時間の音声 | 最大 8.4 時間の音声 | なし | なし |
* すべての Gemini モデルで、1 トークンは約 4 文字に相当します。
100 個のトークンは約 60 ~ 80 語に相当します。「新規顧客の獲得」目標を
トークンのリストを返します。
countTokens
。
ここでは、モデルやデータ アナリスト、モデル、 入力ファイルの例を以下に示します。
詳しくは、 Google Cloud ドキュメントのマルチモーダル モデルの違いをご覧ください。
サポートされているファイル形式、MIME タイプの指定方法、MIME タイプの作成方法について説明します。 ファイルとマルチモーダル リクエストが要件を満たしていることを確認し、 ベスト プラクティスを Vertex AI Gemini API でサポートされている入力ファイルと要件。
モデルのバージョニング
Gemini モデルには、安定版、自動更新、プレビュー版の 2 種類があります。 あります。
安定版は一般提供と見なされます。
- 安定版には、モデル名に
例: 特定の 3 桁のバージョン番号。
。gemini-1.0-pro-001
- 安定版には、モデル名に
例: 特定の 3 桁のバージョン番号。
自動更新バージョンは常に、最新の安定版バージョンを指します モデルです。新しい安定バージョンがリリースされると、自動更新バージョン 自動的に新しい安定版が参照されるようになります。
- 自動更新バージョンにはモデル名が付いており、
たとえば
。gemini-1.0-pro
- 自動更新バージョンにはモデル名が付いており、
たとえば
プレビュー版のバージョンには新しい機能が含まれており、安定版ではないと見なされます。 プレビュー版は常に、最新のプレビュー版バージョンを指します。 モデルです。新しいプレビュー版がリリースされた場合、既存のプレビュー版が その新しいプレビュー版が参照されるようになります。
- プレビュー版では、モデル名に
とモデルの初回リリース 日付(-preview
)。例:-MMDD
(2024 年 4 月 9 日リリース)。gemini-1.5-pro-preview-0409
- プレビュー版では、モデル名に
詳しくは、 利用可能な Gemini モデル バージョンとそのライフサイクル Google Cloud ドキュメントをご覧ください。
使用可能なモデル名
モデル名とは、デプロイ中にコード内に含める明示的な値です。 生成モデルの初期化(これは Gemini API)。お使いの言語の初期化の例については、 スタートガイドをご覧ください。
Gemini 1.5 Flash モデル名
モデル名 | 説明 | リリース ステージ | 初回リリース日 | 廃止日 |
---|---|---|---|---|
安定版 | ||||
gemini-1.5-flash-001 |
Gemini 1.5 Flash の最新の安定版 | 一般提供 | 2024-05-24 | 2025 年 5 月 24 日以降 |
自動更新バージョン | ||||
gemini-1.5-flash |
1.5 Flash の最新の安定版を参照します (現在 gemini-1.5-flash-001 |
一般提供 | 2024-05-24 | --- |
プレビュー版 | ||||
gemini-1.5-flash-preview-0514 |
Gemini 1.5 Flash の最新プレビュー版 | 公開プレビュー版 | 2024-05-14 | 2024-06-24 |
Gemini 1.5 Pro のモデル名
モデル名 | 説明 | リリース ステージ | 初回リリース日 | 廃止日 |
---|---|---|---|---|
安定版 | ||||
gemini-1.5-pro-001 |
Gemini 1.5 Pro の最新の安定版 | 一般提供 | 2024-05-24 | 2025 年 5 月 24 日以降 |
自動更新バージョン | ||||
gemini-1.5-pro |
1.5 Pro の最新の安定版を参照します (現在 gemini-1.5-pro-001 |
一般提供 | 2024-05-24 | --- |
プレビュー版 | ||||
gemini-1.5-pro-preview-0514 |
Gemini 1.5 Pro の最新プレビュー版 | 公開プレビュー版 | 2024-05-14 | 2024-06-24 |
gemini-1.5-pro-preview-0409 |
gemini-1.5-pro-preview-0514 (最新のプレビュー版) |
公開プレビュー版 | 2024-04-09 | 2024-06-14 |
Gemini 1.0 Pro Vision のモデル名
モデル名 | 説明 | リリース ステージ | 初回リリース日 | 廃止日 |
---|---|---|---|---|
安定版 | ||||
gemini-1.0-pro-vision-001 |
Gemini 1.0 Pro Vision の最新の安定版 | 一般提供 | 2024-02-15 | 2025 年 2 月 15 日以降 |
自動更新バージョン | ||||
gemini-1.0-pro-vision |
1.5 Pro Vision の最新の安定版を参照します (現在 gemini-1.5-pro-vision-001 |
一般提供 | 2024-01-04 | --- |
Gemini 1.0 Pro のモデル名
モデル名 | 説明 | リリース ステージ | 初回リリース日 | 廃止日 |
---|---|---|---|---|
安定版 | ||||
gemini-1.0-pro-002 |
Gemini 1.0 Pro の最新の安定版 | 一般提供 | 2024-04-09 | 2025 年 4 月 9 日以降 |
gemini-1.0-pro-001 |
Gemini 1.0 Pro の安定版 | 一般提供 | 2024-02-15 | 2025 年 2 月 15 日以降 |
自動更新バージョン | ||||
gemini-1.0-pro |
1.0 Pro の最新の安定版を参照します (現在 gemini-1.0-pro-002 |
一般提供 | 2024-02-15 | --- |
サポートされている言語
すべての Gemini モデルは、入力 対応言語:
アラビア語(ar)、ベンガル語(bn)、ブルガリア語(bg)、 中国語(簡体および繁体)(zh)、クロアチア語(hr)、チェコ語(cs)、 デンマーク語(da)、オランダ語(nl)、英語(en)、エストニア語(et)、フィンランド語(fi)、 フランス語(フランス語)、ドイツ語(de)、ギリシャ語(el)、ヘブライ語(iw)、ヒンディー語(hi)、ハンガリー語(hu)、 インドネシア語(id)、イタリア語(it)、日本語(ja)、韓国語(ko)、ラトビア語(lv)、 リトアニア語(lt)、ノルウェー語(no)、ポーランド語(pl)、ポルトガル語(pt)、ルーマニア語(ro)、 ロシア語(ru)、セルビア語(sr)、スロバキア語(sk)、スロベニア語(sl)、スペイン語(es)、 スワヒリ語(sw)、スウェーデン語(sv)、タイ語(th)、トルコ語(tr)、ウクライナ語(uk)、 ベトナム語(vi)
Gemini 1.5 Pro と Gemini 1.5 Flash モデルは、次の追加言語で理解して応答できます。
アフリカーンス語(af)、アムハラ語(am)、アッサム語(as)、アゼルバイジャン語(az)、 ベラルーシ語(be)、ボスニア語(bs)、カタルーニャ語(ca)、セブアノ語(ceb)、コルシカ語(co)、 ウェールズ語(cy)、ディヴェヒ語(dv)、エスペラント語(eo)、バスク語(eu)、ペルシャ語(fa)、 フィリピン語(タガログ語)(fil)、フリジア語(fy)、アイルランド語(ga)、スコットランド ゲール語(gd)、 ガリシア語(gl)、グジャラート語(gu)、ハウサ語(ha)、ハワイ語(haw)、モン語(hmn)、 ハイチ語(ht)、アルメニア語(hy)、イボ語(ig)、アイスランド語(is)、ジャワ語(jv)、 ジョージア語(ka)、カザフ語(kk)、クメール語(km)、カンナダ語(kn)、Krio(kri)、 クルド語(ku)、キルギス語(ky)、ラテン語(la)、ルクセンブルク語(lb)、ラオ語(lo)、 マラガシ語(mg)、マオリ語(mi)、マケドニア語(mk)、マラヤーラム語(ml)、モンゴル語(mn)、 メイテイロン(マニプリ)(mni-Mtei)、マラーティー語(mr)、マレー語(ms)、マルタ語(mt)、 ミャンマー語(ビルマ語)(my)、ネパール語(ne)、ニャンジャ語(チェワ語)(ny)、 オディア語(Oriya)(または)、パンジャブ語(pa)、パシュトー語(ps)、シンド語(sd)、 シンハラ語(シンハラ語)(si)、サモア語(sm)、ショナ語(sn)、ソマリ語(so)、アルバニア語(sq)、 ソト語(st)、スンダ語(su)、タミル語(ta)、テルグ語(te)、タジク語(tg)、 ウイグル語(ug)、ウルドゥー語(ur)、ウズベク語(uz)、コーサ語(xh)、イディッシュ語(yi)、ヨルバ語(yo) ズールー語(zu)
次のステップ
Gemini API の機能を試す
- マルチターンの会話(チャット)を構築する。
- テキストの生成元 テキストのみのプロンプト:
- テキストの生成元 マルチモーダル プロンプト (テキスト、画像、PDF、動画、音声を含む)。
- 関数呼び出しを使用して接続する 生成モデルを外部のシステムや情報にエクスポートできます。