Vertex AI in Firebase には、Vertex AI API と Vertex AI in Firebase API の 2 つの異なる API(それぞれ独自の割り当て)が必要です。
これらの API には、分あたりのリクエスト数(RPM)で測定される割り当てがあります。具体的には、「コンテンツの生成」リクエスト(ストリーミングありとストリーミングなしの両方)です。Vertex AI API には、1 分あたりの入力トークンの割り当ても設定されています。
このページでは、次について説明します。
Vertex AI API と Vertex AI in Firebase API の割り当てについて
Google Cloud コンソールで割り当てを表示する
割り当てと Google Cloud の一般的な情報については、Cloud Quotas のドキュメントをご覧ください。
モデルとリージョンごとの割り当て
各モデルとリージョンの詳細な割り当てについては、Google Cloud のドキュメントをご覧ください。
各 API の割り当てについて
各 API の割り当ては測定方法が若干異なるため、さまざまな目的に使用できます。
Vertex AI API の割り当てについて
Vertex AI API の割り当ては、モデルごと、リージョンごと、1 分あたりの「コンテンツ リクエストの生成」に基づいています。
これらの割り当て(特に 1 分あたりのリクエスト数と 1 分あたりの入力トークン数)に関する重要な詳細は次のとおりです。
これらはプロジェクト レベルで適用され、その Firebase プロジェクトを使用するすべてのアプリケーションと IP アドレスで共有されます。
Vertex AI in Firebase クライアント SDK、Vertex AI サーバー SDK、Firebase Genkit、Gemini Firebase Extensions、REST 呼び出し、Vertex AI Studio、その他の API クライアントのいずれを使用しても、Vertex AI Gemini API へのすべての呼び出しに適用されます。
これらは、ベースモデルと、そのモデルのすべてのバージョン、識別子、チューニング済みバージョンに適用されます。次に例を示します。
gemini-1.0-pro
へのリクエストとgemini-1.0-pro-001
へのリクエストは、ベースモデルgemini-1.0 pro
の RPM の割り当てに対する 2 つのリクエストとしてカウントされます。gemini-1.0-pro-001
へのリクエストと、gemini-1.0-pro-001
に基づくチューニング済みモデルへのリクエストは、ベースモデルgemini-1.0-pro
の RPM の割り当てに対する 2 つのリクエストとしてカウントされます。
各モデルと各リージョンのデフォルトの割り当ては、Google Cloud のドキュメントをご覧ください。
これらの割り当ては、特定のモデルに依存する AI 機能にアクセスする可能性のある特定のリージョンのエンドユーザーの合計数を合理的に収容できるほど高くする必要があります。これは 1 分あたりの割り当てであるため、1 つのリージョン内のすべてのユーザーが同じ一連の機能を同時に使用して、これらの割り当てを使い果たす可能性は比較的低くなります。ただし、アプリによって異なるため、必要に応じてこれらの割り当てを調整してください。
Vertex AI in Firebase API の割り当てについて
Vertex AI in Firebase API の割り当ては、ユーザーごと、リージョンごと、1 分あたりの「コンテンツ生成リクエスト」に基づいています。
この割り当て(特に 1 分あたりのリクエスト数)に関する重要な詳細は次のとおりです。
これはプロジェクト レベルで適用され、その Firebase プロジェクトを使用するすべてのアプリケーションと IP アドレスに適用されます。
これは、Vertex AI in Firebase SDK を経由する呼び出しに適用されます。
デフォルトの割り当ては、ユーザーあたり 100 RPM です。
ただし、特にこの 100 RPM より低い場合は、Vertex AI API の割り当て上限を考慮する必要があります。
この割り当ては、Vertex AI in Firebase に依存する AI 機能にアクセスする 1 人のユーザーを合理的に収容できるほど高くする必要があります。この API は Vertex AI API へのゲートウェイとして機能するため、Vertex AI in Firebase API の割り当てを使用して、単一のユーザーが Vertex AI API の割り当て(すべてのユーザーが共有することを目的としています)を使い果たさないようにすることができます。
各 API の割り当てを表示する
各 API の割り当ては、Google Cloud コンソールで確認できます。
Google Cloud コンソールで、目的の API(Vertex AI API または Vertex AI in Firebase API)のページに移動します。
[管理] をクリックします。
ページの下部にある [割り当てとシステム上限] タブをクリックします。
テーブルをフィルタして、目的の割り当てを表示します。
Dimension
フィルタを作成するには、次の例の値をコピーして貼り付けるのではなく、フィルタ ツールを使用する必要があります。Vertex AI API の場合: 機能(コンテンツ生成リクエスト)、モデル名、リージョンを指定します。
たとえば、サポートされている EU のいずれかのリージョンで Gemini 2.0 Flash を使用してコンテンツ リクエストを生成する割り当てを表示するには、フィルタは次のようになります。
Generate content requests
+Dimension:base_model:gemini-2.0-flash
+Dimension:region:eu
Vertex AI in Firebase API の場合: 機能(コンテンツの生成リクエスト)とリージョンを指定します。
たとえば、サポートされているアジアのいずれかのリージョンでコンテンツ リクエストを生成するユーザーごとの割り当てを表示するには、フィルタは次のようになります。
Generate content requests
+Dimension:region:asia
Vertex AI in Firebase API の割り当ては特定のモデルに基づいていません。また、
(default)
の割り当て行は Vertex AI in Firebase には適用されません。
割り当てを編集する、または割り当ての増加をリクエストする
本番環境に移行する前や、429 割り当て超過エラーが発生している場合は、割り当てを編集するか、割り当ての増加をリクエストする必要があります。各 API の割り当てを適切に調整してください(考慮事項については、このページの各 API の割り当てについてをご覧ください)。
割り当てを編集するには、serviceusage.quotas.update
権限が必要です。この権限は、オーナーロールと編集者ロールにデフォルトで含まれています。
割り当てを編集する方法、または割り当ての増加をリクエストする方法は次のとおりです。
前のセクションの手順に沿って、各 API の割り当てを表示します。
対象の各割り当ての左側にあるチェックボックスをオンにします。
割り当ての行の末尾にあるその他メニューをクリックし、[割り当てを編集] を選択します。
[割り当ての変更] フォームで、次の操作を行います。
[新しい値] フィールドに、増加させた割り当てを入力します。
この割り当てはプロジェクト レベルで適用され、その Firebase プロジェクトを使用するすべてのアプリケーションと IP アドレスで共有されます。
フォームのその他のフィールドに入力して、[完了] をクリックします。
[リクエストを送信] をクリックします。