Kontingente verstehen und verwalten

Für Vertex AI in Firebase sind zwei verschiedene APIs erforderlich (jede mit eigenem Kontingent): die Vertex AI API und die Vertex AI in Firebase API.

Jede dieser APIs hat ein Kontingent, das in Anfragen pro Minute (RPM) gemessen wird. Das gilt insbesondere für Anfragen vom Typ „Inhalte generieren“ (sowohl mit als auch ohne Streaming). Die Vertex AI API hat auch ein Kontingent für Eingabetokens pro Minute.

Auf dieser Seite wird Folgendes beschrieben:

Allgemeine Informationen zu Kontingenten finden Sie in der Google Cloud-Dokumentation.

Kontingente für jede API

Das Kontingent jeder API wird etwas anders gemessen, sodass sie für unterschiedliche Zwecke verwendet werden kann.

Vertex AI API-Kontingente

Die Kontingente der Vertex AI API basieren auf „Inhaltsanfragen generieren“ pro Modell, pro Region und pro Minute.

Hier sind einige wichtige Details zu diesen Kontingenten (insbesondere zu Anfragen pro Minute und Eingabetokens pro Minute):

  • Sie gelten auf Projektebene und werden für alle Anwendungen und IP-Adressen freigegeben, die dieses Firebase-Projekt verwenden.

  • Sie gelten für alle Aufrufe der Vertex AI Gemini API, unabhängig davon, ob die Vertex AI in Firebase-Client-SDKs, die Vertex AI-Server-SDKs, Firebase Genkit, die Gemini-Firebase Extensions, REST-Aufrufe, Vertex AI Studio oder andere API-Clients verwendet werden.

  • Sie gelten für ein Basismodell und alle Versionen, Kennungen und abgestimmten Versionen dieses Modells. Hier sind einige Beispiele:

    • Eine Anfrage an gemini-1.0-pro und eine Anfrage an gemini-1.0-pro-001 werden als zwei Anfragen auf das RPM-Kontingent des Basismodells gemini-1.0 pro angerechnet.

    • Eine Anfrage an gemini-1.0-pro-001 und eine Anfrage an ein abgestimmtes Modell, das auf gemini-1.0-pro-001 basiert, werden als zwei Anfragen auf das RPM-Kontingent des Basismodells gemini-1.0-pro angerechnet.

  • Die Standardkontingente für jedes Modell und jede Region finden Sie in der Google Cloud-Dokumentation.

Sie können die Kontingente dieser API im Grunde als Gesamtkontingente für alle Ihre Nutzer betrachten, die die KI-Funktionen in Ihrer App verwenden, die auf einem bestimmten Modell und in einer bestimmten Region basieren.

Diese Quoten müssen hoch genug sein, um die Gesamtzahl der Endnutzer in einer bestimmten Region abzudecken, die auf Ihre KI-Funktionen zugreifen könnten, die auf einem bestimmten Modell basieren. Da es sich um Kontingente pro Minute handelt, ist es relativ unwahrscheinlich, dass alle Nutzer in einer Region gleichzeitig dieselben Funktionen verwenden und diese Kontingente aufbrauchen. Jede App ist jedoch anders. Passen Sie diese Kontingente daher entsprechend an.

Vertex AI in Firebase API-Kontingent

Das Vertex AI in Firebase API-Kontingent basiert auf „Inhaltsanfragen generieren“ pro Nutzer, Region und Minute.

Hier sind einige wichtige Details zu diesem Kontingent (insbesondere zu Anfragen pro Minute):

  • Sie gilt auf Projektebene und für alle Anwendungen und IP-Adressen, die dieses Firebase-Projekt verwenden.

  • Sie gilt für alle Aufrufe, die speziell über ein Vertex AI in Firebase-SDK erfolgen.

  • Das Standardkontingent beträgt 100 RPM pro Nutzer.
    Beachten Sie, dass Sie die Kontingentlimits für die Vertex AI API beachten müssen, insbesondere wenn sie unter 100 RPM liegen.

Das Kontingent dieser API ist im Grunde Ihr Kontingent „pro Nutzer“ für die KI-Funktionen, die auf Vertex AI in Firebase basieren.

Dieses Kontingent muss hoch genug sein, um einen einzelnen Nutzer zu unterstützen, der auf die KI-Funktionen zugreift, die auf Vertex AI in Firebase basieren. Da diese API als Gateway zur Vertex AI API dient, können Sie mit dem Vertex AI in Firebase API-Kontingent dafür sorgen, dass kein einzelner Nutzer Ihr Vertex AI API-Kontingent aufbraucht, das von allen Ihren Nutzern gemeinsam genutzt werden soll.

Kontingente für jede API aufrufen

Sie können die Kontingente für jede API in der Google Cloud Console aufrufen.

  1. Rufen Sie in der Google Cloud Console die Seite der gewünschten API auf: Vertex AI API oder Vertex AI in Firebase API.

  2. Klicken Sie auf Verwalten.

  3. Klicken Sie weiter unten auf der Seite auf den Tab Kontingente und Seite zu den Systemlimits.

  4. Filtern Sie die Tabelle, um die gewünschten Kontingente zu sehen.

    Wenn Sie einen Dimension-Filter erstellen möchten, müssen Sie das Filtertool verwenden und nicht einfach die Werte in den folgenden Beispielen kopieren und einfügen.

    • Für die Vertex AI API:Geben Sie die Funktion (Anfragen zum Generieren von Inhalten), den Modellnamen und die Region an.

      Wenn Sie beispielsweise die Kontingente für das Generieren von Inhaltsanfragen mit Gemini 1.5 Flash in einer der unterstützten EU-Regionen aufrufen möchten, sieht Ihr Filter so aus:
      Generate content requests + Dimension:base_model:gemini-1.5-flash + Dimension:region:eu

    • Für die Vertex AI in Firebase API:Geben Sie die Funktion (Anfragen zum Generieren von Inhalten) und die Region an.

      Wenn Sie beispielsweise die Kontingente pro Nutzer für das Generieren von Inhaltsanfragen in einer der unterstützten asiatischen Regionen aufrufen möchten, sieht Ihr Filter so aus:
      Generate content requests + Dimension:region:asia

      Die Vertex AI in Firebase API-Kontingente basieren nicht auf einem bestimmten Modell. Außerdem gilt die Zeile „Kontingent für (default)“ nicht für Vertex AI in Firebase.

Kontingent bearbeiten oder Kontingenterhöhung beantragen

Bevor Sie die Produktion starten oder wenn Sie Fehler 429 aufgrund von Kontingentüberschreitungen erhalten, müssen Sie möglicherweise Ihr Kontingent bearbeiten oder eine Kontingenterhöhung beantragen. Passen Sie das Kontingent für jede API entsprechend an. Weitere Informationen finden Sie oben auf dieser Seite unter Kontingente für einzelne APIs.

Wenn Sie ein Kontingent bearbeiten möchten, benötigen Sie die Berechtigung serviceusage.quotas.update. Sie ist standardmäßig in den Rollen „Inhaber“ und „Bearbeiter“ enthalten.

So bearbeiten Sie Ihr Kontingent oder beantragen eine Kontingenterhöhung:

  1. Folgen Sie der Anleitung im vorherigen Abschnitt, um die Kontingente der einzelnen APIs aufzurufen.

  2. Klicken Sie das Kästchen links neben jedem gewünschten Kontingent an.

  3. Klicken Sie am Ende der Zeile mit dem Kontingent auf das Dreipunkt-Menü und wählen Sie Kontingent bearbeiten aus.

  4. Führen Sie im Formular Kontingentänderungen die folgenden Schritte aus:

    1. Geben Sie das erhöhte Kontingent im Feld Neuer Wert ein.

      Dieses Kontingent gilt auf Projektebene und wird von allen Anwendungen und IP-Adressen geteilt, die dieses Firebase-Projekt verwenden.

    2. Füllen Sie die zusätzlichen Felder im Formular aus und klicken Sie dann auf Fertig.

    3. Klicken Sie auf Anfrage senden.