Ratenlimits und Kontingente

Klicken Sie auf Ihren Gemini API-Anbieter, um anbieterspezifische Inhalte und Code auf dieser Seite aufzurufen.


Durch Ratenbeschränkungen (allgemein als Kontingente bezeichnet) wird die Anzahl der Anfragen geregelt, die Sie innerhalb eines bestimmten Zeitraums an Gemini API senden können. Diese Grenzwerte tragen dazu bei, dass die Nutzung fair ist, schützen vor Missbrauch und sorgen dafür, dass die Systemleistung für alle Nutzer aufrechterhalten wird.

Wenn Sie Firebase AI Logic verwenden, um Anfragen an die Modelle Gemini und Imagen zu senden, hängen die Ratenlimits Ihres Projekts vom ausgewählten Gemini API-Anbieter ab. Firebase AI Logic bietet auch die Möglichkeit, Tarifbeschränkungen pro Nutzer festzulegen.

Ratenlimits für die Gemini Developer API ansehen

Wenn Sie Ihr Kontingent überschreiten oder die Kapazität für das Modell, auf das Sie zugreifen, erschöpft ist, erhalten Sie eine Fehlermeldung 429.

So funktionieren Ratenbeschränkungen (Kontingente)

Ratenbegrenzungen (Kontingente) werden anhand von vier Dimensionen gemessen:

  • Anfragen pro Minute (RPM)
  • Anfragen pro Tag (Requests Per Day, RPD)
  • Tokens pro Minute (TPM)
  • Tokens pro Tag (TPD)

Ihre Nutzung wird anhand jedes Limits bewertet. Wenn Sie eines der Limits überschreiten, wird ein Fehler 429 (Kontingent überschritten) ausgelöst. Wenn Ihr RPM-Limit beispielsweise 20 beträgt, führt das Senden von 21 Anfragen innerhalb einer Minute zu einem Fehler, auch wenn Sie Ihr TPM-Limit oder andere Limits nicht überschritten haben.

Ratenbegrenzungen werden auf Projektebene angewendet und gelten für alle Anwendungen und IP-Adressen, die dieses Firebase-Projekt verwenden.

Die Limits variieren je nach verwendetem Modell. Einige Limits gelten nur für bestimmte Modelle. „Bilder pro Minute“ (IPM) wird beispielsweise nur für Modelle berechnet, die Bilder generieren können (Imagen), ist aber konzeptionell ähnlich wie TPM.

Die Ratenbegrenzungen für experimentelle Modelle und Vorschauversionen sind strenger.

Erhöhung des Ratenlimits beantragen

Wenn Sie ein kostenpflichtiges Abo für Gemini Developer API haben, können Sie eine Erhöhung des Ratenlimits beantragen.

Ratenlimits pro Nutzer festlegen

Wenn Sie Firebase AI Logic verwenden möchten, muss der von Ihnen ausgewählte Gemini API-Bereitsteller in Ihrem Projekt aktiviert sein. Außerdem muss die Firebase AI Logic API aktiviert sein, die als Gateway zwischen unseren Client-SDKs und Ihrem Gemini API-Bereitsteller fungiert. Diese API wird für Sie aktiviert, wenn Sie Firebase AI Logic in Ihrem Firebase-Projekt einrichten.

Sie können das Firebase AI Logic-API-Ratenlimit (Kontingent) als Ratenlimit „pro Nutzer“ für Ihre App verwenden, insbesondere für die KI-Funktionen, die auf Firebase AI Logic basieren. Sie sollten dieses Limit festlegen, um einem einzelnen Nutzer, der auf Ihre KI-Funktionen zugreift, angemessen entgegenzukommen und gleichzeitig sicherzustellen, dass kein einzelner Nutzer die Limits Ihres Gemini API-Anbieters überschreitet (die für alle Ihre Nutzer gelten).

Details zum Ratenlimit „pro Nutzer“

Hier sind einige wichtige Details zu den Ratenlimits (Kontingenten) der Firebase AI Logic API, insbesondere zu Anfragen pro Minute (RPM):

  • Sie basiert auf „Anfragen zum Generieren von Inhalten“ pro Nutzer, Region und Minute und nicht auf dem Modell.

  • Es ist das Ratenlimit, das auf alle Ihre Nutzer angewendet wird. Derzeit ist es nicht möglich, das Ratenlimit für einen bestimmten Nutzer oder eine bestimmte Nutzergruppe* festzulegen.

  • Sie gilt auf Projektebene und für alle Anwendungen und IP-Adressen, die dieses Firebase-Projekt verwenden.

  • Sie gilt für jeden Aufruf, der speziell vom Firebase AI Logic-SDK stammt.

  • Die standardmäßige Ratenbegrenzung beträgt 100 RPM pro Nutzer.
    Beachten Sie, dass Sie weiterhin die Limits für Ihren Gemini API-Anbieter (siehe oben) berücksichtigen müssen, die Vorrang vor der Firebase AI Logic-API haben.

* Wenn Sie Vertex AI Gemini API verwenden und Ihre App Nutzer in verschiedene Regionen weiterleitet (z. B. mit Firebase Remote Config), können Sie ein bestimmtes Ratenlimit für Nutzer in einer bestimmten Region festlegen.

Ratenlimit „pro Nutzer“ anpassen

Wenn Sie ein Ratenlimit (Kontingent) anpassen möchten, benötigen Sie die Berechtigung serviceusage.quotas.update, die standardmäßig in den Rollen „Inhaber“ und „Bearbeiter“ enthalten ist.

So bearbeiten Sie Ihr Ratenlimit (Kontingent) oder beantragen eine Erhöhung:

  1. Rufen Sie in der Google Cloud Console die Seite für die Firebase AI Logic API auf.

  2. Klicken Sie auf Verwalten.

  3. Klicken Sie weiter unten auf der Seite auf den Tab Kontingente und Systemlimits.

  4. Filtern Sie die Tabelle, um die gewünschten Kontingente aufzurufen, z. B. die Funktion (Anfragen zum Generieren von Inhalten) und die Region.

    Wenn Sie beispielsweise die Kontingente pro Nutzer für das Generieren von Inhaltsanfragen in einer der unterstützten asiatischen Regionen aufrufen möchten, sieht Ihr Filter so aus: Generate content requests + Dimension:region:asia

  5. Klicken Sie das Kästchen links neben jedem gewünschten Kontingent an.

  6. Klicken Sie am Ende der Zeile mit dem Kontingent auf  und wählen Sie Kontingent bearbeiten aus.

  7. Führen Sie im Formular Kontingentänderungen die folgenden Schritte aus:

    1. Geben Sie das erhöhte Kontingent in das Feld Neuer Wert ein.

      Dieses Kontingent gilt auf Projektebene und wird von allen Anwendungen und IP-Adressen geteilt, die dieses Firebase-Projekt verwenden.

    2. Füllen Sie die zusätzlichen Felder im Formular aus und klicken Sie dann auf Fertig.

    3. Klicken Sie auf Anfrage senden.