Informacje o limitach i zarządzanie nimi

Vertex AI in Firebase wymaga 2 różnych interfejsów API (każdy z własną pulą): interfejsu Vertex AI i interfejsu Vertex AI in Firebase.

Każde z tych interfejsów API ma limit mierzony jako liczba żądań na minutę (RPM) – w szczególności żądania „generowania treści” (zarówno strumieniowe, jak i bez strumieniowego). Interfejs API Vertex AI ma też limit tokenów wejściowych na minutę.

Na tej stronie znajdziesz informacje na te tematy:

Ogólne informacje o limitach znajdziesz w dokumentacji Google Cloud.

Limity dla poszczególnych interfejsów API

Limity poszczególnych interfejsów API są mierzone nieco inaczej, co oznacza, że można ich używać do różnych celów.

Informacje o limitach interfejsu API Vertex AI

Limity Vertex AI interfejsu API są określane na podstawie liczby żądań „generowania treści” na model i region na minutę.

Oto kilka ważnych informacji o tych limitach (dotyczących w szczególności liczby żądań na minutę i liczby tokenów wejściowych na minutę):

  • Są one stosowane na poziomie projektu i udostępniane wszystkim aplikacjom oraz adresom IP, które korzystają z tego projektu Firebase.

  • Dotyczą one każdego wywołania Vertex AI Gemini API, niezależnie od tego, czy korzystasz z pakietów SDK klienta Vertex AI in Firebase, pakietów SDK serwera Vertex AI, usługi Firebase Genkit, Gemini Firebase Extensions, wywołań REST Vertex AI Studio czy innych klientów interfejsu API.

  • Dotyczą one modelu podstawowego oraz wszystkich wersji, identyfikatorów i wersji dostrojonych tego modelu. Oto przykłady:

    • Żądanie gemini-1.0-pro i żądanie gemini-1.0-pro-001 są liczone jako 2 żądania w ramach limitu RPM modelu podstawowego gemini-1.0 pro.

    • Żądanie do gemini-1.0-pro-001 i żądanie do dostrojonego modelu opartego na gemini-1.0-pro-001 są liczone jako 2 żądania w ramach limitu RPM modelu podstawowego gemini-1.0-pro.

  • Domyślne limity dla każdego modelu i każdego regionu znajdziesz w dokumentacji Google Cloud.

Możesz uznać, że limity tego interfejsu API są „łącznymi” limitami dla wszystkich użytkowników (którzy korzystają z funkcji AI w Twojej aplikacji i korzystają z określonego modelu w określonym regionie).

Te limity muszą być wystarczająco wysokie, aby uwzględnić łączną liczbę użytkowników w danym regionie, którzy mogą korzystać z funkcji AI korzystających z określonego modelu. Ponieważ są to limity na minutę, jest mało prawdopodobne, że wszyscy użytkownicy w danym regionie będą korzystać z tych samych funkcji w tym samym czasie i wyczerpią te limity. Pamiętaj jednak, że każda aplikacja jest inna, więc dostosuj te limity odpowiednio do jej specyfiki.

Informacje o limitach interfejsu API Vertex AI in Firebase

Limit Vertex AI in Firebase interfejsu API jest określany na podstawie „żądań generowania treści” na użytkownika i region w ciągu minuty.

Oto kilka ważnych informacji o tej kwocie (w szczególności o liczbach żądań na minutę):

  • Ma on zastosowanie na poziomie projektu i dotyczy wszystkich aplikacji oraz adresów IP, które korzystają z tego projektu Firebase.

  • Dotyczy to każdego wywołania, które przechodzi przez dowolny pakiet Vertex AI in Firebase SDK.

  • Domyślny limit to 100 RPM na użytkownika.
    Pamiętaj, że musisz też wziąć pod uwagę limity dotyczące puli adresów IP interfejsu API Vertex AI, zwłaszcza jeśli są one niższe niż 100 RPM.

Możesz uznać, że limit tego interfejsu API jest „na użytkownika” w przypadku funkcji AI, które korzystają z Vertex AI in Firebase.

Ta kwota musi być wystarczająco wysoka, aby umożliwić jednemu użytkownikowi korzystanie z funkcji AI, które korzystają z Vertex AI in Firebase. Ponieważ ten interfejs API działa jako brama do interfejsu Vertex AI API, możesz użyć limitu interfejsu Vertex AI API, aby zapewnić, że żaden użytkownik nie przekroczy limitu interfejsu Vertex AI API (który jest przeznaczony do współdzielenia przez wszystkich użytkowników).Vertex AI in Firebase

Wyświetlanie limitów poszczególnych interfejsów API

Limity dotyczące poszczególnych interfejsów API możesz sprawdzić w konsoli Google Cloud.

  1. W konsoli Google Cloud otwórz stronę interesującego Cię interfejsu API: Vertex AI API lub Vertex AI in Firebase API.

  2. Kliknij Zarządzaj.

  3. W dolnej części strony kliknij kartę Limity przydziału i limity systemu.

  4. Przefiltruj tabelę, aby wyświetlić interesujące Cię limity.

    Pamiętaj, że aby utworzyć filtr Dimension, musisz użyć narzędzia do filtrowania, a nie po prostu skopiować i wkleić wartości z podanych niżej przykładów.

    • W przypadku API Vertex AI: określ możliwości (żądania generowania treści), nazwę modelu i region.

      Aby na przykład wyświetlić limity generowania próśb o treści za pomocą Gemini 1.5 Flash w dowolnym obsługiwanym regionie UE, filtr będzie wyglądał tak:
      Generate content requests + Dimension:base_model:gemini-1.5-flash + Dimension:region:eu

    • W przypadku interfejsu API Vertex AI in Firebase: określ możliwości (żądania generowania treści) i region.

      Jeśli na przykład chcesz wyświetlić limity na użytkownika dotyczące generowania próśb o treści w dowolnym z obsługiwanych regionów azjatyckich, Twój filtr będzie wyglądać tak:
      Generate content requests + Dimension:region:asia

      Pamiętaj, że limity interfejsu API Vertex AI in Firebase nie zależą od konkretnego modelu. Ponadto wiersz limitu (default) nie dotyczy Vertex AI in Firebase.

Edytowanie limitu lub prośba o jego zwiększenie

Zanim przejdziesz do wersji produkcyjnej lub jeśli widzisz błąd 429 z powodu przekroczenia limitu, możesz potrzebować zmodyfikować limit lub poprosić o jego zwiększenie. Dostosuj limity każdego interfejsu API (więcej informacji znajdziesz w sekcji Zrozumienie limitów poszczególnych interfejsów API na tej stronie).

Aby edytować limit, musisz mieć uprawnienie serviceusage.quotas.update, które jest domyślnie zawarte w roli Właściciel i Edytujący.

Aby edytować limit lub poprosić o jego zwiększenie:

  1. Aby wyświetlić limity poszczególnych interfejsów API, wykonaj czynności opisane w poprzednim podrozdziale.

  2. Zaznacz pole wyboru po lewej stronie każdego limitu, który Cię interesuje.

  3. Na końcu wiersza dotyczącego limitu kliknij menu z 3 kropkami, a następnie wybierz Edytuj limit.

  4. W formularzu Zmiany limitów:

    1. W polu Nowa wartość wpisz zwiększony limit.

      Ta pula jest stosowana na poziomie projektu i jest udostępniana wszystkim aplikacjom i adresom IP, które korzystają z tego projektu Firebase.

    2. Wypełnij wszelkie dodatkowe pola w formularzu i kliknij Gotowe.

    3. Kliknij Prześlij wniosek.