Vertex AI in Firebase wymaga 2 różnych interfejsów API (każdy z własną pulą): interfejsu Vertex AI i interfejsu Vertex AI in Firebase.
Każde z tych interfejsów API ma limit mierzony jako liczba żądań na minutę (RPM) – w szczególności żądania „generowania treści” (zarówno strumieniowe, jak i bez strumieniowego). Interfejs API Vertex AI ma też limit tokenów wejściowych na minutę.
Na tej stronie znajdziesz informacje na te tematy:
Informacje o limitach interfejsów API Vertex AI i Vertex AI in Firebase
Wyświetlanie limitów w konsoli Google Cloud
Ogólne informacje o limitach znajdziesz w dokumentacji Google Cloud.
Limity dla poszczególnych interfejsów API
Każdy interfejs API jest mierzony nieco inaczej, co oznacza, że można go używać do różnych celów.
Informacje o limitach interfejsu API Vertex AI
Limity Vertex AI interfejsu API są określane na podstawie liczby żądań „generowania treści” na model i region na minutę.
Oto kilka ważnych informacji o tych limitach (dotyczących w szczególności liczby żądań na minutę i liczby tokenów wejściowych na minutę):
Są one stosowane na poziomie projektu i udostępniane wszystkim aplikacjom oraz adresom IP, które korzystają z tego projektu Firebase.
Dotyczą one każdego wywołania Vertex AI Gemini API, niezależnie od tego, czy korzystasz z pakietów SDK klienta Vertex AI in Firebase, pakietów SDK serwera Vertex AI, usługi Firebase Genkit, Gemini Firebase Extensions, wywołań REST Vertex AI Studio czy innych klientów interfejsu API.
Dotyczą one modelu podstawowego oraz wszystkich wersji, identyfikatorów i wersji dostrojonych tego modelu. Oto przykłady:
Żądania skierowane do
gemini-1.0-pro
igemini-1.0-pro-001
są liczone jako 2 żądania w ramach limitu RPM modelu podstawowegogemini-1.0 pro
.Żądanie do
gemini-1.0-pro-001
i żądanie do dostrojonego modelu opartego nagemini-1.0-pro-001
są liczone jako 2 żądania w ramach limitu RPM modelu podstawowegogemini-1.0-pro
.
Domyślne limity dla każdego modelu i każdego regionu znajdziesz w dokumentacji Google Cloud.
Możesz uznać, że limity tego interfejsu API są „łącznymi” limitami dla wszystkich użytkowników (którzy korzystają z funkcji AI w aplikacji i korzystają z określonego modelu w określonym regionie).
Te limity muszą być wystarczająco wysokie, aby uwzględnić łączną liczbę użytkowników w danym regionie, którzy mogą korzystać z funkcji AI korzystających z określonego modelu. Ponieważ są to limity na minutę, mało prawdopodobne jest, że wszyscy użytkownicy w danym regionie będą korzystać z tych samych funkcji w tym samym czasie i wyczerpią te limity. Każda aplikacja jest inna, więc odpowiednio dostosuj limity.
Informacje o limitach interfejsu API Vertex AI in Firebase
Limit Vertex AI in Firebase interfejsu API jest określany na podstawie „żądań generowania treści” na użytkownika i region w ciągu minuty.
Oto kilka ważnych informacji na temat tego limitu (zwłaszcza żądań na minutę):
Obowiązuje na poziomie projektu i ma zastosowanie do wszystkich aplikacji i adresów IP, które korzystają z tego projektu Firebase.
Dotyczy to każdego wywołania, które przechodzi przez dowolny pakiet SDK Vertex AI in Firebase.
Domyślny limit to 100 RPM na użytkownika.
Pamiętaj, że musisz też wziąć pod uwagę limity dotyczące puli adresów IP interfejsu Vertex AI API, zwłaszcza jeśli są one niższe niż 100 RPM.
Możesz uznać, że limit tego interfejsu API jest „na użytkownika” w przypadku funkcji AI, które korzystają z Vertex AI in Firebase.
Ta kwota musi być wystarczająco wysoka, aby umożliwić jednemu użytkownikowi korzystanie z funkcji AI, które korzystają z Vertex AI in Firebase. Ten interfejs API działa jak brama do interfejsu API Vertex AI, dlatego możesz wykorzystać limit interfejsu API Vertex AI in Firebase, aby mieć pewność, że żaden użytkownik nie wykorzysta Twojego limitu interfejsu API Vertex AI (który powinien być współużytkowany przez wszystkich użytkowników).
Wyświetlanie limitów poszczególnych interfejsów API
Limity dotyczące poszczególnych interfejsów API możesz sprawdzić w konsoli Google Cloud.
W konsoli Google Cloud otwórz stronę interesującego Cię interfejsu API: Vertex AI API lub Vertex AI in Firebase API.
Kliknij Zarządzaj.
Dalej na stronie kliknij kartę Limity przydziału i limity systemu.
Przefiltruj tabelę, aby wyświetlić interesujące Cię limity.
Pamiętaj, że aby utworzyć filtr
Dimension
, musisz użyć narzędzia do filtrowania, a nie po prostu skopiować i wkleić wartości z podanych niżej przykładów.W przypadku interfejsu API Vertex AI: określ możliwości (żądania generowania treści), nazwę modelu i region.
Aby na przykład wyświetlić limity generowania próśb o treści za pomocą Gemini 1.5 Flash w dowolnym obsługiwanym regionie UE, filtr będzie wyglądał tak:
Generate content requests
+Dimension:base_model:gemini-1.5-flash
+Dimension:region:eu
W przypadku interfejsu API Vertex AI in Firebase: określ możliwości (żądania generowania treści) i region.
Jeśli na przykład chcesz wyświetlić limity na użytkownika dotyczące generowania próśb o treści w dowolnym z obsługiwanych regionów azjatyckich, Twój filtr będzie wyglądać tak:
Generate content requests
+Dimension:region:asia
Pamiętaj, że limity interfejsu API Vertex AI in Firebase nie zależą od konkretnego modelu. Poza tym wiersz limitu
(default)
nie dotyczy Vertex AI in Firebase.
Edytuj limit lub poproś o jego zwiększenie
Zanim przejdziesz do środowiska produkcyjnego lub zobaczysz 429 błędów związanych z przekroczeniem limitu, konieczne może być zmodyfikowanie limitu lub przesłanie prośby o jego zwiększenie. Dostosuj limity każdego interfejsu API (więcej informacji znajdziesz w sekcji Zrozumienie limitów poszczególnych interfejsów API na tej stronie).
Aby edytować limit, musisz mieć uprawnienie serviceusage.quotas.update
, które domyślnie jest przyznawane w roli Właściciel i Edytujący.
Aby edytować limit lub poprosić o jego zwiększenie:
Aby wyświetlić limity poszczególnych interfejsów API, wykonaj czynności opisane w poprzednim podrozdziale.
Zaznacz pole wyboru po lewej stronie każdego limitu, który Cię interesuje.
Na końcu wiersza dotyczącego limitu kliknij menu z 3 kropkami, a następnie wybierz Edytuj limit.
W formularzu Zmiany limitu wykonaj te czynności:
W polu Nowa wartość wpisz zwiększony limit.
Limit ten obowiązuje na poziomie projektu i jest współdzielony przez wszystkie aplikacje i adresy IP, które korzystają z tego projektu Firebase.
Wypełnij wszelkie dodatkowe pola w formularzu i kliknij Gotowe.
Kliknij Prześlij wniosek.