Vertex AI in Firebase требует двух разных API (каждый со своей квотой): Vertex AI API и Vertex AI in Firebase API.
Каждый из этих API имеет квоту, измеряемую количеством запросов в минуту (RPM), а именно запросов «генерации контента» (как потоковой передачи, так и без потоковой передачи). API Vertex AI также имеет квоту на входные токены в минуту.
На этой странице описано следующее:
Понимание квот для Vertex AI API и Vertex AI in Firebase API.
Просмотр квот в консоли Google Cloud
Общую информацию о квотах вы можете узнать в документации Google Cloud .
Понимание квот для каждого API
Квота каждого API измеряется немного по-разному, а это означает, что их можно использовать для разных целей.
Понимание квот Vertex AI API
Квоты Vertex AI API основаны на «генерации запросов контента» для каждой модели, каждого региона в минуту.
Вот некоторые важные сведения об этих квотах (в частности, количество запросов в минуту и входных токенов в минуту):
Они применяются на уровне проекта и используются всеми приложениями и IP-адресами, которые используют этот проект Firebase.
Они применяются к любому вызову Vertex AI Gemini API , будь то использование Vertex AI in Firebase , SDK сервера Vertex AI , Firebase Genkit , Firebase Extensions , вызовов REST, Vertex AI Studio или других клиентов API.
Они применяются к базовой модели и всем версиям, идентификаторам и настроенным версиям этой модели. Вот несколько примеров:
Запрос к
gemini-1.0-pro
и запрос кgemini-1.0-pro-001
учитываются как два запроса в отношении квоты RPM базовой моделиgemini-1.0 pro
.Запрос к
gemini-1.0-pro-001
и запрос к настроенной модели , основанной наgemini-1.0-pro-001
учитываются как два запроса к квоте RPM базовой моделиgemini-1.0-pro
.
Квоты по умолчанию для каждой модели и для каждого региона можно найти в документации Google Cloud .
По сути, вы можете рассматривать квоты этого API как «общие» квоты для всех ваших пользователей (которые используют функции искусственного интеллекта в вашем приложении, основанные на конкретной модели и в определенном регионе).
Эти квоты должны быть достаточно высокими, чтобы разумно вместить общее количество конечных пользователей в определенном регионе, которые могут получить доступ к вашим функциям ИИ, основанным на конкретной модели. Поскольку это поминутные квоты, маловероятно, что все ваши пользователи в регионе будут использовать один и тот же набор функций одновременно и исчерпают эти квоты. Но каждое приложение отличается, поэтому соответствующим образом корректируйте эти квоты.
Понимание Vertex AI in Firebase API
Квота Vertex AI in Firebase API основана на «Создании запросов контента» для каждого пользователя, каждого региона в минуту.
Вот некоторые важные сведения об этой квоте (в частности, количество запросов в минуту):
Он применяется на уровне проекта и применяется ко всем приложениям и IP-адресам, которые используют этот проект Firebase.
Это относится к любому вызову, который конкретно проходит через любой Vertex AI in Firebase SDK.
Квота по умолчанию составляет 100 об/мин на пользователя.
Обратите внимание, что вам все равно необходимо учитывать ограничения квот для Vertex AI API , особенно если они ниже 100 об/мин.
По сути, вы можете считать квоту этого API своей квотой «на пользователя» для функций ИИ, которые полагаются на Vertex AI in Firebase .
Эта квота должна быть достаточно высокой, чтобы в разумных пределах обеспечить доступ одного пользователя к функциям ИИ, основанным на Vertex AI in Firebase . Поскольку этот API действует как шлюз к Vertex AI API, вы можете использовать квоту Vertex AI in Firebase API, чтобы гарантировать, что ни один пользователь не исчерпает вашу квоту Vertex AI API (которая предназначена для совместного использования всеми вашими пользователями).
Просмотр квот для каждого API
Вы можете просмотреть квоты для каждого API в консоли Google Cloud .
В консоли Google Cloud перейдите на страницу интересующего API: Vertex AI API или Vertex AI in Firebase API .
Нажмите «Управление» .
Ниже на странице перейдите на вкладку « Квоты и системные ограничения» .
Отфильтруйте таблицу, чтобы отобразить интересующие квоты.
Обратите внимание: чтобы создать фильтр
Dimension
, вам необходимо использовать инструмент фильтра, а не просто копировать значения в следующих примерах.Для Vertex AI API: укажите возможности (запросы на создание контента), имя модели и регион.
Например, чтобы просмотреть квоты на создание запросов контента с помощью Gemini 1.5 Flash в любом из поддерживаемых регионов ЕС, ваш фильтр будет выглядеть следующим образом:
Generate content requests
+Dimension:base_model:gemini-1.5-flash
+Dimension:region:eu
Для Vertex AI in Firebase API: укажите возможности (запросы на создание контента) и регион.
Например, чтобы просмотреть квоты на создание запросов контента для каждого пользователя в любом из поддерживаемых азиатских регионов, ваш фильтр будет выглядеть следующим образом:
Generate content requests
+Dimension:region:asia
Обратите внимание, что квоты Vertex AI in Firebase API не основаны на конкретной модели. Кроме того, строка квоты
(default)
не применяется к Vertex AI in Firebase .
Изменить квоту или запросить ее увеличение
Прежде чем приступить к работе или если вы получаете 429 ошибок превышения квоты, вам может потребоваться изменить квоту или запросить ее увеличение. Обязательно настройте квоту каждого API соответствующим образом (см. раздел «Понимание квот для каждого API» ранее на этой странице).
Чтобы редактировать квоту, у вас должно быть разрешение serviceusage.quotas.update
, которое по умолчанию включено в роли владельца и редактора.
Вот как можно изменить квоту или запросить ее увеличение:
Следуйте инструкциям в предыдущем подразделе, чтобы просмотреть квоты каждого API .
Установите флажок слева от каждой интересующей квоты.
В конце строки квоты нажмите трехточечное меню и выберите «Изменить квоту» .
В форме «Изменение квоты» выполните следующие действия:
Введите увеличенную квоту в поле Новое значение .
Эта квота применяется на уровне проекта и распространяется на все приложения и IP-адреса, которые используют этот проект Firebase.
Заполните все дополнительные поля формы и нажмите «Готово» .
Нажмите «Отправить запрос» .