Entender e gerenciar suas cotas

O Vertex AI in Firebase exige duas APIs diferentes (cada uma com a própria cota): API Vertex AI e API Vertex AI in Firebase.

Cada uma dessas APIs tem uma cota que é medida como solicitações por minuto (RPM, na sigla em inglês), especificamente as solicitações de "gerar conteúdo" (com e sem streaming). A API Vertex AI também tem uma cota de tokens de entrada por minuto.

Esta página descreve os itens a seguir:

Confira informações gerais sobre cotas na documentação do Google Cloud.

Entender as cotas de cada API

A cota de cada API é medida de maneira um pouco diferente, o que significa que elas podem ser usadas para finalidades diferentes.

Entender as cotas da API Vertex AI

As cotas da API Vertex AI são baseadas em "Gerar solicitações de conteúdo" por modelo, por região e por minuto.

Confira alguns detalhes importantes sobre essas cotas (especificamente, solicitações por minuto e tokens de entrada por minuto):

  • Elas são aplicadas no nível do projeto e compartilhadas em todos os aplicativos e endereços IP que usam esse projeto do Firebase.

  • Elas se aplicam a qualquer chamada para o Vertex AI Gemini API, seja usando os SDKs de cliente Vertex AI in Firebase, os SDKs de servidor Vertex AI, o Firebase Genkit, o Gemini Firebase Extensions, chamadas REST, Vertex AI Studio ou outros clientes de API.

  • Elas se aplicam a um modelo base e a todas as versões, identificadores e versões ajustadas desse modelo. Veja alguns exemplos:

    • Uma solicitação para gemini-1.0-pro e uma solicitação para gemini-1.0-pro-001 são contadas como duas solicitações para a cota RPM do modelo base, gemini-1.0 pro.

    • Uma solicitação para gemini-1.0-pro-001 e uma solicitação para um modelo ajustado baseado em gemini-1.0-pro-001 são contadas como duas solicitações para a cota RPM do modelo base, gemini-1.0-pro.

  • As cotas padrão para cada modelo e região podem ser encontradas na documentação do Google Cloud.

Basicamente, você pode considerar as cotas dessa API como "totais" para todos os usuários que usam os recursos de IA no app que dependem de um modelo específico e de uma região específica.

Essas cotas precisam ser altas o suficiente para acomodar de maneira razoável o número total de usuários finais em uma região específica que podem acessar os recursos de IA que dependem de um modelo específico. Como essas são cotas por minuto, é relativamente improvável que todos os usuários em uma região usem o mesmo conjunto de recursos ao mesmo tempo e esgotem essas cotas. No entanto, cada app é diferente, então ajuste essas cotas de acordo.

Entender a cota da API Vertex AI in Firebase

A cota da API Vertex AI in Firebase é baseada em "Gerar solicitações de conteúdo" por usuário, por região e por minuto.

Confira alguns detalhes importantes sobre essa cota (específica- mente, solicitações por minuto):

  • Ela se aplica no nível do projeto e a todos os aplicativos e endereços IP que usam esse projeto do Firebase.

  • Ela se aplica a qualquer chamada que passe especificamente por qualquer SDK Vertex AI in Firebase.

  • A cota padrão é de 100 RPM por usuário.
    Você ainda precisa considerar os limites de cota da API Vertex AI, especialmente se eles forem menores que 100 RPM.

Basicamente, você pode considerar a cota dessa API como a cota "por usuário" dos recursos de IA que dependem de Vertex AI in Firebase.

Essa cota precisa ser alta o suficiente para acomodar um único usuário que acesse os recursos de IA que dependem de Vertex AI in Firebase. Como essa API atua como gateway para a API Vertex AI, é possível usar a cota da API Vertex AI in Firebase para garantir que nenhum usuário consuma a cota da API Vertex AI (que é compartilhada por todos os usuários).

Conferir as cotas de cada API

É possível conferir as cotas de cada API no console do Google Cloud.

  1. No console da Google Cloud, acesse a página da API de interesse: API Vertex AI ou API Vertex AI in Firebase.

  2. Clique em Gerenciar.

  3. Mais abaixo na página, clique na guia Cotas e limites do sistema.

  4. Filtre a tabela para mostrar as cotas de interesse.

    Para criar um filtro Dimension, é necessário usar as ferramentas de filtro em vez de copiar e colar os valores nos exemplos a seguir.

    • Para a API Vertex AI:especifique o recurso (solicitações para gerar conteúdo), o nome do modelo e a região.

      Por exemplo, para conferir as cotas de geração de solicitações de conteúdo com o Gemini 1.5 Flash em qualquer uma das regiões da UE com suporte, seu filtro vai ser parecido com este:
      Generate content requests + Dimension:base_model:gemini-1.5-flash + Dimension:region:eu

    • Para a API Vertex AI in Firebase:especifique o recurso (solicitações para gerar conteúdo) e a região.

      Por exemplo, para conferir as cotas por usuário para gerar solicitações de conteúdo em qualquer uma das regiões da Ásia com suporte, seu filtro será semelhante a este:
      Generate content requests + Dimension:region:asia

      As cotas da API Vertex AI in Firebase não são baseadas em um modelo específico. Além disso, a linha de cota (default) não se aplica a Vertex AI in Firebase.

Editar a cota ou solicitar um aumento

Antes de ir para a produção ou se você receber erros 429 de cota excedida, talvez seja necessário editar ou solicitar um aumento da cota. Ajuste a cota de cada API de acordo (consulte Entenda as cotas de cada API mais adiante nesta página para conferir considerações).

Para editar uma cota, você precisa ter a permissão serviceusage.quotas.update, incluída por padrão na função de proprietário e editor.

Veja como editar sua cota ou solicitar um aumento:

  1. Siga as instruções na subseção anterior para ver as cotas de cada API.

  2. Marque a caixa de seleção à esquerda de cada cota de interesse.

  3. No final da linha da cota, clique no menu de três pontos e selecione Editar cota.

  4. No formulário Mudanças de cota, faça o seguinte:

    1. Insira a cota aumentada no campo Novo valor.

      Essa cota é válida no nível do projeto e é compartilhada em todos os aplicativos e endereços IP que usam esse projeto do Firebase.

    2. Preencha todos os campos do formulário e clique em Concluído.

    3. Clique em Enviar solicitação.