Monitorar seus custos, uso e outras métricas do Gemini API é uma parte importante da execução de um app de produção. É importante saber como são os padrões de uso normais do app e garantir que você esteja dentro dos limites importantes para você.
Monitorar custos
No painel Uso e faturamento do console do Firebase, é possível conferir os custos do projeto para chamar o Vertex AI Gemini API.
Os custos mostrados no painel não são necessariamente específicos para chamadas pelos SDKs de cliente Vertex AI in Firebase. Os custos mostrados estão associados a qualquer chamada para o Vertex AI Gemini API, seja usando os SDKs do cliente Vertex AI in Firebase, os SDKs do servidor Vertex AI, Firebase Genkit, o Firebase Extensions para o Gemini API, chamadas REST, Vertex AI Studio ou outros clientes de API.
Também é possível estimar o tamanho do token e os caracteres faturáveis das suas solicitações usando a API Count Tokens. Saiba mais sobre os limites de tokens por modelo e os preços por modelo.
Configurar alerta
Para evitar surpresas, configure alertas de orçamento.
Os alertas de orçamento não são limites de orçamento. Um alerta vai enviar comunicações quando você estiver se aproximando ou ultrapassar o limite configurado para que você possa tomar medidas no seu app ou projeto.
Monitorar o uso e outras métricas
É possível conferir as métricas do projeto para cada API, como o uso, no console Google Cloud.
No console do Google Cloud, acesse cada página da API: API Vertex AI e API Vertex AI in Firebase.
Página da API Vertex AI: é o uso associado a qualquer chamada para o Vertex AI Gemini API, seja usando os SDKs de cliente Vertex AI in Firebase, os SDKs de servidor Vertex AI, Firebase Genkit, o Firebase Extensions para o Gemini API, chamadas REST, Vertex AI Studio etc.
Página da API Vertex AI in Firebase: é o uso específico para chamadas provenientes dos SDKs Vertex AI in Firebase.
Clique em Gerenciar.
Clique na guia Métricas.
Use os menus suspensos para conferir as métricas de interesse, como tráfego por código de resposta, erros por método de API, latência geral e latência por método de API.