Monitorar custos, uso e outras métricas da API Gemini

Monitorar custos, uso e outras métricas do Gemini API é uma parte importante da execução de um app de produção. É importante saber como são os padrões de uso normais do app e garantir que você esteja dentro dos limites importantes para você.

Monitorar custos

No painel Uso e faturamento do console Firebase, é possível ver os custos do projeto para chamar Vertex AI Gemini API.

Os custos exibidos no painel não são necessariamente específicos para chamadas pelos SDKs de cliente Vertex AI in Firebase. Os custos mostrados estão associados a qualquer chamada para o Vertex AI Gemini API, seja usando os SDKs do cliente Vertex AI in Firebase, os SDKs do servidor Vertex AI, Firebase Genkit, o Firebase Extensions para o Gemini API, chamadas REST, Vertex AI Studio ou outros clientes de API.

Também é possível estimar o tamanho do token e os caracteres faturáveis das suas solicitações usando a API Count Tokens. Saiba mais sobre os limites de tokens por modelo e os preços por modelo.

Configurar alerta

Para evitar cobranças surpresa, configure alertas de orçamento.

Os alertas de orçamento não são limites de orçamento. Um alerta vai enviar comunicações quando você estiver se aproximando ou ultrapassar o limite configurado para que você possa tomar medidas no app ou projeto.

Monitorar o uso e outras métricas

É possível conferir as métricas do projeto para cada API, como o uso, no console do Google Cloud.

  1. No console do Google Cloud, acesse cada página da API: API Vertex AI e API Vertex AI in Firebase.

    • Página da API Vertex AI: é o uso associado a qualquer chamada para o Vertex AI Gemini API, seja usando os SDKs de cliente Vertex AI in Firebase, os SDKs de servidor Vertex AI, Firebase Genkit, o Firebase Extensions para o Gemini API, chamadas REST, Vertex AI Studio etc.

    • Página da API Vertex AI in Firebase: é o uso específico para chamadas provenientes dos SDKs Vertex AI in Firebase.

  2. Clique em Gerenciar.

  3. Clique na guia Métricas.

  4. Use os menus suspensos para conferir as métricas de interesse, como tráfego por código de resposta, erros por método de API, latência geral e latência por método de API.