Vertex AI in Firebase nécessite deux API différentes (chacune avec son propre quota) : l'API Vertex AI et l'API Vertex AI in Firebase.
Chacune de ces API dispose d'un quota mesuré en requêtes par minute (RPM), en particulier pour les requêtes "générer du contenu" (en streaming et hors streaming). L'API Vertex AI comporte également un quota de jetons d'entrée par minute.
Cette page décrit les éléments suivants :
Comprendre les quotas pour l'API Vertex AI et l'API Vertex AI in Firebase
Afficher les quotas dans la console Google Cloud
Pour en savoir plus sur les quotas, consultez la documentation Google Cloud.
Comprendre les quotas de chaque API
Les quotas de chaque API sont mesurés légèrement différemment, ce qui signifie qu'ils peuvent être utilisés à des fins différentes.
Comprendre les quotas de l'API Vertex AI
Les quotas de l'API Vertex AI sont basés sur "Générer des requêtes de contenu" par modèle, par région et par minute.
Voici quelques informations importantes sur ces quotas (en particulier, les requêtes par minute et les jetons d'entrée par minute):
Ils s'appliquent au niveau du projet et sont partagés entre toutes les applications et adresses IP qui utilisent ce projet Firebase.
Elles s'appliquent à tout appel à Vertex AI Gemini API, qu'il s'agisse d'utiliser les SDK clients Vertex AI in Firebase, les SDK serveurs Vertex AI, Firebase Genkit, le Firebase Extensions Gemini, les appels REST, Vertex AI Studio ou d'autres clients d'API.
Ils s'appliquent à un modèle de base, ainsi qu'à toutes les versions, identifiants et versions réglées de ce modèle. Voici quelques exemples :
Une requête envoyée à
gemini-1.0-pro
et une requête adressée àgemini-1.0-pro-001
sont comptabilisées comme deux requêtes dans le quota de RPM du modèle de base,gemini-1.0 pro
.Une requête envoyée à
gemini-1.0-pro-001
et une requête envoyée à un modèle réglé basé surgemini-1.0-pro-001
sont comptabilisées comme deux requêtes dans le quota de RPM du modèle de base,gemini-1.0-pro
.
Les quotas par défaut pour chaque modèle et chaque région sont disponibles dans la documentation Google Cloud.
Vous pouvez considérer les quotas de cette API comme des quotas "totaux " pour tous vos utilisateurs (qui utilisent les fonctionnalités d'IA de votre application qui reposent sur un modèle spécifique et dans une région spécifique).
Ces quotas doivent être suffisamment élevés pour accueillir de manière raisonnable le nombre total d'utilisateurs finaux d'une région spécifique qui peuvent accéder à vos fonctionnalités d'IA qui reposent sur un modèle spécifique. Étant donné qu'il s'agit de quotas par minute, il est relativement peu probable que tous vos utilisateurs d'une région utilisent le même ensemble de fonctionnalités en même temps et utilisent ces quotas. Toutefois, chaque application est différente. Ajustez donc ces quotas en conséquence.
Comprendre le quota de l'API Vertex AI in Firebase
Le quota de l'API Vertex AI in Firebase est basé sur "Générer des requêtes de contenu" par utilisateur, par région et par minute.
Voici quelques informations importantes sur ce quota (en particulier, les requêtes par minute):
Il s'applique au niveau du projet et à toutes les applications et adresses IP qui utilisent ce projet Firebase.
Il s'applique à tout appel qui passe spécifiquement par un SDK Vertex AI in Firebase.
Le quota par défaut est de 100 RPM par utilisateur.
Notez que vous devez toujours tenir compte des limites de quota pour l'API Vertex AI, en particulier si elles sont inférieures à 100 RPM.
Vous pouvez considérer le quota de cette API comme votre quota "par utilisateur" pour les fonctionnalités d'IA qui s'appuient sur Vertex AI in Firebase.
Ce quota doit être suffisamment élevé pour accueillir raisonnablement un seul utilisateur accédant aux fonctionnalités d'IA qui reposent sur Vertex AI in Firebase. Étant donné que cette API sert de passerelle à l'API Vertex AI, vous pouvez utiliser le quota de l'API Vertex AI in Firebase pour vous assurer qu'aucun utilisateur ne vide votre quota d'API Vertex AI (qui est censé être partagé par tous vos utilisateurs).
Afficher les quotas pour chaque API
Vous pouvez consulter les quotas de chaque API dans la console Google Cloud.
Dans la console Google Cloud, accédez à la page de l'API qui vous intéresse : API Vertex AI ou API Vertex AI in Firebase.
Cliquez sur Gérer.
Plus bas sur la page, cliquez sur l'onglet Quotas et limites du système.
Filtrez le tableau pour afficher les quotas qui vous intéressent.
Notez que pour créer un filtre
Dimension
, vous devez utiliser les outils de filtrage plutôt que de simplement copier-coller les valeurs des exemples suivants.Pour l'API Vertex AI:spécifiez la fonctionnalité (requêtes de génération de contenu), le nom du modèle et la région.
Par exemple, pour afficher les quotas de génération de requêtes de contenu avec Gemini 1.5 Flash dans l'une des régions de l'UE compatibles, votre filtre se présente comme suit:
Generate content requests
+Dimension:base_model:gemini-1.5-flash
+Dimension:region:eu
Pour l'API Vertex AI in Firebase:spécifiez la fonctionnalité (requêtes de génération de contenu) et la région.
Par exemple, pour afficher les quotas par utilisateur pour générer des requêtes de contenu dans l'une des régions asiatiques compatibles, votre filtre se présente comme suit:
Generate content requests
+Dimension:region:asia
Notez que les quotas de l'API Vertex AI in Firebase ne sont pas basés sur un modèle particulier. De plus, la ligne de quota
(default)
ne s'applique pas à Vertex AI in Firebase.
Modifier le quota ou demander une augmentation de quota
Avant de passer en production ou si vous recevez des erreurs de dépassement de quota 429, vous devrez peut-être modifier votre quota ou demander une augmentation de quota. Assurez-vous d'ajuster le quota de chaque API en conséquence (pour en savoir plus, consultez la section Comprendre les quotas de chaque API plus haut sur cette page).
Pour modifier un quota, vous devez disposer de l'autorisation serviceusage.quotas.update
, qui est incluse par défaut dans les rôles "Propriétaire" et "Éditeur".
Pour modifier votre quota ou demander une augmentation de quota:
Suivez les instructions de la sous-section précédente pour afficher les quotas de chaque API.
Cochez la case située à gauche de chaque quota qui vous intéresse.
À la fin de la ligne du quota, cliquez sur le menu à trois points, puis sélectionnez Modifier le quota.
Dans le formulaire Modifications de quotas, procédez comme suit:
Saisissez le quota augmenté dans le champ Nouvelle valeur.
Ce quota s'applique au niveau du projet et est partagé entre toutes les applications et adresses IP qui utilisent ce projet Firebase.
Renseignez tous les champs supplémentaires du formulaire, puis cliquez sur OK.
Cliquez sur Envoyer la requête.