En savoir plus sur les modèles Gemini

La famille de modèles Gemini est considérée comme multimodale, car elle est capable de traiter des informations provenant de plusieurs modalités, y compris des images, des vidéos et du texte. Par exemple, vous pouvez envoyer à un modèle Gemini une photo d'une assiette de cookies et lui demander de vous en donner la recette.

Prompt (Invite) Response (Réponse)
Give me a recipe for these cookies.

photographie de plusieurs cookies aux pépites de chocolat
**INGREDIENTS**
- 1 c. (2 sticks) unsalted butter, softened
- 3/4 c. granulated sugar
- 3/4 c. brown sugar, packed
- 1 tsp . vanilla extract
- 2 large eggs
- 2 1/4 c. all-purpose flour
- 1 tsp. baking soda
- 1 tsp. salt
...

Vous pouvez interagir avec la famille de modèles Gemini à l'aide de la Gemini API fournie par Vertex AI sur Google Cloud. Pour les applications mobiles et Web, vous pouvez utiliser les SDK Vertex AI in Firebase pour appeler l'API Gemini et interagir avec les modèles Gemini directement depuis votre application.

Cette page fournit les informations suivantes sur les modèles Gemini:

  • Comparaison générale des cas d'utilisation des différents modèles Gemini, y compris les types d'entrées compatibles.

  • Comparaison des détails de chaque modèle, par exemple le nombre maximal de jetons d'entrée ou la longueur maximale de la vidéo.

  • Description de la gestion des versions des modèles Gemini, en particulier de leurs versions stables, mises à jour automatiquement et preview.

  • Listes des noms de modèles disponibles à inclure dans votre code lors de l'initialisation.

  • Liste des langues acceptées pour les modèles Gemini.

Modèles disponibles

Vous pouvez utiliser l'un des modèles Gemini suivants avec Vertex AI in Firebase:

  • Gemini 1.5 Flash
    Modèle multimodal compatible avec les mêmes types d'entrée et de sortie que 1.5 Pro, mais avec une compréhension du contexte de longue durée de 1 million de jetons. Gemini 1.5 Flash est spécialement conçu pour les applications rentables et volumineuses.

  • Gemini 1.5 Pro
    Modèle multimodal qui permet d'ajouter des fichiers image, audio, vidéo et PDF dans des requêtes de texte ou de chat pour obtenir une réponse textuelle ou de code. Il est également compatible avec la compréhension du contexte de grande taille avec deux millions de jetons.

  • Gemini 1.0 Pro Vision
    Modèle multimodal conçu pour gérer le texte, ainsi que les images et les vidéos pour obtenir une réponse textuelle ou de code. Ne peut pas être utilisé pour le chat.

  • Gemini 1.0 Pro
    Modèle conçu pour gérer les tâches en langage naturel, le chat multitour avec du texte et du code, ainsi que la génération de code.

Accéder aux noms de modèles à inclure dans votre code

Cas d'utilisation et fonctionnalités de chaque modèle

Chaque modèle Gemini dispose de fonctionnalités différentes pour prendre en charge différents cas d'utilisation. Pour en savoir plus sur chacun des modèles Gemini, consultez la documentation Google Cloud.

Entrées et sorties compatibles pour chaque modèle

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
Types d'entrée
Texte
Code
Image
PDF
Vidéo (images uniquement)
Vidéo (images et audio)
Audio
Types de sortie
Texte
Sortie structurée (comme JSON) à l'aide d'un schéma de réponse
Code

Pour en savoir plus sur les types de fichiers acceptés, consultez la section Fichiers d'entrée acceptés et exigences concernant Vertex AI Gemini API.

Fonctionnalités compatibles et fonctionnalités générales pour chaque modèle

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
Génération de texte à partir d'une entrée textuelle uniquement
Génération de texte à partir d'une entrée multimodale
Sortie structurée (par exemple, JSON) à l'aide d'un schéma de réponse
Chat multitour
Appel de fonction
Appel de fonction de base
Appel de fonction en parallèle
Mode d'appel de fonction
Compter les jetons et les caractères facturables
Instructions système

Informations détaillées sur chaque modèle

Propriété Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
Limite totale de jetons (entrée et sortie combinées) * 1 048 576 jetons 2 097 152 jetons 16 384 jetons 32 760 jetons
Limite de jetons de sortie * 8 192 jetons 8 192 jetons 2 048 jetons 8 192 jetons
Nombre maximal d'images par requête 3 000 images 3 000 images 16 images N/A
Taille maximale de l'image encodée en base64 7 Mo 7 Mo 7 Mo N/A
Taille maximale du fichier PDF 30 MB 30 MB 30 MB N/A
Nombre maximal de fichiers vidéo par requête 10 fichiers vidéo 10 fichiers vidéo 1 fichier vidéo N/A
Durée maximale de la vidéo (cadres uniquement) ~60 minutes de vidéo ~60 minutes de vidéo 2 minutes N/A
Durée maximale de la vidéo (images et audio) ~45 minutes de vidéo ~45 minutes de vidéo N/A N/A
Nombre maximal de fichiers audio par requête 1 fichier audio 1 fichier audio N/A N/A
Durée maximale de l'audio ~8,4 heures d'audio ~8,4 heures d'audio N/A N/A

* Pour tous les modèles Gemini, un jeton équivaut à environ quatre caractères. Ainsi, 100 jetons correspondent à environ 60 à 80 mots en anglais. Vous pouvez déterminer le nombre total de jetons dans vos requêtes à l'aide de countTokens.

Découvrez les types de fichiers compatibles, comment spécifier le type MIME et comment vous assurer que vos fichiers et vos requêtes multimodales répondent aux exigences et respectent les bonnes pratiques dans la section Fichiers d'entrée compatibles et exigences concernant Vertex AI Gemini API.

Gestion des versions des modèles

Les modèles Gemini sont proposés en versions stable, mise à jour automatiquement et preview.

  • Les versions stables sont considérées comme disponibles pour tous les utilisateurs.

    • Les noms de modèle des versions stables sont suivis d'un numéro de version à trois chiffres spécifique, par exemple gemini-1.5-pro-002.
  • Les versions mises à jour automatiquement pointent toujours vers la dernière version stable de ce modèle. Si une nouvelle version stable est publiée, la version mise à jour automatiquement commence automatiquement à pointer vers cette nouvelle version stable.

    • Les versions mises à jour automatiquement comportent des noms de modèle sans ajout, par exemple gemini-1.5-pro.
  • Les versions preview proposent de nouvelles fonctionnalités et sont considérées comme non stables. Notez que les versions preview pointent toujours vers la dernière version preview de ce modèle. Si une nouvelle version preview est publiée, toute version preview existante commence automatiquement à pointer vers cette nouvelle version preview.

    • Les noms de modèle des versions preview sont suivis de -preview, ainsi que de la date de sortie initiale du modèle (-MMDD), par exemple gemini-1.5-pro-preview-0409 (publié le 9 avril 2024).

Pour en savoir plus sur les versions de modèles Gemini disponibles et leur cycle de vie, consultez la documentation Google Cloud.

Noms de modèles disponibles

Les noms de modèle sont les valeurs explicites que vous incluez dans votre code lors de l'initialisation du modèle génératif (étape obligatoire pour appeler Gemini API). Pour obtenir des exemples d'initialisation pour votre langue, consultez le guide de démarrage.

Noms des modèles Gemini 1.5 Flash

Nom du modèle Description Étape de version Date de disponibilité initiale Date d'arrêt
Versions stables
gemini-1.5-flash-002 Dernière version stable de Gemini 1.5 Flash Disponibilité générale 2024-09-24 Au plus tôt le 24/09/2025
gemini-1.5-flash-001 Version stable initiale de Gemini 1.5 Flash Disponibilité générale 2024-05-24 Au plus tôt le 24 mai 2025
Version mise à jour automatiquement
gemini-1.5-flash Pointe vers la dernière version stable de Gemini 1.5 Flash
(actuellement gemini-1.5-flash-002)
Disponibilité générale 2024-09-24 ---

Noms des modèles Gemini 1.5 Pro

Nom du modèle Description Étape de version Date de disponibilité initiale Date d'arrêt
Versions stables
gemini-1.5-pro-002 Dernière version stable de Gemini 1.5 Pro Disponibilité générale 2024-09-24 Au plus tôt le 24/09/2025
gemini-1.5-pro-001 Version stable initiale de Gemini 1.5 Pro Disponibilité générale 2024-05-24 Au plus tôt le 24 mai 2025
Version mise à jour automatiquement
gemini-1.5-pro Pointe vers la dernière version stable de 1.5 Pro
(actuellement gemini-1.5-pro-002)
Disponibilité générale 2024-09-24 ---

Noms des modèles Gemini 1.0 Pro Vision

Nom du modèle Description Étape de version Date de disponibilité initiale Date d'arrêt
Versions stables
gemini-1.0-pro-vision-001 Dernière version stable de Gemini 1.0 Pro Vision Disponibilité générale 2024-02-15 Au plus tôt le 15 février 2025
Version mise à jour automatiquement
gemini-1.0-pro-vision Pointe vers la dernière version stable de 1.5 Pro Vision
(actuellement gemini-1.5-pro-vision-001)
Disponibilité générale 2024-01-04 ---

Noms des modèles Gemini 1.0 Pro

Nom du modèle Description Étape de version Date de disponibilité initiale Date d'arrêt
Versions stables
gemini-1.0-pro-002 Dernière version stable de Gemini 1.0 Pro Disponibilité générale 2024-04-09 Au plus tôt le 9 avril 2025
gemini-1.0-pro-001 Version stable de Gemini 1.0 Pro Disponibilité générale 2024-02-15 Au plus tôt le 15 février 2025
Version mise à jour automatiquement
gemini-1.0-pro Pointe vers la dernière version stable de 1.0 Pro
(actuellement gemini-1.0-pro-002)
Disponibilité générale 2024-02-15 ---

Langues disponibles

  • Tous les modèles Gemini peuvent comprendre et répondre dans les langues suivantes:

    Arabe (ar), bengali (bn), bulgare (bg), chinois simplifié et traditionnel (zh), croate (hr), tchèque (cs), danois (da), néerlandais (nl), anglais (en), estonien (et), finnois (fi), français (fr), allemand (de), grec (el), hébreu (iw), hindi (hi), hongrois (hu), indonésien (id), italien (it), japonais (ja), coréen (ko), letton (lv), lituanien (lt), norvégien (no), polonais (pl), portugais (pt), roumain (ro), russe (ru), serbe (sr), slovaque (sk), slovène (sl), espagnol (es), swahili (sw), suédois (sv), thaï (th), turc (tr), ukrainien (uk), vietnamien (vi)

  • Les modèles Gemini 1.5 Pro et Gemini 1.5 Flash peuvent comprendre et répondre dans les langues supplémentaires suivantes:

    Afrikaans (af), Amharique (am), Assamais (as), Azerbaïdjanais (az), Biélorusse (be), Bosniaque (bs), Catalan (ca), Cebuano (ceb), Corse (co), Gallois (cy), Dhivehi (dv), Esperanto (eo), Basque (eu), Persan (fa), Filipino (Tagalog) (fil), Frison (fy), Irlandais (ga), Gaélique écossais (gd), Galicien (gl), Gujarati (gu), Haoussa (ha), Hawaïen (haw), Hmong (hmn), Créole haïtien (ht), Arménien (hy), Igbo (ig), Islandais (is), Javanais (jv), Géorgien (ka), Kazakh (kk), Khmer (km), Kannada (kn), Krio (kri), Kurde (ku), Kirghize (ky), Latin (la), Luxembourgeois (lb), Lao (lo), Malagasy (mg), Maori (mi), Macédonien (mk), Malayalam (ml), Mongol (mn), Meiteilon (Manipuri) (mni-Mtei), Marathi (mr), Malais (ms), Maltais (mt), Myanmar (birman) (my), Népalais (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Pachto (ps), Sindhi (sd), Sinhala (singalais) (si), Samoan (sm), Shona (sn), Somali (so), Albanais (sq), Sesotho (st), Sundanais (su), Tamoul (ta), Télougou (te), Tadjik (tg), Ouïghour (ug), Urdu (ur), Ouzbek (uz), Xhosa (xh), Yiddish (yi), Yoruba (yo), Zoulou (zu)

Étapes suivantes

Essayer les fonctionnalités de Gemini API