Lorsque vous appelez Vertex AI Gemini API à partir de votre application à l'aide d'un SDK Vertex AI in Firebase, vous pouvez demander au modèle Gemini de générer du texte à partir d'une entrée multimodale. Les requêtes multimodales peuvent inclure plusieurs modalités (ou types d'entrée), comme du texte avec des images, des PDF, des vidéos et de l'audio.
Pour les parties non textuelles de l'entrée (comme les fichiers multimédias), vous devez utiliser des types de fichiers compatibles, spécifier un type MIME compatible et vous assurer que vos fichiers et vos requêtes multimodales répondent aux exigences et respectent les bonnes pratiques.
Cette page décrit les éléments suivants :
Informations sur les types MIME compatibles, bonnes pratiques et limites pour les entrées de fichiers suivantes:
Images | Vidéo | Audio | Documents (comme les PDF).
Options pour fournir des fichiers dans les requêtes multimodales
Dans chaque requête multimodale, vous devez toujours fournir les éléments suivants:
mimeType
du fichier. Consultez les types MIME compatibles pour chaque fichier d'entrée dans la section applicable de cette page.Le fichier. Vous pouvez fournir le fichier à l'aide de son URL / URI ou fournir le fichier en tant que données intégrées.
La taille et le nombre de fichiers que vous pouvez fournir dans la requête sont déterminés par le type de fichier d'entrée, la manière dont vous fournissez le fichier et le modèle utilisé (pour en savoir plus, consultez la section de chaque type de fichier d'entrée sur cette page).
Option 1: Fournir le fichier à l'aide d'une URL ou d'un URI
Voici les types d'URL ou d'URI acceptés:
URL du bucket Cloud Storage for Firebase: l'URL du fichier doit être publique, ou l'utilisateur ou le client connecté doit disposer d'un accès suffisant au fichier. En savoir plus sur les avantages, les exigences concernant les URL et les exemples de code Cloud Storage for Firebase
URL du bucket Google Cloud Storage: l'URL du fichier doit être publique.
URL du navigateur/HTTP: l'URL du fichier doit être lisible publiquement. Par exemple, les URL de sites d'hébergement de fichiers multimédias, les URL qui affichent directement le contenu multimédia (et non une page Web qui l'héberge) ou un fichier Google Drive ou Google Workspace publié.
URL de la vidéo YouTube: la vidéo YouTube doit être publique ou non répertoriée.
Pour en savoir plus sur les exigences concernant les URL et les URI, consultez la documentation Google Cloud.
Option 2: Fournir le fichier en tant que données intégrées
Notez les points suivants concernant les fichiers fournis en tant que données intégrées:
Seuls les petits fichiers peuvent être envoyés en tant que données intégrées, car la limite de taille de requête totale est de 20 Mo.
Le fichier est encodé en base64 pendant le transfert (ce qui augmente sa taille).
Pour obtenir des exemples montrant comment inclure des fichiers en tant que données intégrées, consultez la section Générer du texte à partir de requêtes multimodales à l'aide de l'API Gemini.
Images: exigences, bonnes pratiques et limites
Images: conditions requises
Dans cette section, vous allez découvrir les types MIME compatibles et les limites par requête pour les images.
Types MIME compatibles
Les modèles multimodaux Gemini sont compatibles avec les types vidéo MIME suivants :
Type MIME de l'image | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
|||
WebP - image/webp |
Limites par requête
Il n'y a pas de limite spécifique au nombre de pixels dans une image. Cependant, les images plus volumineuses sont réduites et remplies pour correspondre à une résolution maximale de 3072 x 3072, tout en préservant leur format d'origine.
Voici le nombre maximal de fichiers image autorisé dans une requête de requête:
- Gemini 1.0 Pro Vision: 16 images
- Gemini 1.5 Flash et Gemini 1.5 Pro: 3 000 images
Images: tokenisation
Voici comment les jetons sont calculés pour les images:
- Gemini 1.0 Pro Vision: chaque image compte pour 258 jetons.
- Pour Gemini 1.5 Flash et Gemini 1.5 Pro :
- Si les deux dimensions d'une image sont inférieures ou égales à 384 pixels, 258 jetons sont utilisés.
- Si l'une des dimensions d'une image est supérieure à 384 pixels, l'image est recadrée en vignettes. Chaque taille de vignette est définie par défaut sur la plus petite dimension (largeur ou hauteur), divisée par 1,5. Si nécessaire, chaque vignette est ajustée pour qu'elle ne soit pas inférieure à 256 et ne dépasse pas 768. Chaque vignette est ensuite redimensionnée au format 768x768 et utilise 258 jetons.
Images: bonnes pratiques
Lorsque vous utilisez des images, suivez les bonnes pratiques et les informations ci-dessous pour obtenir de meilleurs résultats :
- Si vous souhaitez détecter du texte dans une image, utilisez des requêtes avec une seule image pour obtenir de meilleurs résultats qu'avec des requêtes comportant plusieurs images.
- Si votre requête contient une seule image, placez-la avant le texte de la requête.
- Si votre requête contient plusieurs images, et que vous souhaitez les référencer ultérieurement dans votre requête ou demander au modèle de les référencer dans la réponse du modèle, il peut être utile d'attribuer à chaque image un index la précédant. Utilisez
oua
b
c
pour votre index. Voici un exemple d'utilisation d'images indexées dans une requête :image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Utilisez des images en haute résolution, car elles offrent de meilleurs résultats.
- Incluez quelques exemples dans la requête.
- Faites pivoter les images dans l'orientation appropriée avant de les ajouter à la requête.
- Évitez les images floues.
Images: limites
Bien que les modèles multimodaux Gemini soient puissants dans de nombreux cas d'utilisation multimodaux, il est important de comprendre les limites des modèles :
- Modération de contenus: les modèles refusent de fournir des réponses sur des images qui ne respectent pas nos règles de sécurité.
- Raisonnement spatial: les modèles ne parviennent pas à localiser précisément du texte ou des objets dans des images. Ils peuvent ne renvoyer que des décomptes approximatifs d'objets.
- Utilisations médicales : les modèles ne conviennent pas à l'interprétation d'images médicales (par exemple, les radiographies et les scanners), ni à la fourniture de conseils médicaux.
- Reconnaissance de personnes : les modèles ne sont pas conçus pour identifier des personnes qui ne sont pas des célébrités sur des images.
- Précision : les modèles peuvent halluciner ou faire des erreurs lors de l'interprétation d'images de mauvaise qualité, retournées ou d'extrêmement basse résolution. Les modèles peuvent également halluciner lors de l'interprétation de texte manuscrit dans des images.
Vidéo: conditions requises, bonnes pratiques et limites
Vidéo: Conditions requises
Dans cette section, vous découvrirez les types MIME acceptés et les limites par requête pour les vidéos.
Types MIME compatibles
Les modèles multimodaux Gemini sont compatibles avec les types vidéo MIME suivants :
Type vidéo MIME | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/quicktime |
|||
MPEG - video/mpeg |
|||
MPEGPS - video/mpegps |
|||
MPG - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
Limites par requête
Voici le nombre maximal de fichiers vidéo autorisé dans une requête d'invite :
- Gemini 1.0 Pro Vision: 1 fichier vidéo
- Gemini 1.5 Flash et Gemini 1.5 Pro: 10 fichiers vidéo
Vidéo: Tokenisation
Voici comment les jetons sont calculés pour les vidéos :
- Tous les modèles Gemini multimode : les vidéos sont échantillonnées à
1 image par seconde (fps) . Chaque image vidéo équivaut à 258 jetons. - Gemini 1.5 Flash et Gemini 1.5 Pro: la piste audio est encodée avec des images vidéo. La piste audio est également divisée
en segments d'une seconde , chacune représentant 32 jetons. Les trames vidéo et les jetons audio sont entrelacés avec leurs codes temporels. Les codes temporels sont représentés par 7 jetons.
Vidéo: Bonnes pratiques
Lorsque vous utilisez des vidéos, suivez les bonnes pratiques et informations suivantes pour obtenir de meilleurs résultats :
- Si votre requête contient une vidéo, placez-la avant la requête textuelle.
- Si vous avez besoin d'une localisation de code temporel dans une vidéo avec audio, demandez au modèle de générer des codes temporels au format
MM:SS
, où les deux premiers chiffres représentent les minutes et les deux derniers chiffres représentent les secondes. Utilisez le même format pour les questions concernant un code temporel. Notez les points suivants si vous utilisez Gemini 1.0 Pro Vision:
- N'utilisez pas plus d'une vidéo par requête.
- Le modèle ne traite que les informations des deux premières minutes de la vidéo.
- Le modèle traite les vidéos comme des cadres d'images non contigus de la vidéo. Le son n'est pas inclus. Si vous remarquez que le contenu de la vidéo manque dans le modèle, réduisez la durée de la vidéo pour que le modèle enregistre une plus grande partie du contenu vidéo.
- Le modèle ne traite aucune information audio ni aucune métadonnée de code temporel. De ce fait, le modèle peut ne pas fonctionner correctement dans les cas d'utilisation nécessitant des entrées audio, comme le sous-titrage de données audio, ou des informations temporelles telles que la vitesse ou le rythme.
Vidéo: Limites
Bien que les modèles multimodaux Gemini soient puissants dans de nombreux cas d'utilisation multimodaux, il est important de comprendre les limites des modèles :
- Modération de contenus : les modèles refusent de fournir des réponses sur des vidéos qui ne respectent pas nos règles de sécurité.
- Reconnaissance des sons non vocaux : les modèles compatibles avec l'audio peuvent faire des erreurs de reconnaissance avec les sons autres que la parole.
- Mouvements très rapides : en raison du taux d'échantillonnage fixe d'
une image par seconde (fps) , les modèles peuvent faire des erreurs lors de l'analyse de mouvements très rapides dans des vidéos. - Ponctuation de la transcription : (si vous utilisez Gemini 1.5 Flash) les modèles peuvent renvoyer des transcriptions qui n'incluent pas de ponctuation.
Audio: conditions requises et limites
Audio: conditions requises
Dans cette section, vous découvrirez les types MIME acceptés et les limites par requête pour l'audio.
Types MIME compatibles
Les modèles multimodaux Gemini sont compatibles avec les types audio MIME suivants :
Type MIME audio | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
Limites par requête
Vous pouvez inclure
Audio: limites
Bien que les modèles multimodaux Gemini soient puissants dans de nombreux cas d'utilisation multimodaux, il est important de comprendre les limites des modèles :
- Reconnaissance des sons non vocaux : les modèles compatibles avec l'audio peuvent faire des erreurs de reconnaissance avec les sons autres que la parole.
- Codes temporels audio : pour générer des codes temporels précis pour les fichiers audio, vous devez configurer le paramètre
audio_timestamp
dansgeneration_config
. - Ponctuation de la transcription : (si vous utilisez Gemini 1.5 Flash) les modèles peuvent renvoyer des transcriptions qui n'incluent pas de ponctuation.
Documents (comme les PDF): conditions requises, bonnes pratiques et limites
Documents: conditions requises
Dans cette section, vous allez découvrir les types MIME compatibles et les limites par requête pour les documents (comme les PDF).
Types MIME compatibles
Les modèles Gemini multimodaux sont compatibles avec les types MIME suivants associés aux documents :
Type MIME du document | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF - application/pdf |
|||
Texte - text/plain |
Limites par requête
Les PDF sont traités comme des images. Ainsi, une page individuelle d'un PDF est traitée comme une image individuelle. Le nombre de pages autorisées dans une requête est limité au nombre d'images que le modèle peut accepter :
- Gemini 1.0 Pro Vision: 16 pages
- Gemini 1.5 Pro et Gemini 1.5 Flash: 1 000 pages
Documents: tokenisation
Tokenisation de PDF
Les PDF sont traités comme des images. Ainsi, chaque page d'un PDF est tokenisée de la même manière qu'une image.
De plus, le coût applicable aux fichiers PDF est aligné sur les tarifs Gemini pour les images. Par exemple, si vous incluez un fichier PDF de deux pages dans un appel d'API Gemini, des frais d'entrée pour le traitement de deux images vous sont facturés.
Tokenisation de texte brut
Les documents en texte brut sont tokenisés en tant que texte. Par exemple, si vous incluez un document en texte brut de 100 mots dans un appel d'API Gemini, des frais d'entrée pour le traitement de 100 mots vous sont facturés.
Documents: bonnes pratiques
Lorsque vous utilisez des fichiers PDF, suivez les bonnes pratiques et informations suivantes pour obtenir les meilleurs résultats possibles :
- Si votre requête contient un seul fichier PDF, placez-le avant le texte de la requête.
- Si votre document est long, envisagez de le diviser en plusieurs fichiers PDF pour faciliter son traitement.
- Utilisez des PDF créés avec du texte affiché sous forme de texte, plutôt que d'avoir recours à la détection de texte dans des images. Ce format garantit que le texte est lisible par un ordinateur, ce qui permet au modèle de le modifier, d'y effectuer des recherches et de le manipuler plus facilement qu'avec des fichiers PDF constitués d'images numérisées. Cette bonne pratique fournit des résultats optimaux lorsque vous travaillez avec des documents contenant beaucoup de texte (par exemple, des contrats).
Documents: limites
Bien que les modèles multimodaux Gemini soient puissants dans de nombreux cas d'utilisation multimodaux, il est important de comprendre les limites des modèles :
- Raisonnement spatial : les modèles ne parviennent pas à localiser précisément du texte ou des objets dans des PDF. Ils peuvent ne renvoyer que des décomptes approximatifs d'objets.
- Justesse : les modèles peuvent produire des hallucinations lors de l'interprétation de texte manuscrit dans des documents PDF.