Quando chiami Vertex AI Gemini API dalla tua app utilizzando un SDK Vertex AI in Firebase, puoi chiedere al modello Gemini di generare del testo in base a un input multimodale. I prompt multimodali possono includere più modalità (o tipi di input), come testo, immagini, PDF, video e audio.
Per le parti non di testo dell'input (ad esempio i file multimediali), devi utilizzare tipi di file supportati, specificare un tipo MIME supportato e assicurarti che i file e le richieste multimodali soddisfino i requisiti e le best practice.
Questa pagina descrive i tipi MIME supportati, le best practice e le limitazioni per quanto riguarda:
Requisiti specifici per gli SDK Vertex AI in Firebase
Per gli SDK Vertex AI in Firebase, le dimensioni totali massime della richiesta sono di 20 MB. Viene visualizzato un errore HTTP 413 se una richiesta è troppo grande.
Se le dimensioni di un file fanno sì che le dimensioni totali della richiesta superino i 20 MB, utilizza un URL Cloud Storage for Firebase per includere il file nella richiesta multimodale.
Se un file è di piccole dimensioni, spesso puoi trasmetterlo direttamente come dati in linea. Tieni presente, però, che un file fornito come dati in linea viene codificato in base64 durante il transito, il che aumenta le dimensioni della richiesta. Per esempi che mostrano come includere i file come dati in linea, consulta Genera testo da prompt multimodali utilizzando l'API Gemini.
Immagini: requisiti, best practice e limitazioni
Immagini: requisiti
In questa sezione vengono descritti i tipi MIME supportati e i limiti per richiesta per le immagini.
Tipi MIME supportati
I modelli multimodali Gemini supportano i seguenti tipi MIME di immagini:
Tipo MIME immagine | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
|||
WebP - image/webp |
Limiti per richiesta
Non esiste un limite specifico al numero di pixel di un'immagine. Tuttavia, le immagini più grandi vengono ridimensionate e riempite per adattarsi a una risoluzione massima di 3072 x 3072 mantenendo le proporzioni originali.
Ecco il numero massimo di file immagine consentiti in una richiesta di prompt:
- Gemini 1.0 Pro Vision: 16 immagini
- Gemini 1.5 Flash e Gemini 1.5 Pro: 3000 immagini
Immagini: tokenizzazione
Ecco come vengono calcolati i token per le immagini:
- Gemini 1.0 Pro Vision: ogni immagine rappresenta 258 token.
- Gemini 1.5 Flash e Gemini 1.5 Pro:
- Se entrambe le dimensioni di un'immagine sono inferiori o uguali a 384 pixel, vengono utilizzati 258 token.
- Se una dimensione di un'immagine è superiore a 384 pixel, l'immagine viene ritagliata in riquadri. Per impostazione predefinita, la dimensione di ogni riquadro corrisponde alla dimensione minima (larghezza o altezza) divisa per 1,5. Se necessario, ogni riquadro viene modificato in modo che non sia più piccolo di 256 pixel e non più grande di 768 pixel. Ogni riquadro viene quindi ridimensionato in 768 x 768 e utilizza 258 token.
Immagini: best practice
Quando utilizzi le immagini, segui queste best practice e informazioni per ottenere risultati ottimali:
- Se vuoi rilevare il testo in un'immagine, utilizza i prompt con una singola immagine per ottenere risultati migliori rispetto ai prompt con più immagini.
- Se il prompt contiene una singola immagine, posizionala prima del prompt di testo nella richiesta.
- Se il prompt contiene più immagini e vuoi farvi riferimento in un secondo momento o fare in modo che il modello vi faccia riferimento nella risposta del modello, può essere utile assegnare un indice a ciascuna immagine prima dell'immagine. Utilizza
oa
b
c
per l'indice. Di seguito è riportato un esempio di utilizzo di immagini indicizzate in un prompt:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Utilizza immagini con risoluzione più elevata, che offrono risultati migliori.
- Includi alcuni esempi nel prompt.
- Ruota le immagini per orientarle correttamente prima di aggiungerle al prompt.
- Evita immagini sfocate.
Immagini: limitazioni
Sebbene i modelli multimodali Gemini siano potenti in molti casi d'uso multimodali, è importante comprendere i limiti dei modelli:
- Moderazione dei contenuti: i modelli rifiutano di fornire risposte su immagini che violano le nostre norme sulla sicurezza.
- Ragionamento spaziale: i modelli non sono precisi nel localizzare testo o oggetti nelle immagini. Potrebbero restituire solo i conteggi approssimativi degli oggetti.
- Usi medici: i modelli non sono adatti per interpretare immagini mediche (ad esempio radiografie e tomografie) o per fornire consulenza medica.
- Riconoscimento delle persone: i modelli non sono pensati per essere utilizzati per identificare persone che non sono celebrità nelle immagini.
- Accuratezza: i modelli potrebbero avere allucinazioni o commettere errori durante l'interpretazione di immagini di bassa qualità, ruotate o con risoluzione estremamente bassa. I modelli potrebbero anche avere allucinazioni durante l'interpretazione del testo scritto a mano nei documenti con immagini.
Video: requisiti, best practice e limitazioni
Video: requisiti
In questa sezione vengono descritti i tipi MIME supportati e i limiti per richiesta per i video.
Tipi MIME supportati
I modelli multimodali Gemini supportano i seguenti tipi MIME video:
Tipo MIME video | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/quicktime |
|||
MPEG - video/mpeg |
|||
MPEGPS - video/mpegps |
|||
MPG - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
Limiti per richiesta
Ecco il numero massimo di file video consentiti in una richiesta di prompt:
- Gemini 1.0 Pro Vision: 1 file video
- Gemini 1.5 Flash e Gemini 1.5 Pro: 10 file video
Video: tokenizzazione
Ecco come vengono calcolati i token per i video:
- Tutti i modelli multimodali Gemini: i video vengono campionati a
1 frame al secondo (fps) . Ogni fotogramma video corrisponde a 258 token. - Gemini 1.5 Flash e
Gemini 1.5 Pro: la traccia audio viene codificata
con i frame video. La traccia audio è suddivisa anche in
trunk di 1 secondo , ciascuno dei quali corrisponde a 32 token. Il frame video e i token audio sono interlacciati con i rispettivi timestamp. I timestamp sono rappresentati come 7 token.
Video: best practice
Quando utilizzi i video, segui le best practice e le informazioni seguenti per ottenere i migliori risultati:
- Se il prompt contiene un singolo video, posizionalo prima del prompt di testo.
- Se hai bisogno di localizzazione dei timestamp in un video con audio, chiedi al modello di generare i timestamp nel formato
MM:SS
, in cui le prime due cifre rappresentano i minuti e le ultime due i secondi. Utilizza lo stesso formato per le domande che richiedono un timestamp. Tieni presente quanto segue se utilizzi Gemini 1.0 Pro Vision:
- Non utilizzare più di un video per prompt.
- Il modello elabora le informazioni solo nei primi due minuti del video.
- Il modello elabora i video come fotogrammi di immagini non contigui del video. L'audio non è incluso. Se noti che nel modello mancano alcuni contenuti, prova ad accorciare il video, in modo che acquisisca una parte maggiore dei contenuti video.
- Il modello non elabora informazioni audio o metadati di timestamp. Per questo motivo, il modello potrebbe non funzionare bene nei casi d'uso che richiedono un input audio, come l'audio dei sottotitoli codificati o informazioni correlate al tempo, come velocità o ritmo.
Video: limitazioni
Sebbene i modelli multimodali Gemini siano potenti in molti casi d'uso multimodali, è importante comprendere i limiti dei modelli:
- Moderazione dei contenuti: i modelli rifiutano di fornire risposte su video che violano le nostre norme sulla sicurezza.
- Riconoscimento di suoni non vocali: i modelli che supportano l'audio potrebbero commettere errori nel riconoscimento di suoni diversi dalla voce.
- Movimento ad alta velocità: i modelli potrebbero commettere errori
nell'interpretare il movimento ad alta velocità nei video a causa della frequenza di sampling fissa
di
1 frame al secondo (fps) . - Puntuazione della trascrizione: (se utilizzi Gemini 1.5 Flash) I modelli potrebbero restituire trascrizioni che non includono la punteggiatura.
Audio: requisiti e limitazioni
Audio: requisiti
In questa sezione vengono descritti i tipi MIME supportati e i limiti per richiesta per l'audio.
Tipi MIME supportati
I modelli multimodali Gemini supportano i seguenti tipi MIME audio:
Tipo MIME audio | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
Limiti per richiesta
Puoi includere un massimo di
Audio: limitazioni
Sebbene i modelli multimodali di Gemini siano efficaci in molti casi di utilizzo multimodale, è importante comprendere i loro limiti:
- Riconoscimento di suoni non vocali: i modelli che supportano l'audio potrebbero commettere errori nel riconoscimento di suoni diversi dalla voce.
- Timestamp solo audio: per generare con precisione
timestamp per i file di solo audio, devi configurare il parametro
audio_timestamp
ingeneration_config
. - Puntuazione della trascrizione: (se utilizzi Gemini 1.5 Flash) I modelli potrebbero restituire trascrizioni che non includono la punteggiatura.
Documenti (ad esempio PDF): requisiti, best practice e limitazioni
Documenti: requisiti
In questa sezione vengono descritti i tipi MIME supportati e i limiti per richiesta per i documenti (ad esempio i PDF).
Tipi MIME supportati
I modelli multimodali Gemini supportano i seguenti tipi MIME dei documenti:
Tipo MIME del documento | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF - application/pdf |
|||
Testo: text/plain |
Limiti per richiesta
I PDF vengono trattati come immagini, quindi una singola pagina di un PDF viene considerata come un'immagine. Il numero di pagine consentite in un prompt è limitato al numero di immagini che il modello può supportare:
- Gemini 1.0 Pro Vision: 16 pagine
- Gemini 1.5 Pro e Gemini 1.5 Flash: 1000 pagine
Documenti: tokenizzazione
Tokenizzazione PDF
I PDF vengono trattati come immagini, pertanto ogni pagina di un PDF viene tokenizzata nello stesso modo di un'immagine.
Inoltre, il costo dei PDF segue i prezzi delle immagini di Gemini. Ad esempio, se includi un PDF di due pagine in una chiamata API Gemini, ti viene addebitata una tariffa di input per l'elaborazione di due immagini.
Tokenizzazione testo normale
I documenti in testo normale vengono tokenizzati come testo. Ad esempio, se includi un documento di testo normale di 100 parole in una chiamata API Gemini, ti verrà addebitata una tariffa per l'elaborazione di 100 parole.
Documenti: best practice
Quando utilizzi i PDF, segui le best practice e le informazioni riportate di seguito per ottenere risultati ottimali:
- Se il prompt contiene un singolo PDF, inseriscilo prima del prompt di testo nella richiesta.
- Se hai un documento lungo, ti consigliamo di suddividerlo in più PDF per poterlo elaborare.
- Utilizza i PDF creati con il testo visualizzato come testo anziché utilizzare il testo nelle immagini scansionate. Questo formato garantisce che il testo sia leggibile dalla macchina, in modo che sia più facile per il modello modificarlo, cercarlo e manipolarlo rispetto ai PDF di immagini acquisite. Questa pratica offre risultati ottimali quando si lavora con documenti con molto testo, come i contratti.
Documenti: limitazioni
Sebbene i modelli multimodali di Gemini siano efficaci in molti casi di utilizzo multimodale, è importante comprendere i loro limiti:
- Ragionamento spaziale: i modelli non sono precisi nell'individuare testo o oggetti nei PDF. Potrebbero restituire solo i conteggi approssimativi degli oggetti.
- Accuratezza: i modelli potrebbero avere allucinazioni durante l'interpretazione del testo scritto a mano nei documenti PDF.