Quando chiami il Gemini API dalla tua app utilizzando un SDK Firebase AI Logic, puoi chiedere al modello Gemini di generare testo basato su un input multimodale, come immagini, video, audio e documenti (ad esempio PDF).
Devi utilizzare tipi di file supportati, specificare un tipo MIME supportato e assicurarti che i file e le richieste multimodali soddisfino i requisiti e seguano le best practice.
Questa pagina è specifica per l'utilizzo di un GenerativeModel e descrive quanto segue:
Dettagli sui tipi MIME supportati, sulle best practice e sulle limitazioni per i seguenti input di file:
Immagini | Video | Audio | Documenti (ad esempio PDF).
Opzioni per fornire i file nelle richieste multimodali
|
Seleziona il tuo fornitore dell'API Gemini per visualizzare i contenuti specifici del fornitore in questa pagina |
In ogni richiesta multimodale, devi sempre fornire quanto segue:
Il
mimeTypedel file. Consulta i tipi MIME supportati di ogni file di input nella sezione pertinente di questa pagina.Il file. Puoi fornire il file come dati in linea o utilizzando il relativo URL.
Le dimensioni e il numero di file che puoi fornire nella richiesta sono determinati dal tipo di file di input, dalla modalità di fornitura del file e dal modello utilizzato (per i dettagli, consulta la sezione relativa a ogni tipo di file di input in questa pagina).
Opzione 1: fornisci il file come dati in linea
Tieni presente quanto segue in merito ai file forniti come dati in linea:
Solo i file di piccole dimensioni possono essere inviati come dati in linea perché il limite di dimensione totale della richiesta è di 20 MB.
Il file viene codificato in base64 durante il trasferimento (il che ne aumenta le dimensioni).
Per un esempio che mostra come includere un file come dati in linea, consulta Generare testo da input di testo e file (multimodale). Tieni presente che gli SDK per le piattaforme Android e Apple possono gestire le immagini in linea nelle richieste senza dover specificare il tipo MIME. Scopri di più.
Opzione 2: fornisci il file utilizzando un URL
Di seguito sono riportati i tipi di URL accettabili quando si utilizza il Gemini Developer API:
URL del video di YouTube: il video di YouTube deve essere pubblico o non in elenco.
Puoi specificare un solo URL di video di YouTube per richiesta.
Google Immagini: requisiti, best practice e limitazioni
Google Immagini: requisiti
In questa sezione scoprirai i tipi MIME supportati e i limiti per richiesta per le immagini.
Tipi MIME supportati
Gemini modelli multimodali supportano i seguenti tipi MIME di immagini:
- PNG -
image/png - JPEG -
image/jpeg - WebP -
image/webp
Limiti per richiesta
Non esiste un limite specifico al numero di pixel in un'immagine. Tuttavia, le immagini più grandi vengono ridimensionate e sottoposte a padding per adattarsi a una risoluzione massima di 3072 x 3072 mantenendo le proporzioni originali.
Numero massimo di file per richiesta: 3000 file immagine
Immagini: tokenizzazione
Ecco come vengono calcolati i token per le immagini:
- Se entrambe le dimensioni di un'immagine sono inferiori o uguali a 384 pixel, vengono utilizzati 258 token.
- Se una delle dimensioni di un'immagine è maggiore di 384 pixel, l' immagine viene ritagliata in riquadri. Per impostazione predefinita, la dimensione di ogni riquadro è la dimensione più piccola dimensione (larghezza o altezza) divisa per 1,5. Se necessario, ogni riquadro viene regolato in modo che non sia inferiore a 256 pixel e non superiore a 768 pixel. Ogni riquadro viene quindi ridimensionato a 768x768 e utilizza 258 token.
Google Immagini: best practice
Quando utilizzi le immagini, segui le best practice e le informazioni riportate di seguito per ottenere risultati ottimali:
- Se vuoi rilevare il testo in un'immagine, utilizza prompt con una singola immagine per ottenere risultati migliori rispetto ai prompt con più immagini.
- Se il prompt contiene una singola immagine, inseriscila prima del prompt di testo nella richiesta.
- Se il prompt contiene più immagini e vuoi farvi riferimento
in un secondo momento nel prompt o vuoi che il modello vi faccia riferimento nella risposta,
può essere utile assegnare a ogni immagine un indice prima dell'immagine. Utilizza
oabc per l'indice. Di seguito è riportato un esempio di utilizzo di immagini indicizzate in un prompt:image 1image 2image 3image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Utilizza immagini con una risoluzione più alta per ottenere risultati migliori.
- Includi alcuni esempi nel prompt.
- Ruota le immagini nell'orientamento corretto prima di aggiungerle al prompt.
- Evita le immagini sfocate.
Google Immagini: limitazioni
Sebbene i modelli multimodali Gemini siano potenti in molti casi d'uso multimodali, è importante comprenderne le limitazioni:
- Moderazione dei contenuti: i modelli si rifiutano di fornire risposte sulle immagini che violano le nostre norme sulla sicurezza.
- Ragionamento spaziale: i modelli non sono precisi nell'individuare testo o oggetti nelle immagini. Potrebbero restituire solo i conteggi approssimativi degli oggetti.
- Usi medici: i modelli non sono adatti per interpretare immagini mediche (ad esempio radiografie e tomografie) o per fornire consulenza medica.
- Riconoscimento delle persone: i modelli non sono progettati per identificare persone che non sono celebrità nelle immagini.
- Accuratezza: i modelli potrebbero avere allucinazioni o commettere errori nell'interpretazione di immagini di bassa qualità, ruotate o con una risoluzione estremamente bassa. I modelli potrebbero anche generare contenuti non veritieri quando interpretano il testo scritto a mano nei documenti immagine.
Video: requisiti, best practice e limitazioni
Video: requisiti
In questa sezione scoprirai i tipi MIME supportati e i limiti per richiesta per i video.
Tipi MIME supportati
Gemini modelli multimodali supportano i seguenti tipi MIME di video:
- FLV -
video/x-flv - MOV -
video/quicktime - MPEG -
video/mpeg - MPEGPS -
video/mpegps - MPG -
video/mpg - MP4 -
video/mp4 - WEBM -
video/webm - WMV -
video/wmv - 3GPP -
video/3gpp
Limiti per richiesta
Numero massimo di file per richiesta: 10 file video
Video: tokenizzazione
Ecco come vengono calcolati i token per i video:
-
La traccia audio viene codificata con i frame video. La traccia audio viene suddivisa in blocchi di
1 secondo , ognuno dei quali conta per 32 token. I token dei frame video e audio vengono intervallati con i relativi timestamp. I timestamp sono rappresentati da 5 token. -
Per i video campionati a una frequenza di
1 frame al secondo (fps) o inferiore, i timestamp della prima ora di video sono rappresentati da 5 token per frame video. I timestamp rimanenti sono rappresentati da 7 token per video frame. -
Per i video campionati a una frequenza superiore a
1 frame al secondo (fps) , i timestamp della prima ora di video sono rappresentati da 9 token per frame video. I timestamp rimanenti sono rappresentati da 11 token per video frame.
Video: best practice
Quando utilizzi i video, segui le best practice e le informazioni riportate di seguito per ottenere risultati ottimali:
- Se il prompt contiene un solo video, inseriscilo prima del prompt di testo prompt.
- Se hai bisogno della localizzazione dei timestamp in un video con audio, chiedi al modello di generare timestamp che seguano il formato descritto in "Formato dei timestamp".
Video: limitazioni
Sebbene i modelli multimodali Gemini siano potenti in molti casi d'uso multimodali, è importante comprenderne le limitazioni:
- Moderazione dei contenuti: i modelli si rifiutano di fornire risposte sui video che violano le nostre norme sulla sicurezza.
- Riconoscimento dei suoni non vocali: i modelli che supportano l'audio potrebbero commettere errori nel riconoscimento dei suoni non vocali.
Audio: requisiti e limitazioni
Audio: requisiti
In questa sezione scoprirai i tipi MIME supportati e i limiti per richiesta per l'audio.
Tipi MIME supportati
Gemini modelli multimodali supportano i seguenti tipi MIME di audio:
- AAC -
audio/aac - FLAC -
audio/flac - MP3 -
audio/mp3 - MPA -
audio/m4a - MPEG -
audio/mpeg - MPGA -
audio/mpga - MP4 -
audio/mp4 - OPUS -
audio/opus - PCM -
audio/pcm - WAV -
audio/wav - WEBM -
audio/webm
Limiti per richiesta
Numero massimo di file per richiesta: 1 file audio
Audio: limitazioni
Sebbene i modelli multimodali Gemini siano potenti in molti casi d'uso multimodali, è importante comprenderne le limitazioni:
- Riconoscimento dei suoni non vocali: i modelli che supportano l'audio potrebbero commettere errori nel riconoscimento dei suoni non vocali.
- Timestamp solo audio: per generare con precisione i
timestamp per i file solo audio, devi configurare il
audio_timestampparametro ingeneration_config.
Documenti (ad esempio PDF): requisiti, best practice e limitazioni
Documenti: requisiti
In questa sezione scoprirai i tipi MIME supportati e i limiti per richiesta per i documenti (ad esempio PDF).
Tipi MIME supportati
Gemini modelli multimodali supportano i seguenti tipi MIME di documenti:
- PDF -
application/pdf - Testo -
text/plain
Limiti per richiesta
I PDF vengono trattati come immagini, quindi una singola pagina di un PDF viene trattata come un immagine. Il numero di pagine consentito in un prompt è limitato al numero di immagini che i Gemini modelli multimodali possono supportare.
- Numero massimo di file per richiesta: 3000 file
- Numero massimo di pagine per file: 1000 pagine per file
- Dimensione massima per file: 50 MB per file
Documenti: tokenizzazione
Tokenizzazione dei PDF
I PDF vengono trattati come immagini, quindi ogni pagina di un PDF viene tokenizzata nello stesso modo di un'immagine.
Inoltre, il costo dei PDF segue Gemini i prezzi delle immagini. Ad esempio, se includi un PDF di due pagine in una chiamata API Gemini, ti verrà addebitata una tariffa di input per l'elaborazione di due immagini.
Documenti: best practice
Quando utilizzi i PDF, segui le best practice e le informazioni riportate di seguito per ottenere i risultati ottimali:
- Se il prompt contiene un solo PDF, inseriscilo prima del testo prompt nella richiesta.
- Se hai un documento lungo, valuta la possibilità di suddividerlo in più PDF per elaborarlo.
- Utilizza i PDF creati con il testo sottoposto a rendering come testo anziché utilizzare il testo nelle immagini scansionate. Questo formato garantisce che il testo sia leggibile dalla macchina, in modo che il modello possa modificarlo, cercarlo e manipolarlo più facilmente rispetto ai PDF di immagini scansionate. Questa pratica fornisce risultati ottimali quando si lavora con documenti con molto testo, come i contratti.
Documenti: limitazioni
Sebbene i modelli multimodali Gemini siano potenti in molti casi d'uso multimodali, è importante comprenderne le limitazioni:
- Ragionamento spaziale: i modelli non sono precisi nell'individuare testo o oggetti nei PDF. Potrebbero restituire solo i conteggi approssimativi degli oggetti.
- Precisione: i modelli potrebbero avere allucinazioni quando interpretano il testo scritto a mano nei documenti PDF.