File di input supportati e requisiti per l'API Gemini di Vertex AI

Quando chiami il Vertex AI Gemini API dalla tua app utilizzando un SDK Vertex AI in Firebase, puoi richiedere al modello Gemini di generare testo in base a un input multimodale. I prompt multimodali possono includere più modalità (o tipi di input), come testo insieme a immagini, PDF, video e audio.

Per le parti non di testo dell'input (ad esempio i file multimediali), devi utilizzare tipi di file supportati, specificare un tipo MIME supportato e assicurarti che i file e le richieste multimodali soddisfino i requisiti e le best practice.

Questa pagina descrive i tipi MIME supportati, le best practice e le limitazioni per:

Requisiti specifici per gli SDK Vertex AI in Firebase

Per gli SDK Vertex AI in Firebase, le dimensioni totali massime della richiesta sono di 20 MB. Ricevi un errore HTTP 413 se una richiesta è troppo grande.



Immagini: requisiti, best practice e limitazioni

Immagini: requisiti

In questa sezione vengono descritti i tipi MIME supportati e i limiti per richiesta per in formato Docker.

Tipi MIME supportati

I modelli multimodali Gemini supportano i seguenti tipi MIME di immagini:

Tipo MIME immagine Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG - image/png
JPEG - image/jpeg
WebP - image/webp

Limiti per richiesta

Non esiste un limite specifico al numero di pixel in un'immagine. Tuttavia, le immagini più grandi vengono ridimensionate e riempite per adattarsi a una risoluzione massima di 3072 x 3072 mantenendo le proporzioni originali.

Ecco il numero massimo di file immagine consentiti in una richiesta di prompt:

  • Gemini 1.0 Pro Vision: 16 immagini
  • Gemini 1.5 Flash e Gemini 1.5 Pro: 3000 immagini

Immagini: tokenizzazione

Ecco come vengono calcolati i token per le immagini:

  • Gemini 1.0 Pro Vision: ogni immagine rappresenta per 258 token.
  • Gemini 1.5 Flash e Gemini 1.5 Pro:
    • Se entrambe le dimensioni di un'immagine sono minori o uguali a 384 pixel, vengono utilizzati 258 token.
    • Se una dimensione di un'immagine è superiore a 384 pixel, l'immagine viene ritagliata in riquadri. Per impostazione predefinita, ogni dimensione del riquadro è la più piccola (larghezza o altezza) diviso per 1,5. Se necessario, ogni riquadro viene modificato in modo che non sia più piccolo di 256 pixel e non più grande di 768 pixel. Ogni riquadro viene quindi ridimensionato in 768 x 768 e utilizza 258 token.

Immagini: best practice

Quando utilizzi le immagini, segui queste best practice e informazioni per ottenere risultati ottimali:

  • Se vuoi rilevare il testo in un'immagine, utilizza i prompt con una singola immagine per ottenere risultati migliori rispetto ai prompt con più immagini.
  • Se il prompt contiene una singola immagine, posizionala prima del prompt di testo nella richiesta.
  • Se il prompt contiene più immagini e vuoi farvi riferimento più avanti nel prompt o vuoi che il modello vi faccia riferimento nella risposta, può essere utile assegnare a ogni immagine un indice prima dell'immagine. Utilizza le funzionalità di a b c oppure image 1 image 2 image 3 per il tuo indice. Di seguito è riportato un esempio di utilizzo di immagini indicizzate in un :
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • Utilizzare immagini con risoluzione più alta. otteniamo risultati migliori.
  • Includi alcuni esempi nel prompt.
  • Ruota le immagini in modo che siano orientate correttamente prima di aggiungerle al prompt.
  • Evita immagini sfocate.

Immagini: limitazioni

Sebbene i modelli multimodali di Gemini siano efficaci in molti casi di utilizzo multimodale, è importante comprendere i loro limiti:

  • Moderazione dei contenuti: i modelli si rifiutano di fornire risposte. sulle immagini che violano le nostre norme sulla sicurezza.
  • Ragionamento spaziale: i modelli non sono precisi nel localizzare di testo o oggetti nelle immagini. Potrebbero restituire solo i conteggi approssimativi di di oggetti strutturati.
  • Usi medici: i modelli non sono adatti per interpretare immagini mediche (ad esempio radiografie e tomografie) o per fornire consulenza medica.
  • Riconoscimento di persone: i modelli non sono pensati per essere utilizzati per identificare persone che non sono celebrità nelle immagini.
  • Accuratezza: i modelli potrebbero avere allucinazioni o commettere errori durante l'interpretazione di immagini di bassa qualità, ruotate o con risoluzione estremamente bassa. I modelli potrebbero anche avere allucinazioni quando interpretano il testo scritto a mano in di immagine.



Video: requisiti, best practice e limitazioni

Video: requisiti

In questa sezione vengono descritti i tipi MIME supportati e i limiti per richiesta per video.

Tipi MIME supportati

I modelli multimodali Gemini supportano i seguenti tipi MIME video:

Tipo MIME video Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

Limiti per richiesta

Ecco il numero massimo di file video consentiti in una richiesta di prompt:

  • Gemini 1.0 Pro Vision: 1 file video
  • Gemini 1.5 Flash e Gemini 1.5 Pro: 10 file video

Video: tokenizzazione

Ecco come vengono calcolati i token per i video:

  • Tutti i modelli multimodali Gemini: i video vengono campionati a 1 frame al secondo (fps). Ogni frame video rappresenta 258 di token.
  • Gemini 1.5 Flash e Gemini 1.5 Pro: la traccia audio viene codificata con i frame video. La traccia audio è suddivisa anche in trunk di 1 secondo, ciascuno dei quali corrisponde a 32 token. I frame video e i token audio vengono interlacciati insieme ai relativi timestamp. I timestamp sono rappresentati come 7 token.

Video: best practice

Quando utilizzi i video, segui le best practice e le informazioni riportate di seguito per ottenere risultati ottimali:

  • Se il prompt contiene un singolo video, posizionalo prima del prompt di testo.
  • Se hai bisogno di localizzare il timestamp in un video con audio, chiedi al modello per generare timestamp nel formato MM:SS in cui le prime due cifre rappresentano i minuti e le ultime due cifre rappresentano i secondi. Utilizza lo stesso formato per le domande che richiedono un timestamp.
  • Tieni presente quanto segue se utilizzi Gemini 1.0 Pro Vision:

    • Non utilizzare più di un video per richiesta.
    • Il modello elabora solo le informazioni dei primi due minuti del video.
    • Il modello elabora i video come frame di immagini non contigui del video. L'audio non è incluso. Se noti che nel modello mancano alcuni contenuti del video, prova ad accorciare il video in modo che il modello la maggior parte dei contenuti video.
    • Il modello non elabora informazioni audio o timestamp metadati. Per questo motivo, il modello potrebbe non funzionare bene nei casi d'uso che richiedono input audio, ad esempio i sottotitoli codificati, o informazioni relative al tempo, ad esempio velocità o ritmo.

Video: limitazioni

Sebbene i modelli multimodali Gemini siano potenti in molti utilizzi multimodali, in questi casi, è importante comprendere i limiti dei modelli:

  • Moderazione dei contenuti: i modelli si rifiutano di fornire risposte su video che violano le nostre norme sulla sicurezza.
  • Riconoscimento di suoni non vocali: i modelli che supportano l'audio potrebbero commettere errori nel riconoscere i suoni non vocali.
  • Movimento ad alta velocità: i modelli potrebbero commettere errori nell'interpretare i movimenti ad alta velocità nei video a causa della frequenza di campionatura fissa di 1 frame al secondo (fps).
  • Punteggiatura delle trascrizioni: (se utilizzi Gemini 1.5 Flash) I modelli potrebbero restituire trascrizioni che non includono punteggiatura.



Audio: requisiti e limitazioni

Audio: requisiti

In questa sezione vengono descritti i tipi MIME supportati e i limiti per richiesta per l'audio.

Tipi MIME supportati

I modelli multimodali Gemini supportano i seguenti tipi MIME audio:

Tipo MIME audio Gemini 1.5 Flash Gemini 1.5 Pro
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

Limiti per richiesta

Puoi includere al massimo 1 file audio in una richiesta di prompt.

Audio: limitazioni

Sebbene i modelli multimodali Gemini siano potenti in molti utilizzi multimodali, in questi casi, è importante comprendere i limiti dei modelli:

  • Riconoscimento di suoni non vocali: i modelli che supportano l'audio potrebbero commettere errori nel riconoscere i suoni non vocali.
  • Timestamp solo audio: per generare con precisione timestamp per i file di solo audio, devi configurare il parametro audio_timestamp tra generation_config.
  • Punteggiatura delle trascrizioni: (se utilizzi Gemini 1.5 Flash) I modelli potrebbero restituire trascrizioni che non includono punteggiatura.



Documenti (come i PDF): requisiti, best practice e limitazioni.

Documenti: requisiti

In questa sezione vengono descritti i tipi MIME supportati e i limiti per richiesta per i documenti (ad esempio i PDF).

Tipi MIME supportati

I modelli multimodali Gemini supportano i seguenti tipi MIME dei documenti:

Tipo MIME documento Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PDF - application/pdf
Testo - text/plain

Limiti per richiesta

I PDF vengono trattati come immagini, quindi una singola pagina di un PDF viene considerata come una singola pagina. dell'immagine. Il numero di pagine consentite in un prompt è limitato al numero di immagini che il modello può supportare:

  • Gemini 1.0 Pro Vision: 16 pagine
  • Gemini 1.5 Pro e Gemini 1.5 Flash: 1000 pagine

Documenti: tokenizzazione

Tokenizzazione PDF

I PDF vengono trattati come immagini, quindi ogni pagina di un PDF viene tokenizzata nello stesso molto simile a un'immagine.

Inoltre, il costo dei PDF segue Prezzi delle immagini Gemini. Ad esempio, se includi un PDF di due pagine in una chiamata all'API Gemini, ti viene addebitata una commissione di importo pari all'elaborazione di due immagini.

Tokenizzazione del testo normale

I documenti di testo normale sono tokenizzati come testo. Ad esempio, se includi un documento di testo normale di 100 parole in una chiamata all'API Gemini, ti viene addebitata una tariffa di importazione per l'elaborazione di 100 parole.

Documenti: best practice

Quando utilizzi i PDF, segui le best practice e le informazioni riportate di seguito per i migliori risultati:

  • Se il prompt contiene un singolo PDF, posiziona il PDF prima del testo nella tua richiesta.
  • Se hai un documento lungo, ti consigliamo di suddividerlo in più PDF per poterlo elaborare.
  • Utilizza i PDF creati con testo visualizzato come testo anziché utilizzare il testo scansionate le immagini. Questo formato garantisce che il testo sia leggibile dalla macchina, in modo che sia più facile per il modello modificarlo, cercarlo e manipolarlo rispetto ai PDF di immagini acquisite. Questa prassi offre risultati ottimali quando si lavora con documenti con molto testo, come i contratti.

Documenti: limitazioni

Sebbene i modelli multimodali Gemini siano potenti in molti utilizzi multimodali, in questi casi, è importante comprendere i limiti dei modelli:

  • Ragionamento spaziale: i modelli non sono precisi nel localizzare testo o oggetti nei PDF. Potrebbero restituire solo i conteggi approssimativi degli oggetti.
  • Accuratezza: i modelli potrebbero avere allucinazioni durante l'interpretazione del testo scritto a mano nei documenti PDF.