Conteggio dei token per i modelli Gemini

I modelli Gemini elaborano input e output in unità chiamate token.

I token possono essere singoli caratteri come z o intere parole come cat. Le parole lunghe vengono suddivise in più token. L'insieme di tutti i token utilizzati dal modello è chiamato vocabolario e il processo di suddivisione del testo in token è chiamato tokenizzazione.

Per i modelli Gemini, un token equivale a circa 4 caratteri. 100 token equivalgono a circa 60-80 parole in inglese.

Ogni modello ha un numero massimo di token che può gestire in un prompt e in una risposta. Conoscere il conteggio dei token del prompt ti consente di sapere se hai superato questo limite. Inoltre, il costo di una richiesta è determinato in parte dal numero di token di input e output, quindi sapere come contare i token può essere utile.

Modelli supportati

  • gemini-3.1-pro-preview
  • gemini-3-flash-preview
  • gemini-3.1-flash-lite-preview
  • gemini-3-pro-image-preview
  • gemini-3.1-flash-image-preview
  • gemini-2.5-pro
  • gemini-2.5-flash
  • gemini-2.5-flash-lite
  • gemini-2.0-flash-001 (e il relativo alias aggiornato automaticamente gemini-2.0-flash)
  • gemini-2.0-flash-lite-001 (e il relativo alias aggiornato automaticamente gemini-2.0-flash-lite)

Opzioni per il conteggio dei token

Tutti gli input e gli output per il Gemini API vengono tokenizzati, inclusi testo, file immagine e altre modalità non testuali. Di seguito sono riportate le opzioni per il conteggio dei token:

Controlla il conteggio dei token solo per le richieste (prima di inviarle al modello).
Chiama countTokens con l'input della richiesta prima di inviarla al modello. Viene restituito:
  • total_tokens: conteggio dei token solo dell'input
Controlla il conteggio dei token sia per le richieste sia per le risposte.
Accedi all'attributo usageMetadata sull' oggetto della risposta. Sono inclusi:
  • prompt_token_count: conteggio dei token solo dell'input
  • candidates_token_count: conteggio dei token solo dell'output (non include i token di pensiero)
  • thoughts_token_count: conteggio dei token di pensiero utilizzati per generare la risposta
  • total_token_count: conteggio totale dei token per entrambi l'input e l'output (include tutti i token di pensiero)

Quando l'output viene trasmesso in streaming, l'attributo usageMetadata viene visualizzato solo nell'ultimo blocco dello stream. Per i blocchi intermedi è nil per.

Tieni presente quanto segue in merito alle opzioni sopra riportate:

  • Non verrà conteggiato il numero di immagini di input o il numero di secondi nei file di input video o audio. Tuttavia, il conteggio dei token per ciascuna di queste modalità sarà correlato a questi valori.
  • Il conteggio dei token di input include il prompt (testo e tutti i file di input), nonché le istruzioni e gli strumenti di sistema.
  • Il conteggio dei token di output non include i token di pensiero, che vengono forniti in un campo separato.
  • Esamina le informazioni aggiuntive specifiche per ogni tipo di richiesta più avanti in questa pagina.
  • I modelli Gemini Live API non supportano countTokens. Inoltre, Firebase AI Logic non supporta ancora l'attributo usageMetadata nella risposta dei modelli Live API, ma lo farà a breve.

Prezzi per queste opzioni

  • Chiamata di countTokens: non è previsto alcun addebito per la chiamata di countTokens (l'API Count Tokens). La quota massima per l'API Count Tokens è di 3000 richieste al minuto (RPM).

  • Utilizzo dell'attributo usageMetadata: questo attributo viene sempre restituito come parte della risposta e non comporta token o addebiti.

Informazioni aggiuntive

Di seguito sono riportate alcune informazioni aggiuntive quando lavori con tipi specifici di richieste.

Conteggio dei token di input di testo

Nessuna informazione aggiuntiva.

Conteggio dei token multi-turno (chat)

Tieni presente quanto segue per la chiamata di countTokens quando utilizzi la chat:

  • Se chiami countTokens con la cronologia chat, viene restituito il conteggio totale dei token di entrambi i ruoli nella chat (total_tokens).
  • Per capire quanto sarà grande il prossimo turno di conversazione, devi aggiungerlo alla cronologia quando chiami countTokens.

Conteggio dei token di input multimodali

Tieni presente quanto segue in merito al conteggio dei token con input multimodali:

  • Puoi chiamare facoltativamente countTokens sul testo e sul file separatamente.
  • Per entrambe le opzioni di conteggio dei token, otterrai lo stesso conteggio dei token sia che fornisci il file come dati in linea sia che utilizzi il relativo URL.

File di input immagine

I file di input immagine vengono convertiti in token in base alle loro dimensioni:

  • Input immagine con entrambe le dimensioni inferiori o uguali a 384 pixel: ogni immagine viene conteggiata come 258 token.
  • Input immagine più grandi in una o entrambe le dimensioni: ogni immagine viene ritagliata e scalata in base alle esigenze in riquadri di 768 x 768 pixel, quindi ogni riquadro viene conteggiato come 258 token.

File di input video e audio

I file di input video e audio vengono convertiti in token alle seguenti tariffe fisse:

  • Video: 263 token al secondo
  • Audio: 32 token al secondo

File di input di documenti (ad es. PDF)

I file di input PDF vengono trattati come immagini, quindi ogni pagina di un PDF viene tokenizzata nello stesso modo di un'immagine.