Tokens für Gemini-Modelle zählen

Gemini Modelle verarbeiten Eingaben und Ausgaben in Einheiten, die als Tokens bezeichnet werden.

Tokens können einzelne Zeichen wie z oder ganze Wörter wie cat sein. Lange Wörter werden in mehrere Tokens aufgeteilt. Die Menge aller vom Modell verwendeten Tokens wird als Vokabular bezeichnet und der Vorgang, Text in Tokens aufzuteilen, als Tokenisierung.

Bei Gemini Modellen entspricht ein Token etwa 4 Zeichen. 100 Tokens entsprechen etwa 60–80 englischen Wörtern.

Jedes Modell hat eine maximale Anzahl von Tokens die es in einem Prompt und einer Antwort verarbeiten kann. Wenn Sie die Anzahl der Tokens in Ihrem Prompt kennen, wissen Sie, ob Sie dieses Limit überschritten haben. Außerdem werden die Kosten einer Anfrage teilweise durch die Anzahl der Eingabe- und Ausgabetokens bestimmt. Daher kann es hilfreich sein, zu wissen, wie Tokens gezählt werden.

Unterstützte Modelle

  • gemini-3.1-pro-preview
  • gemini-3-flash-preview
  • gemini-3.1-flash-lite-preview
  • gemini-3-pro-image-preview
  • gemini-3.1-flash-image-preview
  • gemini-2.5-pro
  • gemini-2.5-flash
  • gemini-2.5-flash-lite
  • gemini-2.0-flash-001 und sein automatisch aktualisierter Alias gemini-2.0-flash
  • gemini-2.0-flash-lite-001 und sein automatisch aktualisierter Alias gemini-2.0-flash-lite

Optionen zum Zählen von Tokens

Alle Ein- und Ausgaben für die Gemini API werden tokenisiert, einschließlich Text, Bild dateien und anderer nicht textbasierter Modalitäten. Hier sind die Optionen zum Zählen von Tokens:

Anzahl der Tokens nur für Ihre Anfragen prüfen (bevor Sie sie an das Modell senden).
Rufen Sie countTokens mit der Eingabe der Anfrage auf, bevor Sie sie an das Modell senden. Folgendes wird zurückgegeben:
  • total_tokens: Anzahl der Tokens der Eingabe
Anzahl der Tokens für Anfragen und Antworten prüfen.
Greifen Sie auf das Attribut usageMetadata des Antwortobjekts zu. Dazu gehören:
  • prompt_token_count: Anzahl der Tokens der Eingabe
  • candidates_token_count: Anzahl der Tokens der Ausgabe (ohne Denk-Tokens)
  • thoughts_token_count: Anzahl der Tokens, die für Denkprozesse verwendet wurden, um die Antwort zu generieren
  • total_token_count: Gesamtzahl der Tokens für sowohl die Eingabe als auch die Ausgabe (einschließlich aller Denk-Tokens)

Bei der Streaming-Ausgabe wird das usageMetadata Attribut nur im letzten Chunk des Streams angezeigt. Bei Zwischen-Chunks ist es nil für Zwischen-Chunks.

Beachten Sie die folgenden Punkte zu den oben genannten Optionen:

  • Die Anzahl der Eingabebilder oder die Anzahl der Sekunden in Video- oder Audioeingabedateien wird nicht gezählt. Die Anzahl der Tokens für jede dieser Modalitäten korreliert jedoch mit diesen Werten.
  • Die Anzahl der Eingabetokens umfasst den Prompt (Text und alle Eingabedateien) sowie alle Systemanweisungen und Tools.
  • Die Anzahl der Ausgabetokens enthält keine Denk-Tokens. Diese werden in einem separaten Feld angegeben.
  • Weitere Informationen zu den einzelnen Anfragetypen finden Sie weiter unten auf dieser Seite.
  • Gemini Live API Modelle unterstützen nicht countTokens. Außerdem wird das Attribut usageMetadata in der Antwort von Live API Modellen von Firebase AI Logic noch nicht unterstützt, aber das wird bald der Fall sein.

Preise für diese Optionen

  • countTokens aufrufen: Für den Aufruf von countTokens (der Count Tokens API) fallen keine Gebühren an. Das maximale Kontingent für die Count Tokens API beträgt 3.000 Anfragen pro Minute.

  • Attribut usageMetadata verwenden: Dieses Attribut wird immer als Teil der Antwort zurückgegeben und verursacht keine Tokens oder Gebühren.

Weitere Informationen

Hier finden Sie weitere Informationen zur Verwendung bestimmter Anfragetypen.

Tokens für Texteingaben zählen

Keine weiteren Informationen.

Tokens für Unterhaltungen (Chat) zählen

Beachten Sie Folgendes, wenn Sie countTokens bei der Verwendung des Chats aufrufen:

  • Wenn Sie countTokens mit dem Chatverlauf aufrufen, wird die Gesamtzahl der Tokens aus beiden Rollen im Chat zurückgegeben (total_tokens).
  • Wenn Sie wissen möchten, wie groß Ihre nächste Unterhaltung sein wird, müssen Sie sie beim Aufruf von countTokens an den Verlauf anhängen.

Tokens für multimodale Eingaben zählen

Beachten Sie die folgenden Punkte zum Zählen von Tokens mit multimodalen Eingaben:

  • Optional können Sie countTokens für den Text und die Datei separat aufrufen.
  • Bei beiden Optionen zum Zählen von Tokens erhalten Sie die gleiche Anzahl von Tokens, unabhängig davon, ob Sie die Datei als Inline-Daten oder über ihre URL angeben.

Eingabedateien für Bilder

Eingabedateien für Bilder werden anhand ihrer Abmessungen in Tokens umgewandelt:

  • Bildeingaben mit beiden Abmessungen von maximal 384 Pixel: Jedes Bild wird als 258 Tokens gezählt.
  • Bildeingaben, die in einer oder beiden Abmessungen größer sind: Jedes Bild wird nach Bedarf in Kacheln mit 768 × 768 Pixel zugeschnitten und skaliert. Jede Kachel wird dann als 258 Tokens gezählt.

Eingabedateien für Videos und Audios

Eingabedateien für Videos und Audios werden zu den folgenden festen Raten in Tokens umgewandelt:

  • Video: 263 Tokens pro Sekunde
  • Audio: 32 Tokens pro Sekunde

Eingabedateien für Dokumente (z. B. PDFs)

PDF-Eingabedateien werden als Bilder behandelt. Jede Seite eines PDFs wird also auf dieselbe Weise tokenisiert wie ein Bild.