The latest Gemini models, like Gemini 3.5 Flash, are available to use with Firebase AI Logic! Learn more.

Gemini 2.0 Flash and Flash-Lite models were shut down on June 1, 2026. To avoid service disruption, update to a newer model like gemini-3.1-flash-lite. Learn more.

All Imagen models will shut down on June 24, 2026. Learn about migrating your apps to use Nano Banana.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

统计 Gemini 模型的词元数

Gemini 模型以称为 token 的单位处理输入和输出。

token 可以是单个字符（例如 z）或整个字词（例如 cat）。长字词会被拆分为多个 token。模型使用的所有 token 的集合称为词汇，将文本拆分为 token 的过程称为 token 化。

对于 Gemini 模型，一个 token 相当于大约 4 个字符。 100 个 token 相当于大约 60-80 个英语单词。

每个模型具有在提示和回答中可以处理的 token 数上限。了解提示的 token 数有助于您了解是否已超出此限制。此外，请求的费用部分取决于输入和输出 token 的数量，因此了解如何统计 token 数可能会有所帮助。

支持的模型

gemini-3.1-pro-preview
gemini-3.5-flash
gemini-3.1-flash-lite
gemini-3-pro-image-preview
gemini-3.1-flash-image-preview
gemini-2.5-pro
gemini-2.5-flash
gemini-2.5-flash-lite

统计 token 数的选项

Gemini API 的所有输入和输出内容（包括文本、图片文件和其他非文本模态）都会进行 token 化。以下是统计 token 数的选项：

仅检查请求的 token 数（在将请求发送给模型之前）。

在将请求发送给模型之前，使用请求的输入调用 countTokens 。此操作会返回：

total_tokens：仅输入的 token 数

检查 请求和回答 的 token 数。

访问回答对象中的 usageMetadata 属性。这包括：

prompt_token_count：仅输入的 token 数
candidates_token_count：仅输出的 token 数（不包括思考 token）
thoughts_token_count：用于生成回答的任何思考 token 的 token 数
total_token_count：输入和输出的 token 总数（包括任何思考 token）

在流式传输输出时，usageMetadata 属性仅显示在流的最后一个块中。对于中间块，该属性为 nil。

请注意以下几点关于上述选项的事项：

它们不会统计输入图片的数量或视频或音频输入文件中的秒数。不过，每种模态的 token 数将与这些值相关。
输入 token 数包括提示（文本和任何输入文件）以及任何系统说明和工具。
输出 token 数不包括任何思考 token；这些 token 在单独的字段中提供。
请稍后在本页中查看特定于每种请求类型的其他信息。
Gemini Live API 模型不支持 countTokens。此外，Firebase AI Logic 尚不 支持 Live API 模型回答中的 usageMetadata 属性，但很快就会推出相应支持！Live API

这些选项的价格

调用 countTokens：调用 countTokens（Count Tokens API）是免费的。Count Tokens API 的最大配额为每分钟 3000 个请求 (RPM)。
使用 usageMetadata 属性：此属性始终作为回答的一部分返回，本身不会产生任何 token 或费用。

其他信息

以下是在处理特定类型的请求时的一些其他信息。

统计文本输入 token 数

无其他信息。

统计多轮（聊天）token 数

使用聊天功能时，请注意以下几点关于调用 countTokens 的事项：

如果您使用聊天记录调用 countTokens，它会返回聊天中两个角色的 token 总数 (total_tokens)。
如需了解下一个对话轮次的大小，您需要在调用 countTokens 时将其附加到历史记录中。

统计多模态输入 token 数

请注意以下几点关于使用多模态输入统计 token 数的事项：

您可以选择单独对文本和文件调用 countTokens。
对于这两种 token 统计选项，无论您是以内嵌数据还是使用网址的形式提供文件，您都将获得相同的 token 数。

图片输入文件

图片输入文件会根据其尺寸转换为 token：

两个尺寸均小于或等于 384 像素的图片输入：每张图片计为 258 个 token。
一个或两个尺寸较大的图片输入：每张图片都会根据需要剪裁和缩放为 768x768 像素的图块，然后每个图块计为 258 个 token。

视频和音频输入文件

视频和音频输入文件会按以下固定费率转换为 token：

视频：每秒 263 个 token
音频：每秒 32 个 token

文档（例如 PDF）输入文件

PDF 文件被视为图片，因此 PDF 文件的每页都会以与图片相同的方式进行 token 化。