The latest Gemini models, like Gemini 3.5 Flash, are available to use with Firebase AI Logic! Learn more.

All Imagen models will shut down as early as June 30, 2026. Learn about migrating your apps to use Nano Banana.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Đếm số lượng mã thông báo cho các mô hình Gemini

Gemini mô hình xử lý dữ liệu đầu vào và đầu ra theo đơn vị gọi là mã thông báo.

Mã thông báo có thể là các ký tự đơn như z hoặc toàn bộ từ như cat. Các từ dài được chia thành nhiều mã thông báo. Tập hợp tất cả mã thông báo mà mô hình sử dụng được gọi là từ vựng và quá trình chia văn bản thành mã thông báo được gọi là phân tách thành mã thông báo.

Đối với các mô hình Gemini, một mã thông báo tương đương với khoảng 4 ký tự. 100 mã thông báo tương đương với khoảng 60 đến 80 từ tiếng Anh.

Mỗi mô hình có số lượng mã thông báo tối đa mà mô hình đó có thể xử lý trong một lời nhắc và câu trả lời. Khi biết số lượng mã thông báo của lời nhắc, bạn sẽ biết liệu mình có vượt quá giới hạn này hay không. Ngoài ra, chi phí của một yêu cầu được xác định một phần dựa trên số lượng mã thông báo đầu vào và đầu ra, vì vậy, việc biết cách đếm mã thông báo có thể hữu ích.

Mô hình được hỗ trợ

gemini-3.1-pro-preview
gemini-3.5-flash
gemini-3.1-flash-lite
gemini-3-pro-image (còn gọi là "Nano Banana Pro")
gemini-3.1-flash-image (còn gọi là "Nano Banana 2")
gemini-3.1-flash-lite-image (còn gọi là "Nano Banana 2 Lite")
gemini-2.5-pro
gemini-2.5-flash
gemini-2.5-flash-lite

Các lựa chọn đếm mã thông báo

Tất cả dữ liệu đầu vào và đầu ra cho Gemini API đều được phân tách thành mã thông báo, bao gồm văn bản, tệp hình ảnh và các phương thức không phải văn bản khác. Dưới đây là các lựa chọn đếm mã thông báo:

Kiểm tra số lượng mã thông báo cho riêng các yêu cầu (trước khi gửi các yêu cầu đó đến mô hình).

Gọi countTokens với dữ liệu đầu vào của yêu cầu trước khi gửi yêu cầu đó đến mô hình. Thao tác này sẽ trả về:

total_tokens: số lượng mã thông báo của riêng dữ liệu đầu vào

Kiểm tra số lượng mã thông báo cho cả yêu cầu và câu trả lời.

Truy cập vào thuộc tính usageMetadata trên đối tượng phản hồi. Thuộc tính này bao gồm:

prompt_token_count: số lượng mã thông báo của riêng dữ liệu đầu vào
candidates_token_count: số lượng mã thông báo của riêng dữ liệu đầu ra (không bao gồm mã thông báo suy nghĩ)
thoughts_token_count: số lượng mã thông báo của mọi mã thông báo suy nghĩ được dùng để tạo câu trả lời
total_token_count: tổng số lượng mã thông báo cho cả dữ liệu đầu vào và đầu ra (bao gồm mọi mã thông báo suy nghĩ)

Khi truyền trực tuyến dữ liệu đầu ra, thuộc tính usageMetadata chỉ xuất hiện trên phần cuối cùng của luồng. Thuộc tính này là nil đối với các phần trung gian.

Hãy lưu ý những điểm sau về các lựa chọn nêu trên:

Các lựa chọn này sẽ không đếm số lượng hình ảnh đầu vào hoặc số giây trong tệp âm thanh hoặc video đầu vào. Tuy nhiên, số lượng mã thông báo cho từng phương thức này sẽ tương quan với các giá trị này.
Số lượng mã thông báo đầu vào bao gồm lời nhắc (văn bản và mọi tệp đầu vào) cũng như mọi hướng dẫn và công cụ của hệ thống.
Số lượng mã thông báo đầu ra không bao gồm bất kỳ mã thông báo suy nghĩ nào; các mã thông báo đó được cung cấp trong một trường riêng.
Xem thông tin bổ sung dành riêng cho từng loại yêu cầu ở phần sau trên trang này.
Các mô hình Gemini Live API không hỗ trợ countTokens. Ngoài ra, Firebase AI Logic hiện chưa hỗ trợ thuộc tính usageMetadata đó trong câu trả lời từ Live API mô hình, nhưng tính năng này sắp ra mắt!

Giá cho các lựa chọn này

Gọi countTokens: Bạn không phải trả phí khi gọi countTokens (Count Tokens API). Hạn mức tối đa cho Count Tokens API là 3.000 yêu cầu mỗi phút (RPM).
Sử dụng thuộc tính usageMetadata: Thuộc tính này luôn được trả về trong câu trả lời và không phát sinh bất kỳ mã thông báo hoặc chi phí nào.

Thông tin khác

Dưới đây là một số thông tin khác khi bạn làm việc với các loại yêu cầu cụ thể.

Đếm mã thông báo đầu vào văn bản

Không có thông tin khác.

Đếm mã thông báo nhiều lượt (trò chuyện)

Hãy lưu ý những điểm sau khi gọi countTokens khi sử dụng tính năng trò chuyện:

Nếu bạn gọi countTokens bằng nhật ký trò chuyện, thì hệ thống sẽ trả về tổng số mã thông báo từ cả hai vai trò trong cuộc trò chuyện (total_tokens).
Để biết lượt trò chuyện tiếp theo của bạn sẽ có quy mô như thế nào, bạn cần thêm lượt trò chuyện đó vào nhật ký khi gọi countTokens.

Đếm mã thông báo đầu vào đa phương thức

Hãy lưu ý những điểm sau về việc đếm mã thông báo bằng dữ liệu đầu vào đa phương thức:

Bạn có thể tuỳ ý gọi countTokens trên văn bản và tệp riêng biệt.
Đối với cả hai lựa chọn đếm mã thông báo, bạn sẽ nhận được cùng một số lượng mã thông báo cho dù bạn cung cấp tệp dưới dạng dữ liệu nội dòng hay sử dụng URL của tệp đó.

Tệp đầu vào hình ảnh

Tệp đầu vào hình ảnh được chuyển đổi thành mã thông báo dựa trên kích thước của tệp đó:

Dữ liệu đầu vào hình ảnh có cả hai kích thước nhỏ hơn hoặc bằng 384 pixel: mỗi hình ảnh được tính là 258 mã thông báo.
Dữ liệu đầu vào hình ảnh có kích thước lớn hơn ở một hoặc cả hai chiều: mỗi hình ảnh được cắt và điều chỉnh tỷ lệ theo nhu cầu thành các ô có kích thước 768x768 pixel, sau đó mỗi ô được tính là 258 mã thông báo.

Tệp đầu vào video và âm thanh

Tệp đầu vào video và âm thanh được chuyển đổi thành mã thông báo theo các tỷ lệ cố định sau:

Video: 263 mã thông báo mỗi giây
Âm thanh: 32 mã thông báo mỗi giây

Tệp đầu vào tài liệu (như tệp PDF)

Tệp đầu vào PDF được coi là hình ảnh, vì vậy, mỗi trang của tệp PDF được phân tách thành mã thông báo theo cách tương tự như hình ảnh.