Modele Gemini przetwarzają dane wejściowe i wyjściowe w jednostkach zwanych tokenami.
Tokeny mogą być pojedynczymi znakami, np. z, lub całymi słowami, np. cat. Długie słowa są dzielone na kilka tokenów. Zbiór wszystkich tokenów używanych przez model nazywa się słownikiem, a proces dzielenia tekstu na tokeny – tokenizacją.
W przypadku modeli Gemini token odpowiada około 4 znakom. 100 tokenów to około 60–80 słów w języku angielskim.
Każdy model ma a maksymalną liczbę tokenów które może obsłużyć w prompcie i odpowiedzi. Znając liczbę tokenów w prompcie, możesz sprawdzić, czy nie przekraczasz tego limitu. Ponadto koszt żądania jest częściowo określany przez liczbę tokenów wejściowych i wyjściowych, dlatego warto wiedzieć, jak je zliczać.
Obsługiwane modele
gemini-3.1-pro-previewgemini-3.5-flashgemini-3.1-flash-litegemini-3-pro-imagegemini-3.1-flash-imagegemini-2.5-progemini-2.5-flashgemini-2.5-flash-lite
Opcje zliczania tokenów
Wszystkie dane wejściowe i wyjściowe w interfejsie Gemini API są tokenizowane, w tym tekst, pliki graficzne i inne formaty nietekstowe. Oto opcje zliczania tokenów:
- Sprawdź liczbę tokenów tylko w żądaniach (zanim wyślesz je do modelu).
- Zadzwoń do
countTokensz danymi wejściowymi żądania przed wysłaniem go do modelu. Zwraca to:total_tokens: liczba tokenów tylko w danych wejściowych
- Sprawdź liczbę tokenów zarówno w żądaniach, jak i odpowiedziach.
- Uzyskaj dostęp do atrybutu
usageMetadataw obiekcie odpowiedzi. Obejmuje to:prompt_token_count: liczba tokenów tylko w danych wejściowychcandidates_token_count: liczba tokenów tylko w danych wyjściowych (nie obejmuje tokenów myślenia)thoughts_token_count: liczba tokenów myślenia użytych do wygenerowania odpowiedzitotal_token_count: łączna liczba tokenów zarówno w danych wejściowych, jak i wyjściowych (obejmuje tokeny myślenia)
Podczas strumieniowania danych wyjściowych atrybut
usageMetadatapojawia się tylko w ostatnim fragmencie strumienia. W przypadku fragmentów pośrednich jest tonildla.
Pamiętaj o tych informacjach dotyczących opcji powyżej:
- Nie zliczą one liczby obrazów wejściowych ani liczby sekund w plikach wejściowych audio lub wideo. Liczba tokenów w przypadku każdego z tych formatów będzie jednak powiązana z tymi wartościami.
- Liczba tokenów wejściowych obejmuje prompt (tekst i wszystkie pliki wejściowe), a także instrukcje systemowe i narzędzia.
- Liczba tokenów wyjściowych nie obejmuje tokenów myślenia. Są one podawane w osobnym polu.
- Dodatkowe informacje dotyczące każdego typu żądania znajdziesz w dalszej części tej strony.
- Modele Gemini Live API nie obsługują
countTokens. Ponadto Firebase AI Logic nie obsługuje jeszcze atrybutuusageMetadataw odpowiedzi z Live API modeli, ale wkrótce się to zmieni.
Ceny tych opcji
Wywoływanie
countTokens: wywoływaniecountTokens(interfejsu Count Tokens API) jest bezpłatne. Maksymalny limit interfejsu Count Tokens API to 3000 żądań na minutę.Używanie atrybutu
usageMetadata: ten atrybut jest zawsze zwracany w ramach odpowiedzi i nie powoduje naliczania tokenów ani opłat.
Dodatkowe informacje
Oto dodatkowe informacje dotyczące pracy z określonymi typami żądań.
Zliczanie tokenów wejściowych tekstu
Brak dodatkowych informacji.
Zliczanie tokenów wieloetapowych (czat)
Podczas wywoływania countTokens w przypadku czatu pamiętaj o tych informacjach:
- Jeśli wywołasz
countTokensz historią czatu, zwróci ona łączną liczbę tokenów z obu ról w czacie (total_tokens). - Aby dowiedzieć się, jak duża będzie kolejna tura rozmowy, musisz dołączyć ją do historii, gdy wywołujesz
countTokens.
Zliczanie tokenów wejściowych multimodalnych
Podczas zliczania tokenów z danymi wejściowymi multimodalnymi pamiętaj o tych informacjach:
- Opcjonalnie możesz wywołać
countTokensosobno dla tekstu i pliku. - W przypadku obu opcji zliczania tokenów otrzymasz tę samą liczbę tokenów niezależnie od tego, czy podasz plik jako dane wbudowane, czy użyjesz jego adresu URL.
Pliki wejściowe graficzne
Pliki wejściowe graficzne są konwertowane na tokeny na podstawie ich wymiarów:
- Dane wejściowe graficzne, których oba wymiary są mniejsze lub równe 384 pikselom: każdy obraz jest liczony jako 258 tokenów.
- Dane wejściowe graficzne, które są większe w jednym lub obu wymiarach: każdy obraz jest w razie potrzeby przycinany i skalowany do kafelków o wymiarach 768 x 768 pikseli, a następnie każdy kafelek jest liczony jako 258 tokenów.
Pliki wejściowe audio i wideo
Pliki wejściowe audio i wideo są konwertowane na tokeny według tych stałych stawek:
- Wideo: 263 tokeny na sekundę
- Audio: 32 tokeny na sekundę
Pliki wejściowe dokumentów (np. PDF)
Pliki wejściowe PDF są traktowane jako obrazy, więc każda strona PDF jest tokenizowana w taki sam sposób jak obraz.