Informacje o obsługiwanych modelach

W przypadku aplikacji mobilnych i internetowych pakiety SDK Vertex AI in Firebase umożliwiają interakcję z obsługiwanymi Geminimodelami bezpośrednio z aplikacji.

Modele Gemini są uważane za wielomodalne, ponieważ mogą przetwarzać i nawet generować różne modality, w tym tekst, kod, pliki PDF, obrazy, filmy i dźwięk.

Oto krótki przegląd obsługiwanych modeli Vertex AI in Firebase i ich najnowszych stabilnych wersji. W kolejnych sekcjach na tej stronie znajdziesz bardziej szczegółowe porównania i informacje.

Model Dane wejściowe Wyniki Zoptymalizowany dla
Gemini modeli
Gemini 2.0 Flash
gemini-2.0-flash-001
tekst, kod, pliki PDF, obrazy, filmy, dźwięk tekst, kod, JSON
(wkrótce: obrazy i dźwięk)
Funkcje nowej generacji, szybkość i generowanie multimodalne do różnych zadań
Gemini 1.5 Pro
gemini-1.5-pro-002
tekst, kod, pliki PDF, obrazy, filmy, dźwięk tekst, kod, JSON złożone zadania wymagające większej inteligencji;
Gemini 1.5 Flash
gemini-1.5-flash-002
tekst, kod, pliki PDF, obrazy, filmy, dźwięk tekst, kod, JSON szybkie i wszechstronne działanie podczas wykonywania różnych zadań;


W pozostałej części tej strony znajdziesz szczegółowe informacje o modelach obsługiwanych przez Vertex AI in Firebase:

  • Porównaj modele:

    • Obsługiwane urządzenia wejściowe i wyjściowe
    • Ogólne porównanie obsługiwanych funkcji
    • Specyfikacje i ograniczenia, np. maksymalna liczba tokenów wejściowych lub maksymalna długość filmu wejściowego
  • Opis wersji modeli, w szczególności ich wersji stabilnej, automatycznie aktualizowanejpodglądu.

  • listy dostępnych nazw modeli do uwzględnienia w kodzie podczas inicjalizacji;

  • listy obsługiwanych języków dla modeli;

U dołu tej strony możesz wyświetlić szczegółowe informacje o starszych modelach.



Porównanie modeli

Każdy model ma inne możliwości, które umożliwiają obsługę różnych przypadków użycia. Pamiętaj, że każda tabela w tej sekcji opisuje poszczególne modele w połączeniu z użyciem funkcji Vertex AI in Firebase. Każdy model może mieć dodatkowe funkcje, które nie są dostępne podczas korzystania z naszych pakietów SDK.

Więcej informacji o poszczególnych modelach Gemini znajdziesz w dokumentacji Google Cloud.

Obsługiwane urządzenia wejściowe i wyjściowe

Oto obsługiwane typy danych wejściowych i wyjściowych w przypadku każdego modelu z użyciem funkcji Vertex AI in Firebase:

Gemini 2.0 Flash Gemini 1.5 Pro Gemini 1.5 Flash
Typy danych wejściowych
Tekst
Kod
dokumenty (pliki PDF lub tekstowe);
obrazy, filmy i pliki audio;
Dźwięk (strumieniowanie) wkrótce
Typy danych wyjściowych
Tekst
uporządkowane dane wyjściowe (np. w formacie JSON);
Kod
Obrazy wkrótce
Audio wkrótce
Dźwięk (strumieniowanie) wkrótce

Informacje o obsługiwanych typach plików znajdziesz w artykule Obsługiwane pliki wejściowe i wymagania dotyczące usługi Vertex AI Gemini API.

Obsługiwane funkcje i możliwości

Te funkcje są obsługiwane podczas korzystania z każdego modelu z użyciem Vertex AI in Firebase:

Gemini 2.0 Flash Gemini 1.5 Pro Gemini 1.5 Flash
generowanie tekstu na podstawie danych wejściowych tekstowych lub multimodalnych,
Generuj obrazy wkrótce
Generowanie dźwięku wkrótce
Generowanie uporządkowanych danych wyjściowych (np. w formacie JSON).
analizowanie obrazów i filmów (wizja);
Analizowanie dźwięku
analizować dokumenty (PDF lub tekst zwykły);
Czat wieloetapowy
Wywoływanie funkcji (narzędzia)
Podstawowe wywoływanie funkcji
Równoległe wywoływanie funkcji
Tryb wywoływania funkcji
Liczenie tokenów i znaków podlegających rozliczeniu
Instrukcje dotyczące systemu
Interfejs API rozmów multimodalnych na żywo (strumieniowanie dwukierunkowe) wkrótce

Specyfikacje i ograniczenia

Oto specyfikacje i ograniczenia każdego modelu w przypadku parametru Vertex AI in Firebase:

Właściwość Gemini 2.0 Flash Gemini 1.5 Pro Gemini 1.5 Flash
Okno kontekstu *
Łączny limit tokenów (łączny limit wejścia i wyjścia)
1 048 576 tokenów 2 097 152 tokeny 1 048 576 tokenów
Limit tokenów wyjściowych * 8192 tokenów 8192 tokenów 8192 tokenów
Data odcięcia Czerwiec 2024 r. Maj 2024 r. Maj 2024 r.
Obrazy (na żądanie)
Maksymalna liczba wejściowych obrazów 3000 obrazów 3000 obrazów 3000 obrazów
Maksymalna liczba obrazów wyjściowych wkrótce --- ---
Maksymalny rozmiar zakodowanego w formacie Base64 obrazu wejściowego 7 MB 7 MB 7 MB
pliki PDF (na żądanie),
Maksymalna liczba plików PDF wejściowych ** 3000 plików 3000 plików 3000 plików
Maksymalna liczba stron na plik PDF wejściowy ** 1000 stron 1000 stron 1000 stron
Maksymalny rozmiar pliku wejściowego PDF 50 MB 50 MB 50 MB
Film (na żądanie)
Maksymalna liczba plików wideo wejściowych 10 plików 10 plików 10 plików
Maksymalna długość wszystkich filmów wejściowych (tylko ramki) ok. 60 minut ok. 60 minut ok. 60 minut
Maksymalna długość wszystkich filmów wejściowych (ramki + dźwięk) ok. 45 minut ok. 45 minut ok. 45 minut
Dźwięk (z uwzględnieniem żądań)
Maksymalna liczba wejściowych plików audio 1 plik 1 plik 1 plik
Maksymalna liczba plików audio wyjściowych wkrótce --- ---
Maksymalna długość wszystkich wejść audio ok.8,4 godziny ok.8,4 godziny ok.8,4 godziny
Maksymalna długość wszystkich dźwięków wyjściowych wkrótce --- ---

* W przypadku wszystkich modeli token odpowiada około 4 znakom, a 100 tokenów to około 60–80 słów w języku angielskim. W przypadku modeli Gemini możesz określić łączną liczbę tokenów w żądaniach za pomocą parametru countTokens.

** Pliki PDF są traktowane jako obrazy, więc pojedyncza strona pliku PDF jest traktowana jako jeden obraz. Liczba stron dozwolonych w żądaniu jest ograniczona do liczby obrazów, które może obsługiwać model.

Znajdowanie dodatkowych szczegółowych informacji



Wzory nazewnictwa i wersje modelu

Modele są dostępne w wersjach stabilnej, automatycznie aktualizowanejtestowej.

  • Stabilne wersje są uważane za ogólnodostępne.

    • Wersje stabilne mają nazwy modeli z dodatkowym 3-cyfrowym numerem wersji, np. gemini-2.0-flash-001.
  • Automatycznie aktualizowane wersje zawsze odwołują się do najnowszej stabilnej wersji danego modelu. Jeśli zostanie wydana nowa stabilna wersja, automatycznie aktualizowana wersja automatycznie zacznie odwoływać się do tej nowej stabilnej wersji.

    • Wersje z automatyczną aktualizacją mają nazwy modeli bez żadnych dodatków, np. gemini-2.0-flash.
  • Wersje w obejściu mają nowe możliwości i są uważane za niestabilne. Pamiętaj, że wersje podglądu zawsze odwołują się do najnowszej wersji tego modelu. Jeśli zostanie wydana nowa wersja podglądu, wszystkie istniejące wersje podglądu automatycznie zaczną odwoływać się do tej nowej wersji.

    • Wersje podglądowe mają nazwy modeli z dodatkiem -preview oraz daty pierwszej publikacji modelu (-MMDD), na przykład gemini-1.5-pro-preview-0409 (opublikowany 9 kwietnia 2024 r.).

Więcej informacji o dostępnych wersjach modelu i ich cyklu życia (Gemini) znajdziesz w dokumentacji Google Cloud.



Dostępne nazwy modeli

Nazwy modeli to wartości jawne, które uwzględniasz w kodzie podczas inicjalizacji modelu generatywnego (jest to wymagany krok do wywołania funkcji Gemini API).

Aby wyświetlić listę wszystkich dostępnych nazw modeli, możesz użyć punktu końcowego publishers.models.list. Pamiętaj, że zwrócona lista będzie zawierać wszystkie modele obsługiwane przez Vertex AI, ale Vertex AI in Firebase obsługuje tylko modele Gemini opisane na tej stronie. Pamiętaj też, że wersje automatycznie aktualizowane (np. gemini-2.0-flash) nie są wymienione, ponieważ są one aliasami wersji stabilnej.

Gemini nazwy modeli

Przykłady inicjalizowania w danym języku znajdziesz w przewodniku dla początkujących.

Gemini 2.0 Flash nazwy modeli

Nazwa modelu Opis Etap udostępniania Data pierwszego wydania Data zaprzestania
Wersje stabilne
gemini-2.0-flash-001 najnowsza stabilna wersja aplikacji Gemini 2.0 Flash, Ogólna dostępność 2025-02-05 Jeszcze nieznany
Wersja z automatyczną aktualizacją
gemini-2.0-flash Wskazuje na najnowszą stabilną wersję 2.0 Flash
(obecnie gemini-2.0-flash-001).
Ogólna dostępność 2025-02-10 ---

Nazwy modeli Gemini 1.5 Pro

Nazwa modelu Opis Etap udostępniania Data pierwszego wydania Data zaprzestania
Wersje stabilne
gemini-1.5-pro-002 najnowsza stabilna wersja aplikacji Gemini 1.5 Pro, Ogólna dostępność 2024-09-24 Nie wcześniej niż 2025-09-24
gemini-1.5-pro-001 Pierwsza stabilna wersja Gemini 1.5 Pro Ogólna dostępność 2024-05-24 Nie wcześniej niż 2025-05-24
Wersja z automatyczną aktualizacją
gemini-1.5-pro wskazuje najnowszą stabilną wersję 1.5 Pro
(obecnie gemini-1.5-pro-002).
Ogólna dostępność 2024-09-24 ---

Gemini 1.5 Flash nazwy modeli

Nazwa modelu Opis Etap udostępniania Data pierwszego wydania Data zaprzestania
Wersje stabilne
gemini-1.5-flash-002 najnowsza stabilna wersja aplikacji Gemini 1.5 Flash, Ogólna dostępność 2024-09-24 Nie wcześniej niż 2025-09-24
gemini-1.5-flash-001 Pierwsza stabilna wersja Gemini 1.5 Flash Ogólna dostępność 2024-05-24 Nie wcześniej niż 2025-05-24
Wersja z automatyczną aktualizacją
gemini-1.5-flash Wskazuje najnowszą stabilną wersję Flasha 1.5
(obecnie gemini-1.5-flash-002)
Ogólna dostępność 2024-09-24 ---



Obsługiwane języki

Gemini

  • Wszystkie modele Gemini rozumieją i odpowiadają w tych językach:

    arabski (ar), bengalski (bn), bułgarski (bg), chiński uproszczony i tradycyjny (zh), chorwacki (hr), czeski (cs), duński (da), niderlandzki (nl), angielski (en), estoński (et), fiński (fi), francuski (fr), grecki (el), hebrajski (iw), hindi (hi), węgierski (hu), indonezyjski (id), hiszpański (es), japoński (ja), koreański (ko), łaciński (la), litewski (lt), norweski (no), polski (pl), portugalski (pt), rumuński (ro), rosyjski (ru), serbski (sr), słowacki (sk), słoweński (sl), szwedzki (sv), swahili (sw), tajski (th), turecki (tr), ukraiński (uk), wietnamski (vi)

  • Modele Gemini 1.5 ProGemini 1.5 Flash mogą rozumieć i odpowiadać w tych dodatkowych językach:

    Afrikaans (af), Amharic (am), Assamese (as), Azerbaijani (az), Belarusian (be), Bosnian (bs), Catalan (ca), Cebuano (ceb), Corsican (co), Welsh (cy), Dhivehi (dv), Esperanto (eo), Basque (eu), Persian (fa), Filipino (Tagalog) (fil), Frisian (fy), Irish (ga), Scots Gaelic (gd), Galician (gl), Gujarati (gu), Hausa (ha), Hawaiian (haw), Hmong (hmn), Haitian Creole (ht), Armenian (hy), Igbo (ig), Icelandic (is), Javanese (jv), Georgian (ka), Kazakh (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdish (ku), Kyrgyz (ky), Latin (la), Luxembourgish (lb), Lao (lo), Malagasy (mg), Maori (mi), Macedonian (mk), Malayalam (ml), Mongolian (mn), Meiteilon (Manipuri) (mni-Mtei), Marathi (mr), Malay (ms), Maltese (mt), Myanmar (Burmese) (my), Nepali (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Pashto (ps), Sindhi (sd), Sinhala (Sinhalese) (si), Samoan (sm), Shona (sn), Somali (so), Albanian (sq), Sesotho (st), Sundanese (su), Tamil (ta), Telugu (te), Tajik (tg), Uyghur (ug), Urdu (ur), Uzbek (uz), Xhosa (xh), Yiddish (yi), Yoruba (yo), Zulu (zu)



Informacje o starszych modelach

Vertex AI in Firebase obsługuje wszystkie modele Gemini, w tym starsze modele, takie jak Gemini 1.0 ProGemini 1.0 Pro Vision. Zdecydowanie zalecamy jednak używanie nowszego modelu z pakietami SDK. Te starsze modele Gemini zbliżają się do daty wycofania z użycia i nie oferują wszystkich funkcji nowszych modeli.



Dalsze kroki

Wypróbuj możliwości Gemini API