W przypadku aplikacji mobilnych i internetowych pakiety SDK Vertex AI in Firebase umożliwiają interakcję z obsługiwanymi Geminimodelami bezpośrednio z aplikacji.
Modele Gemini są uważane za wielomodalne, ponieważ mogą przetwarzać i nawet generować różne modality, w tym tekst, kod, pliki PDF, obrazy, filmy i dźwięk.
Oto krótki przegląd obsługiwanych modeli Vertex AI in Firebase i ich najnowszych stabilnych wersji. W kolejnych sekcjach na tej stronie znajdziesz bardziej szczegółowe porównania i informacje.
Model | Dane wejściowe | Wyniki | Zoptymalizowany dla |
---|---|---|---|
Gemini modeli | |||
Gemini 2.0 Flashgemini-2.0-flash-001
|
tekst, kod, pliki PDF, obrazy, filmy, dźwięk | tekst, kod, JSON (wkrótce: obrazy i dźwięk) |
Funkcje nowej generacji, szybkość i generowanie multimodalne do różnych zadań |
Gemini 1.5 Progemini-1.5-pro-002 |
tekst, kod, pliki PDF, obrazy, filmy, dźwięk | tekst, kod, JSON | złożone zadania wymagające większej inteligencji; |
Gemini 1.5 Flashgemini-1.5-flash-002 |
tekst, kod, pliki PDF, obrazy, filmy, dźwięk | tekst, kod, JSON | szybkie i wszechstronne działanie podczas wykonywania różnych zadań; |
W pozostałej części tej strony znajdziesz szczegółowe informacje o modelach obsługiwanych przez Vertex AI in Firebase:
-
- Obsługiwane urządzenia wejściowe i wyjściowe
- Ogólne porównanie obsługiwanych funkcji
- Specyfikacje i ograniczenia, np. maksymalna liczba tokenów wejściowych lub maksymalna długość filmu wejściowego
Opis wersji modeli, w szczególności ich wersji stabilnej, automatycznie aktualizowanej i podglądu.
listy dostępnych nazw modeli do uwzględnienia w kodzie podczas inicjalizacji;
listy obsługiwanych języków dla modeli;
U dołu tej strony możesz wyświetlić szczegółowe informacje o starszych modelach.
Porównanie modeli
Każdy model ma inne możliwości, które umożliwiają obsługę różnych przypadków użycia. Pamiętaj, że każda tabela w tej sekcji opisuje poszczególne modele w połączeniu z użyciem funkcji Vertex AI in Firebase. Każdy model może mieć dodatkowe funkcje, które nie są dostępne podczas korzystania z naszych pakietów SDK.
Więcej informacji o poszczególnych modelach Gemini znajdziesz w dokumentacji Google Cloud.
Obsługiwane urządzenia wejściowe i wyjściowe
Oto obsługiwane typy danych wejściowych i wyjściowych w przypadku każdego modelu z użyciem funkcji Vertex AI in Firebase:
Gemini 2.0 Flash | Gemini 1.5 Pro | Gemini 1.5 Flash | ||
---|---|---|---|---|
Typy danych wejściowych | ||||
Tekst | ||||
Kod | ||||
dokumenty (pliki PDF lub tekstowe); | ||||
obrazy, filmy i pliki audio; | ||||
Dźwięk (strumieniowanie) | wkrótce | |||
Typy danych wyjściowych | ||||
Tekst | ||||
uporządkowane dane wyjściowe (np. w formacie JSON); | ||||
Kod | ||||
Obrazy | wkrótce | |||
Audio | wkrótce | |||
Dźwięk (strumieniowanie) | wkrótce |
Informacje o obsługiwanych typach plików znajdziesz w artykule Obsługiwane pliki wejściowe i wymagania dotyczące usługi Vertex AI Gemini API.
Obsługiwane funkcje i możliwości
Te funkcje są obsługiwane podczas korzystania z każdego modelu z użyciem Vertex AI in Firebase:
Gemini 2.0 Flash | Gemini 1.5 Pro | Gemini 1.5 Flash | ||
---|---|---|---|---|
generowanie tekstu na podstawie danych wejściowych tekstowych lub multimodalnych, | ||||
Generuj obrazy | wkrótce | |||
Generowanie dźwięku | wkrótce | |||
Generowanie uporządkowanych danych wyjściowych (np. w formacie JSON). | ||||
analizowanie obrazów i filmów (wizja); | ||||
Analizowanie dźwięku | ||||
analizować dokumenty (PDF lub tekst zwykły); | ||||
Czat wieloetapowy | ||||
Wywoływanie funkcji (narzędzia) | ||||
Podstawowe wywoływanie funkcji | ||||
Równoległe wywoływanie funkcji | ||||
Tryb wywoływania funkcji | ||||
Liczenie tokenów i znaków podlegających rozliczeniu | ||||
Instrukcje dotyczące systemu | ||||
Interfejs API rozmów multimodalnych na żywo (strumieniowanie dwukierunkowe) | wkrótce |
Specyfikacje i ograniczenia
Oto specyfikacje i ograniczenia każdego modelu w przypadku parametru Vertex AI in Firebase:
Właściwość | Gemini 2.0 Flash | Gemini 1.5 Pro | Gemini 1.5 Flash |
---|---|---|---|
Okno kontekstu * Łączny limit tokenów (łączny limit wejścia i wyjścia) |
1 048 576 tokenów | 2 097 152 tokeny | 1 048 576 tokenów |
Limit tokenów wyjściowych * | 8192 tokenów | 8192 tokenów | 8192 tokenów |
Data odcięcia | Czerwiec 2024 r. | Maj 2024 r. | Maj 2024 r. |
Obrazy (na żądanie) | |||
Maksymalna liczba wejściowych obrazów | 3000 obrazów | 3000 obrazów | 3000 obrazów |
Maksymalna liczba obrazów wyjściowych | wkrótce | --- | --- |
Maksymalny rozmiar zakodowanego w formacie Base64 obrazu wejściowego | 7 MB | 7 MB | 7 MB |
pliki PDF (na żądanie), | |||
Maksymalna liczba plików PDF wejściowych ** | 3000 plików | 3000 plików | 3000 plików |
Maksymalna liczba stron na plik PDF wejściowy ** | 1000 stron | 1000 stron | 1000 stron |
Maksymalny rozmiar pliku wejściowego PDF | 50 MB | 50 MB | 50 MB |
Film (na żądanie) | |||
Maksymalna liczba plików wideo wejściowych | 10 plików | 10 plików | 10 plików |
Maksymalna długość wszystkich filmów wejściowych (tylko ramki) | ok. 60 minut | ok. 60 minut | ok. 60 minut |
Maksymalna długość wszystkich filmów wejściowych (ramki + dźwięk) | ok. 45 minut | ok. 45 minut | ok. 45 minut |
Dźwięk (z uwzględnieniem żądań) | |||
Maksymalna liczba wejściowych plików audio | 1 plik | 1 plik | 1 plik |
Maksymalna liczba plików audio wyjściowych | wkrótce | --- | --- |
Maksymalna długość wszystkich wejść audio | ok.8,4 godziny | ok.8,4 godziny | ok.8,4 godziny |
Maksymalna długość wszystkich dźwięków wyjściowych | wkrótce | --- | --- |
* W przypadku wszystkich modeli token odpowiada około 4 znakom, a 100 tokenów to około 60–80 słów w języku angielskim. W przypadku modeli Gemini możesz określić łączną liczbę tokenów w żądaniach za pomocą parametru countTokens
.
** Pliki PDF są traktowane jako obrazy, więc pojedyncza strona pliku PDF jest traktowana jako jeden obraz. Liczba stron dozwolonych w żądaniu jest ograniczona do liczby obrazów, które może obsługiwać model.
Znajdowanie dodatkowych szczegółowych informacji
Limity i opłaty są różne w zależności od modelu. Ceny zależą też od danych wejściowych i wyjściowych.
Dowiedz się więcej o obsługiwanych typach plików wejściowych, o tym, jak określić typ MIME, oraz o tym, jak sprawdzić, czy pliki wejściowe i zapytania multimodalne spełniają wymagania. Zapoznaj się też ze wskazówkami dotyczącymi obsługiwanych plików wejściowych i wymagań dotyczących usługi Vertex AI Gemini API.
Wzory nazewnictwa i wersje modelu
Modele są dostępne w wersjach stabilnej, automatycznie aktualizowanej i testowej.
Stabilne wersje są uważane za ogólnodostępne.
- Wersje stabilne mają nazwy modeli z dodatkowym 3-cyfrowym numerem wersji, np.
.gemini-2.0-flash-001
- Wersje stabilne mają nazwy modeli z dodatkowym 3-cyfrowym numerem wersji, np.
Automatycznie aktualizowane wersje zawsze odwołują się do najnowszej stabilnej wersji danego modelu. Jeśli zostanie wydana nowa stabilna wersja, automatycznie aktualizowana wersja automatycznie zacznie odwoływać się do tej nowej stabilnej wersji.
- Wersje z automatyczną aktualizacją mają nazwy modeli bez żadnych dodatków, np.
.gemini-2.0-flash
- Wersje z automatyczną aktualizacją mają nazwy modeli bez żadnych dodatków, np.
Wersje w obejściu mają nowe możliwości i są uważane za niestabilne. Pamiętaj, że wersje podglądu zawsze odwołują się do najnowszej wersji tego modelu. Jeśli zostanie wydana nowa wersja podglądu, wszystkie istniejące wersje podglądu automatycznie zaczną odwoływać się do tej nowej wersji.
- Wersje podglądowe mają nazwy modeli z dodatkiem
oraz daty pierwszej publikacji modelu (-preview
), na przykład-MMDD
(opublikowany 9 kwietnia 2024 r.).gemini-1.5-pro-preview-0409
- Wersje podglądowe mają nazwy modeli z dodatkiem
Więcej informacji o dostępnych wersjach modelu i ich cyklu życia (Gemini) znajdziesz w dokumentacji Google Cloud.
Dostępne nazwy modeli
Nazwy modeli to wartości jawne, które uwzględniasz w kodzie podczas inicjalizacji modelu generatywnego (jest to wymagany krok do wywołania funkcji Gemini API).
Aby wyświetlić listę wszystkich dostępnych nazw modeli, możesz użyć punktu końcowego publishers.models.list
. Pamiętaj, że zwrócona lista będzie zawierać wszystkie modele obsługiwane przez Vertex AI, ale Vertex AI in Firebase obsługuje tylko modele Gemini opisane na tej stronie.
Pamiętaj też, że wersje automatycznie aktualizowane (np. gemini-2.0-flash
) nie są wymienione, ponieważ są one aliasami wersji stabilnej.
Gemini nazwy modeli
Przykłady inicjalizowania w danym języku znajdziesz w przewodniku dla początkujących.
Gemini 2.0 Flash nazwy modeli
Nazwa modelu | Opis | Etap udostępniania | Data pierwszego wydania | Data zaprzestania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-2.0-flash-001 |
najnowsza stabilna wersja aplikacji Gemini 2.0 Flash, | Ogólna dostępność | 2025-02-05 | Jeszcze nieznany |
Wersja z automatyczną aktualizacją | ||||
gemini-2.0-flash |
Wskazuje na najnowszą stabilną wersję 2.0 Flash (obecnie gemini-2.0-flash-001 |
Ogólna dostępność | 2025-02-10 | --- |
Nazwy modeli Gemini 1.5 Pro
Nazwa modelu | Opis | Etap udostępniania | Data pierwszego wydania | Data zaprzestania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.5-pro-002 |
najnowsza stabilna wersja aplikacji Gemini 1.5 Pro, | Ogólna dostępność | 2024-09-24 | Nie wcześniej niż 2025-09-24 |
gemini-1.5-pro-001 |
Pierwsza stabilna wersja Gemini 1.5 Pro | Ogólna dostępność | 2024-05-24 | Nie wcześniej niż 2025-05-24 |
Wersja z automatyczną aktualizacją | ||||
gemini-1.5-pro |
wskazuje najnowszą stabilną wersję 1.5 Pro (obecnie gemini-1.5-pro-002 |
Ogólna dostępność | 2024-09-24 | --- |
Gemini 1.5 Flash nazwy modeli
Nazwa modelu | Opis | Etap udostępniania | Data pierwszego wydania | Data zaprzestania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.5-flash-002 |
najnowsza stabilna wersja aplikacji Gemini 1.5 Flash, | Ogólna dostępność | 2024-09-24 | Nie wcześniej niż 2025-09-24 |
gemini-1.5-flash-001 |
Pierwsza stabilna wersja Gemini 1.5 Flash | Ogólna dostępność | 2024-05-24 | Nie wcześniej niż 2025-05-24 |
Wersja z automatyczną aktualizacją | ||||
gemini-1.5-flash |
Wskazuje najnowszą stabilną wersję Flasha 1.5 (obecnie gemini-1.5-flash-002 |
Ogólna dostępność | 2024-09-24 | --- |
Obsługiwane języki
Gemini
Wszystkie modele Gemini rozumieją i odpowiadają w tych językach:
arabski (ar), bengalski (bn), bułgarski (bg), chiński uproszczony i tradycyjny (zh), chorwacki (hr), czeski (cs), duński (da), niderlandzki (nl), angielski (en), estoński (et), fiński (fi), francuski (fr), grecki (el), hebrajski (iw), hindi (hi), węgierski (hu), indonezyjski (id), hiszpański (es), japoński (ja), koreański (ko), łaciński (la), litewski (lt), norweski (no), polski (pl), portugalski (pt), rumuński (ro), rosyjski (ru), serbski (sr), słowacki (sk), słoweński (sl), szwedzki (sv), swahili (sw), tajski (th), turecki (tr), ukraiński (uk), wietnamski (vi)
Modele Gemini 1.5 Pro i Gemini 1.5 Flash mogą rozumieć i odpowiadać w tych dodatkowych językach:
Afrikaans (af), Amharic (am), Assamese (as), Azerbaijani (az), Belarusian (be), Bosnian (bs), Catalan (ca), Cebuano (ceb), Corsican (co), Welsh (cy), Dhivehi (dv), Esperanto (eo), Basque (eu), Persian (fa), Filipino (Tagalog) (fil), Frisian (fy), Irish (ga), Scots Gaelic (gd), Galician (gl), Gujarati (gu), Hausa (ha), Hawaiian (haw), Hmong (hmn), Haitian Creole (ht), Armenian (hy), Igbo (ig), Icelandic (is), Javanese (jv), Georgian (ka), Kazakh (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdish (ku), Kyrgyz (ky), Latin (la), Luxembourgish (lb), Lao (lo), Malagasy (mg), Maori (mi), Macedonian (mk), Malayalam (ml), Mongolian (mn), Meiteilon (Manipuri) (mni-Mtei), Marathi (mr), Malay (ms), Maltese (mt), Myanmar (Burmese) (my), Nepali (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Pashto (ps), Sindhi (sd), Sinhala (Sinhalese) (si), Samoan (sm), Shona (sn), Somali (so), Albanian (sq), Sesotho (st), Sundanese (su), Tamil (ta), Telugu (te), Tajik (tg), Uyghur (ug), Urdu (ur), Uzbek (uz), Xhosa (xh), Yiddish (yi), Yoruba (yo), Zulu (zu)
Informacje o starszych modelach
Vertex AI in Firebase obsługuje wszystkie modele Gemini, w tym starsze modele, takie jak Gemini 1.0 Pro i Gemini 1.0 Pro Vision. Zdecydowanie zalecamy jednak używanie nowszego modelu z pakietami SDK. Te starsze modele Gemini zbliżają się do daty wycofania z użycia i nie oferują wszystkich funkcji nowszych modeli.
Dalsze kroki
Wypróbuj możliwości Gemini API
- tworzyć rozmowy wieloetapowe (czat);
- generować tekst na podstawie promptów tekstowych;
- generować tekst na podstawie promptów multimodalnych (w tym tekst, obrazy, pliki PDF, filmy i pliki audio).
- generować dane wyjściowe w uporządkowanym formacie (np. JSON) na podstawie zarówno promptów tekstowych, jak i promptów multimodalnych;
- Aby połączyć modele generatywne z zewnętrznymi systemami i informacjami, użyj wywołania funkcji.