Modele z rodziny Gemini są uważane za multimodalne, ponieważ mogą przetwarzania informacji z różnych modalności, w tym obrazów, filmów, i tekst. Możesz na przykład wysłać modelowi Gemini zdjęcie talerza i poprosić o przepis na nie.
Prompt | Odpowiedź |
Podaj mi przepis na te ciasteczka. |
**Składniki** – 1 c. (2 pałki) masło niesolone, zmiękczone – 3/4 c. cukier granulowany – 3/4 c. brązowy cukier zapakowany – 1 łyżka stołowa . ekstrakt waniliowy – 2 duże jajka – 21/4 c. mąka uniwersalna – 1 łyżeczka soda oczyszczona – 1 łyżeczka sól ... |
Możesz wejść w interakcję z modelami z rodziny Gemini za pomocą Gemini API dostarczone przez: Vertex AI Google Cloud. W przypadku aplikacji mobilnych i internetowych możesz użyć parametru Vertex AI in Firebase pakietów SDK do wywoływania Gemini API i interakcji z interfejsem Modele Gemini bezpośrednio w aplikacji.
Ta strona zawiera te informacje o modelach Gemini:
Ogólne porównanie przypadków użycia różnych Gemini oraz ich obsługiwane typy wejściowe.
Porównanie szczegółów poszczególnych modeli, na przykład maksymalną liczbę tokenów wejściowych i maksymalną długość filmu.
Opis wersji modeli Gemini, w szczególności stabilnej, automatycznej aktualizacji i wersji testowej.
Listy dostępnych nazw modeli do uwzględnienia podczas inicjowania kodu.
Lista języków obsługiwanych w przypadku modeli Gemini.
Dostępne modele
W Vertex AI in Firebase możesz używać dowolnych z tych modeli Gemini:
Gemini 1.5 Flash
Model multimodalny, który obsługuje te same dane wejściowe i wyjściowe jako typ 1,5 Pro, ale uwzględniające 1 milion tokenów w dłuższym kontekście. Gemini 1.5 Flash został zaprojektowany z myślą o dużych ilościach, oszczędnościach aplikacji.Gemini 1.5 Pro
Model multimodalny, który umożliwia dodawanie obrazów, dźwięku, wideo i PDF w postaci promptów w formie SMS-a lub promptów na czacie. Dodatkowo obsługuje on zrozumienie długiego kontekstu z obsługą 2 milionów tokenów.Gemini 1.0 Pro Vision
Model multimodalny zaprojektowany do obsługi obrazów i filmów na potrzeby odpowiedzi tekstowej lub kodu. Nie można użyć do czatu.Gemini 1.0 Pro
Model zaprojektowany do obsługi zadań związanych z językiem naturalnym, wieloetapowy czatują z tekstem i kodem oraz generowanie kodu.
Przejdź do nazw modeli, które chcesz uwzględnić w kodzie
Przypadki użycia i możliwości każdego modelu
Każdy model Gemini ma inne możliwości dostosowane do różnych przypadków użycia. Więcej informacji na ten temat znajdziesz w dokumentacji usługi Google Cloud Modele Gemini.
Obsługiwane dane wejściowe i wyjściowe dla każdego modelu
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
Typy danych wejściowych | ||||
Tekst | ||||
Kod | ||||
Obraz | ||||
Wideo (tylko klatki) | ||||
Wideo (klatki i dźwięk) | ||||
Audio | ||||
Typy danych wyjściowych | ||||
Tekst | ||||
Kod |
Więcej informacji o obsługiwanych typach plików znajdziesz w sekcji Obsługiwane pliki wejściowe i wymagania dotyczące standardu Vertex AI Gemini API.
Obsługiwane możliwości i ogólne funkcje każdego modelu
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
Generowanie tekstu na podstawie promptów tekstowych | |||||
Generowanie tekstu na podstawie promptów multimodalnych | |||||
Dane wyjściowe JSON (tryb ograniczonego schematu) (już wkrótce w pakietach SDK Vertex AI in Firebase) |
|||||
Czat wieloetapowy | |||||
Wywoływanie funkcji | |||||
Wywoływanie funkcji podstawowych | |||||
Wywoływanie funkcji równoległej | |||||
Tryb wywoływania funkcji | |||||
Zliczanie tokenów i znaków podlegających rozliczeniu | |||||
Instrukcje systemowe |
szczegółowe informacje o każdym modelu.
Właściwość | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
Łączny limit tokenów (połączone dane wejściowe i wyjściowe)* | 1 048 576 tokenów | 2 097 152 tokeny | 16 384 tokeny | 32 760 tokenów |
Limit tokenów wyjściowych* | 8192 tokeny | 8192 tokeny | 2048 tokenów | 8192 tokeny |
Maksymalna liczba obrazów na żądanie | 3000 obrazów | 3000 obrazów | 16 obrazów | Nie dotyczy |
Maksymalny rozmiar obrazu w kodowaniu base64 | 7 MB | 7 MB | 7 MB | Nie dotyczy |
Maksymalny rozmiar pliku PDF | 30 MB | 30 MB | 30 MB | Nie dotyczy |
Maksymalna liczba plików wideo na żądanie | 10 plików wideo. | 10 plików wideo. | 1 plik wideo | Nie dotyczy |
Maksymalna długość filmu (tylko klatki) | Ok. 60 minut filmu | Ok. 60 minut filmu | 2 minuty | Nie dotyczy |
Maksymalna długość filmu (klatki i dźwięk) | Ok. 45 minut filmu | Ok. 45 minut filmu | Nie dotyczy | Nie dotyczy |
Maksymalna liczba plików audio na żądanie | 1 plik audio | 1 plik audio | Nie dotyczy | Nie dotyczy |
Maksymalna długość ścieżki dźwiękowej | Ok.8,4 godziny audio | Ok.8,4 godziny audio | Nie dotyczy | Nie dotyczy |
* We wszystkich modelach Gemini token odpowiada około 4 znakom,
więc 100 tokenów to około 60–80 angielskich słów. Możesz określić łączną liczbę
tokenów w Twoich żądaniach za pomocą
countTokens
.
Tutaj znajdziesz jeszcze bardziej szczegółowe informacje na temat modeli pliki wejściowe:
Dowiedz się więcej o różnice między modelami multimodalnymi w dokumentacji Google Cloud.
Dowiedz się więcej o obsługiwanych typach plików, sposobach określania typu MIME i tworzeniu upewnij się, że Twoje pliki i żądania multimodalne spełniają wymagania sprawdzone metody Obsługiwane pliki wejściowe i wymagania dotyczące standardu Vertex AI Gemini API.
Obsługa wersji modeli
Modele Gemini są dostępne w wersji stabilnej, automatycznej i podglądu. wersji.
Wersje stabilne są uważane za ogólnodostępne.
- Wersje stabilne mają nazwy modeli uzupełnione znakiem
konkretny trzycyfrowy numer wersji, na przykład
.gemini-1.0-pro-001
- Wersje stabilne mają nazwy modeli uzupełnione znakiem
konkretny trzycyfrowy numer wersji, na przykład
Wersje automatycznie aktualizowane zawsze wskazują na najnowszą wersję stabilną ten model; po opublikowaniu nowej stabilnej wersji, automatycznie zaktualizowana automatycznie wskazuje nową wersję stabilną.
- Wersje zaktualizowane automatycznie mają nazwy modeli bez
wyrazu, na przykład
.gemini-1.0-pro
- Wersje zaktualizowane automatycznie mają nazwy modeli bez
wyrazu, na przykład
Wersje wersje przedpremierowe mają nowe możliwości i są uważane za niestabilne. Pamiętaj, że wersje podglądu zawsze wskazują najnowszą wersję podglądu ten model; jeśli wydana jest nowa wersja przedpremierowa, istniejąca wersja automatycznie wskazuje nową wersję podglądu.
- Wersje podglądu mają dołączone nazwy modeli
wraz z wstępną wersją modelu datę (-preview
), na przykład-MMDD
. (opublikowano 9 kwietnia 2024 r.).gemini-1.5-pro-preview-0409
- Wersje podglądu mają dołączone nazwy modeli
Dowiedz się więcej o dostępne wersje modelu Gemini i ich cykl życia w dokumentacji Google Cloud.
Dostępne nazwy modeli
Nazwy modeli to konkretne wartości, które umieszczasz w kodzie podczas zainicjowanie modelu generatywnego (jest to krok wymagany do wywołania funkcji Gemini API). Przykłady inicjowania w swoim języku znajdziesz tutaj: przewodnika dla początkujących.
Gemini 1.5 Flash – nazwy modeli
Nazwa modelu | Opis | Etap wersji | Data pierwszego wydania | Data wycofania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.5-flash-001 |
Najnowsza stabilna wersja Gemini 1.5 Flash | Ogólna dostępność | 2024-05-24 | Nie wcześniej niż 24.05.2025 |
Wersja automatycznie zaktualizowana | ||||
gemini-1.5-flash |
Wskazuje najnowszą stabilną wersję Flasha 1.5 . (obecnie gemini-1.5-flash-001 |
Ogólna dostępność | 2024-05-24 | --- |
Wersja testowa | ||||
gemini-1.5-flash-preview-0514 |
Najnowsza wersja testowa Gemini 1.5 Flash | Publiczna wersja przedpremierowa | 2024-05-14 | 2024-06-24 |
Nazwy modeli Gemini 1.5 Pro
Nazwa modelu | Opis | Etap wersji | Data pierwszego wydania | Data wycofania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.5-pro-001 |
Najnowsza stabilna wersja Gemini 1.5 Pro | Ogólna dostępność | 2024-05-24 | Nie wcześniej niż 24.05.2025 |
Wersja automatycznie zaktualizowana | ||||
gemini-1.5-pro |
Wskazuje najnowszą stabilną wersję systemu 1.5 Pro (obecnie gemini-1.5-pro-001 |
Ogólna dostępność | 2024-05-24 | --- |
Wersja testowa | ||||
gemini-1.5-pro-preview-0514 |
Najnowsza wersja testowa Gemini 1.5 Pro | Publiczna wersja przedpremierowa | 2024-05-14 | 2024-06-24 |
gemini-1.5-pro-preview-0409 |
Wskazuje na: gemini-1.5-pro-preview-0514 (czyli najnowsza wersja testowa) |
Publiczna wersja przedpremierowa | 2024-04-09 | 2024-06-14 |
Nazwy modeli Gemini 1.0 Pro Vision
Nazwa modelu | Opis | Etap wersji | Data pierwszego wydania | Data wycofania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.0-pro-vision-001 |
Najnowsza stabilna wersja Gemini 1.0 Pro Vision | Ogólna dostępność | 2024-02-15 | Nie wcześniej niż 15.02.2025 r. |
Wersja automatycznie zaktualizowana | ||||
gemini-1.0-pro-vision |
Wskazuje najnowszą stabilną wersję systemu 1.5 Pro Vision (obecnie gemini-1.5-pro-vision-001 |
Ogólna dostępność | 2024-01-04 | --- |
Nazwy modeli Gemini 1.0 Pro
Nazwa modelu | Opis | Etap wersji | Data pierwszego wydania | Data wycofania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.0-pro-002 |
Najnowsza stabilna wersja Gemini 1.0 Pro | Ogólna dostępność | 2024-04-09 | Nie wcześniej niż 9.04.2025 |
gemini-1.0-pro-001 |
Wersja stabilna Gemini 1.0 Pro | Ogólna dostępność | 2024-02-15 | Nie wcześniej niż 15.02.2025 r. |
Wersja automatycznie zaktualizowana | ||||
gemini-1.0-pro |
Wskazuje najnowszą stabilną wersję systemu 1.0 Pro (obecnie gemini-1.0-pro-002 |
Ogólna dostępność | 2024-02-15 | --- |
Obsługiwane języki
Wszystkie modele Gemini mogą rozumieć i reagować na następujące języki:
arabski (ar), bengalski (bn), bułgarski (bg), chiński uproszczony i tradycyjny (zh), chorwacki (hr), czeski (cs), angielski (en), estoński (et), fiński (fi), duński (da), niderlandzki (nl), francuski (fr), grecki (de), grecki (el), hebrajski (iw), hindi (hi), węgierski (hu), indonezyjski (id), włoski (it), japoński (ja), koreański (ko), łotewski (lv), litewski (lt), norweski (no), polski (pl), portugalski (pt), rumuński (ro), rosyjski (ru), serbski (sr), słowacki (sk), słoweński (sl), hiszpański (es), suahili (sw), szwedzki (sv), tajski (th), turecki (tr), ukraiński (uk), wietnamski (vi)
Gemini 1.5 Pro i Gemini 1.5 Flash modele rozumieją i odpowiadają w tych dodatkowych językach:
afrikaans (af), amharski (am), asamski (as), azerski (azerski), białoruski (be), bośniacki (bs), kataloński (ca), cebuano (ceb), korsykański (co), walijski (cy), dhivehi (dv), esperanto (eo), baskijski (eu), perski (fa), filipiński (tagalski) (fil), fryzyjski (fy), irlandzki (ga), gaelicki szkocki (gd), galicyjski (gl), gudżarati (gu), hausa (ha), hawajski (haw), hmong (hmn), kreolski haitański (ht), ormiański (hy), igbo (ig), islandzki (is), jawajski (jv), gruziński (ka), kazachski (kk), khmerski (km), kannada (kn), krio (kri), kurdyjski (ku), kirgiski (ky), łaciński (la), luksemburski (lb), laotański (lo), malgaski (mg), maoryski (mi), macedoński (mk), malajalam (ml), mongolski (mn), meiteilon (manipuri) (mni-Mtei), marathi (mr), malajski (ms), maltański (mt), birmański (my), nepalski (ne), nyanja (czechewa) (ny), orija (lub), pendżabski (pa), paszto (ps), sindhi (sd), syngaleski (si), samoański (sm), shona (sn), somalijski (so), albański (sq), sesotho (st), sundajski (su), tamilski (ta), telugu (te), tadżycki (tg), ujgurski (ug), urdu (ur), uzbecki (uz), xhosa (xh), jidysz (yi), joruba (yo), zulu (zu)
Dalsze kroki
Wypróbuj możliwości usługi Gemini API
- tworzyć rozmowy wieloetapowe (czat),
- Generuj tekst z prompty tekstowe.
- Generuj tekst z prompty multimodalne (w tym tekst, obrazy, pliki PDF, filmy i dźwięk).
- nawiązać połączenie, korzystając z wywołania funkcji; modeli generatywnych w zewnętrznych systemach i informacjach.