Modele z rodziny Gemini są uważane za multimodalne, ponieważ mają duże możliwości przetwarzania informacji z różnych modalności, w tym obrazów, filmów, i tekst. Możesz na przykład wysłać modelowi Gemini zdjęcie talerza i poprosić o przepis na nie.
Prompt | Odpowiedź |
Podaj mi przepis na te ciasteczka. |
**Składniki** – 1 c. (2 pałki) masło niesolone, zmiękczone – 3/4 c. cukier granulowany – 3/4 c. brązowy cukier zapakowany – 1 łyżka stołowa . ekstrakt waniliowy – 2 duże jajka – 21/4 c. mąka uniwersalna – 1 łyżka stołowa soda oczyszczona – 1 łyżka stołowa sól ... |
Możesz wejść w interakcję z modelami z rodziny Gemini za pomocą Gemini API udostępniany przez Vertex AI w Google Cloud. W przypadku aplikacji mobilnych i internetowych możesz użyć parametru pakiety SDK Vertex AI dla Firebase, aby wywoływać interfejs Gemini API i wchodzić w interakcję z interfejsem Modele Gemini bezpośrednio w aplikacji.
Ta strona zawiera te informacje o modelach Gemini:
Ogólne porównanie przypadków użycia różnych Gemini oraz ich obsługiwane typy wejściowe.
Porównanie szczegółów poszczególnych modeli, na przykład maksymalną liczbę tokenów wejściowych i maksymalną długość filmu.
Opis wersji modeli Gemini, w szczególności stabilnej, automatycznej aktualizacji i wersji testowej.
Listy dostępnych nazw modeli do uwzględnienia podczas inicjowania kodu.
Lista języków obsługiwanych w przypadku modeli Gemini.
Dostępne modele
W Vertex AI dla Firebase możesz używać dowolnych z tych modeli Gemini:
Gemini 1.5 Flash
Model multimodalny, który obsługuje te same dane wejściowe i wyjściowe typu 1.5 Pro (oraz łączną liczbę tokenów), ale 1.5 Flash zaprojektowany z myślą o dużej objętości i ekonomicznych zastosowaniach.Gemini 1.5 Pro
Model multimodalny, który umożliwia dodawanie obrazów, dźwięku, wideo i PDF w postaci promptów w formie SMS-a lub promptów na czacie. Obsługuje również zrozumienie długiego kontekstu z obsługą do 1 miliona tokenów.Gemini 1.0 Pro Vision
Model multimodalny zaprojektowany do obsługi obrazów i filmów na potrzeby odpowiedzi tekstowej lub kodu. Nie można użyć do czatu.Gemini 1.0 Pro
Model zaprojektowany do obsługi zadań związanych z językiem naturalnym, wieloetapowy czatują z tekstem i kodem oraz generowanie kodu.
Przejdź do nazw modeli, które chcesz uwzględnić w kodzie
Przypadki użycia i możliwości każdego modelu
Każdy model Gemini ma inne możliwości dostosowane do różnych przypadków użycia. Więcej informacji na temat poszczególnych funkcji znajdziesz w dokumentacji Google Cloud Modele Gemini.
Obsługiwane dane wejściowe i wyjściowe dla każdego modelu
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
Typy danych wejściowych | ||||
Tekst | ||||
Kod | ||||
Obraz | ||||
Wideo (tylko klatki) | ||||
Wideo (klatki i dźwięk) | ||||
Audio | ||||
Typy danych wyjściowych | ||||
Tekst | ||||
Kod |
Więcej informacji o obsługiwanych typach plików znajdziesz w sekcji Obsługiwane pliki wejściowe i wymagania interfejsu Vertex AI Gemini API.
Obsługiwane możliwości i ogólne funkcje każdego modelu
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
Generowanie tekstu na podstawie promptów tekstowych | |||||
Generowanie tekstu na podstawie promptów multimodalnych | |||||
Dane wyjściowe JSON (tryb ograniczonego schematu) (wkrótce w pakietach SDK Vertex AI dla Firebase) |
|||||
Czat wieloetapowy | |||||
Wywoływanie funkcji | |||||
Wywoływanie funkcji podstawowych | |||||
Wywoływanie funkcji równoległej | |||||
Tryb wywoływania funkcji | |||||
Zliczanie tokenów i znaków podlegających rozliczeniu | |||||
Instrukcje systemowe |
szczegółowe informacje o każdym modelu.
Właściwość |
Gemini 1.5 Flash / Gemini 1.5 Pro |
Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|
Łączny limit tokenów (połączone dane wejściowe i wyjściowe)* | 1 milion tokenów | 16 384 tokeny | 32 760 tokenów |
Limit tokenów wyjściowych* | 8192 tokeny | 2048 tokenów | 8192 tokeny |
Maksymalna liczba obrazów na żądanie | 3000 obrazów | 16 obrazów | Nie dotyczy |
Maksymalny rozmiar obrazu w kodowaniu base64 | 7 MB | 7 MB | Nie dotyczy |
Maksymalny rozmiar pliku PDF | 30 MB | 30 MB | Nie dotyczy |
Maksymalna liczba plików wideo na żądanie | 10 plików wideo. | 1 plik wideo | Nie dotyczy |
Maksymalna długość filmu (tylko klatki) | 60 minut filmu | 2 minuty | Nie dotyczy |
Maksymalna długość filmu (klatki i dźwięk) | Ok. 45 minut filmu | Nie dotyczy | Nie dotyczy |
Maksymalna liczba plików audio na żądanie | 1 plik audio | Nie dotyczy | Nie dotyczy |
Maksymalna długość ścieżki dźwiękowej | Ok.8,4 godziny audio | Nie dotyczy | Nie dotyczy |
* We wszystkich modelach Gemini token odpowiada około 4 znakom,
więc 100 tokenów to około 60–80 angielskich słów. Możesz określić łączną liczbę
tokenów w Twoich żądaniach za pomocą
countTokens
.
Tutaj znajdziesz jeszcze bardziej szczegółowe informacje na temat modeli pliki wejściowe:
Dowiedz się więcej o różnice między modelami multimodalnymi w dokumentacji Google Cloud.
Dowiedz się więcej o obsługiwanych typach plików, sposobach określania typu MIME i tworzeniu upewnij się, że Twoje pliki i żądania multimodalne spełniają wymagania sprawdzone metody Obsługiwane pliki wejściowe i wymagania interfejsu Vertex AI Gemini API.
Obsługa wersji modeli
Modele Gemini są dostępne w wersji stabilnej, automatycznej i podglądu. versions.
Wersje stabilne są uważane za ogólnodostępne.
- Wersje stabilne mają nazwy modeli uzupełnione znakiem
konkretny trzycyfrowy numer wersji, na przykład
.gemini-1.0-pro-001
- Wersje stabilne mają nazwy modeli uzupełnione znakiem
konkretny trzycyfrowy numer wersji, na przykład
Wersje automatycznie aktualizowane zawsze wskazują na najnowszą wersję stabilną ten model; po opublikowaniu nowej stabilnej wersji, automatycznie zaktualizowana automatycznie wskazuje nową wersję stabilną.
- Wersje zaktualizowane automatycznie mają nazwy modeli bez
wyrazu, na przykład
.gemini-1.0-pro
- Wersje zaktualizowane automatycznie mają nazwy modeli bez
wyrazu, na przykład
Wersje wersje przedpremierowe mają nowe możliwości i są uważane za niestabilne. Pamiętaj, że wersje podglądu zawsze wskazują najnowszą wersję podgląd ten model; jeśli wydana jest nowa wersja przedpremierowa, istniejąca wersja automatycznie wskazuje nową wersję podglądu.
- Wersje podglądu mają dołączone nazwy modeli
wraz z wstępną wersją modelu datę (-preview
), na przykład-MMDD
. (opublikowano 9 kwietnia 2024 r.).gemini-1.5-pro-preview-0409
- Wersje podglądu mają dołączone nazwy modeli
Dowiedz się więcej o dostępne wersje modelu Gemini i ich cykl życia znajdziesz w dokumentacji Google Cloud.
Dostępne nazwy modeli
Nazwy modeli to konkretne wartości, które umieszczasz w kodzie podczas zainicjowanie modelu generatywnego (jest to krok wymagany do wywołania funkcji Gemini API). Przykłady inicjowania w swoim języku znajdziesz tutaj: przewodnika dla początkujących.
Gemini 1.5 Flash – nazwy modeli
Nazwa modelu | Opis | Etap wersji | Data pierwszego wydania | Data wycofania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.5-flash-001 |
Najnowsza stabilna wersja Gemini 1.5 Flash | Ogólna dostępność | 2024-05-24 | Nie wcześniej niż 24.05.2025 |
Wersja automatycznie zaktualizowana | ||||
gemini-1.5-flash |
Wskazuje najnowszą stabilną wersję Flasha 1.5 . (obecnie gemini-1.5-flash-001 |
Ogólna dostępność | 2024-05-24 | --- |
Wersja testowa | ||||
gemini-1.5-flash-preview-0514 |
Najnowsza wersja testowa Gemini 1.5 Flash | Publiczna wersja przedpremierowa | 2024-05-14 | 2024-06-24 |
Nazwy modeli Gemini 1.5 Pro
Nazwa modelu | Opis | Etap wersji | Data pierwszego wydania | Data wycofania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.5-pro-001 |
Najnowsza stabilna wersja Gemini 1.5 Pro | Ogólna dostępność | 2024-05-24 | Nie wcześniej niż 24.05.2025 |
Wersja automatycznie zaktualizowana | ||||
gemini-1.5-pro |
Wskazuje najnowszą stabilną wersję systemu 1.5 Pro (obecnie gemini-1.5-pro-001 |
Ogólna dostępność | 2024-05-24 | --- |
Wersja testowa | ||||
gemini-1.5-pro-preview-0514 |
Najnowsza wersja testowa Gemini 1.5 Pro | Publiczna wersja przedpremierowa | 2024-05-14 | 2024-06-24 |
gemini-1.5-pro-preview-0409 |
Wskazuje na: gemini-1.5-pro-preview-0514 (czyli najnowsza wersja testowa) |
Publiczna wersja przedpremierowa | 2024-04-09 | 2024-06-14 |
Nazwy modeli Gemini 1.0 Pro Vision
Nazwa modelu | Opis | Etap wersji | Data pierwszego wydania | Data wycofania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.0-pro-vision-001 |
Najnowsza stabilna wersja Gemini 1.0 Pro Vision | Ogólna dostępność | 2024-02-15 | Nie wcześniej niż 15.02.2025 r. |
Wersja automatycznie zaktualizowana | ||||
gemini-1.0-pro-vision |
Wskazuje najnowszą stabilną wersję systemu 1.5 Pro Vision (obecnie gemini-1.5-pro-vision-001 |
Ogólna dostępność | 2024-01-04 | --- |
Nazwy modeli Gemini 1.0 Pro
Nazwa modelu | Opis | Etap wersji | Data pierwszego wydania | Data wycofania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.0-pro-002 |
Najnowsza stabilna wersja Gemini 1.0 Pro | Ogólna dostępność | 2024-04-09 | Nie wcześniej niż 9.04.2025 |
gemini-1.0-pro-001 |
Wersja stabilna Gemini 1.0 Pro | Ogólna dostępność | 2024-02-15 | Nie wcześniej niż 15.02.2025 r. |
Wersja automatycznie zaktualizowana | ||||
gemini-1.0-pro |
Wskazuje najnowszą stabilną wersję systemu 1.0 Pro (obecnie gemini-1.0-pro-002 |
Ogólna dostępność | 2024-02-15 | --- |
Obsługiwane języki
Modele Gemini obsługują te języki:
.
Dalsze kroki
Wypróbuj możliwości interfejsu Gemini API
- tworzyć rozmowy wieloetapowe (czat),
- Generuj tekst z prompty tekstowe.
- Generuj tekst z prompty multimodalne (w tym tekst, obrazy, pliki PDF, filmy i dźwięk).
- nawiązać połączenie, korzystając z wywołania funkcji; modeli generatywnych w zewnętrznych systemach i informacjach.