Więcej informacji o modelach Gemini

Modele z rodziny Gemini są uważane za multimodalne, ponieważ mają duże możliwości przetwarzania informacji z różnych modalności, w tym obrazów, filmów, i tekst. Możesz na przykład wysłać modelowi Gemini zdjęcie talerza i poprosić o przepis na nie.

Prompt Odpowiedź

Podaj mi przepis na te ciasteczka.

Zdjęcie kilku ciasteczek z kawałkami czekolady
**Składniki**
– 1 c. (2 pałki) masło niesolone, zmiękczone
– 3/4 c. cukier granulowany
– 3/4 c. brązowy cukier zapakowany
– 1 łyżka stołowa . ekstrakt waniliowy
– 2 duże jajka
– 21/4 c. mąka uniwersalna
– 1 łyżka stołowa soda oczyszczona
– 1 łyżka stołowa sól
...

Możesz wejść w interakcję z modelami z rodziny Gemini za pomocą Gemini API udostępniany przez Vertex AI w Google Cloud. W przypadku aplikacji mobilnych i internetowych możesz użyć parametru pakiety SDK Vertex AI dla Firebase, aby wywoływać interfejs Gemini API i wchodzić w interakcję z interfejsem Modele Gemini bezpośrednio w aplikacji.

Ta strona zawiera te informacje o modelach Gemini:

Dostępne modele

W Vertex AI dla Firebase możesz używać dowolnych z tych modeli Gemini:

  • Gemini 1.5 Flash
    Model multimodalny, który obsługuje te same dane wejściowe i wyjściowe typu 1.5 Pro (oraz łączną liczbę tokenów), ale 1.5 Flash zaprojektowany z myślą o dużej objętości i ekonomicznych zastosowaniach.

  • Gemini 1.5 Pro
    Model multimodalny, który umożliwia dodawanie obrazów, dźwięku, wideo i PDF w postaci promptów w formie SMS-a lub promptów na czacie. Obsługuje również zrozumienie długiego kontekstu z obsługą do 1 miliona tokenów.

  • Gemini 1.0 Pro Vision
    Model multimodalny zaprojektowany do obsługi obrazów i filmów na potrzeby odpowiedzi tekstowej lub kodu. Nie można użyć do czatu.

  • Gemini 1.0 Pro
    Model zaprojektowany do obsługi zadań związanych z językiem naturalnym, wieloetapowy czatują z tekstem i kodem oraz generowanie kodu.

Przejdź do nazw modeli, które chcesz uwzględnić w kodzie

Przypadki użycia i możliwości każdego modelu

Każdy model Gemini ma inne możliwości dostosowane do różnych przypadków użycia. Więcej informacji na temat poszczególnych funkcji znajdziesz w dokumentacji Google Cloud Modele Gemini.

Obsługiwane dane wejściowe i wyjściowe dla każdego modelu

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
Typy danych wejściowych
Tekst
Kod
Obraz
PDF
Wideo (tylko klatki)
Wideo (klatki i dźwięk)
Audio
Typy danych wyjściowych
Tekst
Kod

Więcej informacji o obsługiwanych typach plików znajdziesz w sekcji Obsługiwane pliki wejściowe i wymagania interfejsu Vertex AI Gemini API.

Obsługiwane możliwości i ogólne funkcje każdego modelu

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
Generowanie tekstu na podstawie promptów tekstowych
Generowanie tekstu na podstawie promptów multimodalnych
Dane wyjściowe JSON (tryb ograniczonego schematu)
(wkrótce w pakietach SDK Vertex AI dla Firebase)
Czat wieloetapowy
Wywoływanie funkcji
Wywoływanie funkcji podstawowych
Wywoływanie funkcji równoległej
Tryb wywoływania funkcji
Zliczanie tokenów i znaków podlegających rozliczeniu
Instrukcje systemowe

szczegółowe informacje o każdym modelu.

Właściwość Gemini 1.5 Flash /
Gemini 1.5 Pro
Gemini 1.0 Pro Vision Gemini 1.0 Pro
Łączny limit tokenów (połączone dane wejściowe i wyjściowe)* 1 milion tokenów 16 384 tokeny 32 760 tokenów
Limit tokenów wyjściowych* 8192 tokeny 2048 tokenów 8192 tokeny
Maksymalna liczba obrazów na żądanie 3000 obrazów 16 obrazów Nie dotyczy
Maksymalny rozmiar obrazu w kodowaniu base64 7 MB 7 MB Nie dotyczy
Maksymalny rozmiar pliku PDF 30 MB 30 MB Nie dotyczy
Maksymalna liczba plików wideo na żądanie 10 plików wideo. 1 plik wideo Nie dotyczy
Maksymalna długość filmu (tylko klatki) 60 minut filmu 2 minuty Nie dotyczy
Maksymalna długość filmu (klatki i dźwięk) Ok. 45 minut filmu Nie dotyczy Nie dotyczy
Maksymalna liczba plików audio na żądanie 1 plik audio Nie dotyczy Nie dotyczy
Maksymalna długość ścieżki dźwiękowej Ok.8,4 godziny audio Nie dotyczy Nie dotyczy

* We wszystkich modelach Gemini token odpowiada około 4 znakom, więc 100 tokenów to około 60–80 angielskich słów. Możesz określić łączną liczbę tokenów w Twoich żądaniach za pomocą countTokens.

Tutaj znajdziesz jeszcze bardziej szczegółowe informacje na temat modeli pliki wejściowe:

Obsługa wersji modeli

Modele Gemini są dostępne w wersji stabilnej, automatycznej i podglądu. versions.

  • Wersje stabilne są uważane za ogólnodostępne.

    • Wersje stabilne mają nazwy modeli uzupełnione znakiem konkretny trzycyfrowy numer wersji, na przykład gemini-1.0-pro-001.
  • Wersje automatycznie aktualizowane zawsze wskazują na najnowszą wersję stabilną ten model; po opublikowaniu nowej stabilnej wersji, automatycznie zaktualizowana automatycznie wskazuje nową wersję stabilną.

    • Wersje zaktualizowane automatycznie mają nazwy modeli bez wyrazu, na przykład gemini-1.0-pro.
  • Wersje wersje przedpremierowe mają nowe możliwości i są uważane za niestabilne. Pamiętaj, że wersje podglądu zawsze wskazują najnowszą wersję podgląd ten model; jeśli wydana jest nowa wersja przedpremierowa, istniejąca wersja automatycznie wskazuje nową wersję podglądu.

    • Wersje podglądu mają dołączone nazwy modeli -preview wraz z wstępną wersją modelu datę (-MMDD), na przykład gemini-1.5-pro-preview-0409. (opublikowano 9 kwietnia 2024 r.).

Dowiedz się więcej o dostępne wersje modelu Gemini i ich cykl życia znajdziesz w dokumentacji Google Cloud.

Dostępne nazwy modeli

Nazwy modeli to konkretne wartości, które umieszczasz w kodzie podczas zainicjowanie modelu generatywnego (jest to krok wymagany do wywołania funkcji Gemini API). Przykłady inicjowania w swoim języku znajdziesz tutaj: przewodnika dla początkujących.

Gemini 1.5 Flash – nazwy modeli

Nazwa modelu Opis Etap wersji Data pierwszego wydania Data wycofania
Wersje stabilne
gemini-1.5-flash-001 Najnowsza stabilna wersja Gemini 1.5 Flash Ogólna dostępność 2024-05-24 Nie wcześniej niż 24.05.2025
Wersja automatycznie zaktualizowana
gemini-1.5-flash Wskazuje najnowszą stabilną wersję Flasha 1.5
. (obecnie gemini-1.5-flash-001)
Ogólna dostępność 2024-05-24 ---
Wersja testowa
gemini-1.5-flash-preview-0514 Najnowsza wersja testowa Gemini 1.5 Flash Publiczna wersja przedpremierowa 2024-05-14 2024-06-24

Nazwy modeli Gemini 1.5 Pro

Nazwa modelu Opis Etap wersji Data pierwszego wydania Data wycofania
Wersje stabilne
gemini-1.5-pro-001 Najnowsza stabilna wersja Gemini 1.5 Pro Ogólna dostępność 2024-05-24 Nie wcześniej niż 24.05.2025
Wersja automatycznie zaktualizowana
gemini-1.5-pro Wskazuje najnowszą stabilną wersję systemu 1.5 Pro
(obecnie gemini-1.5-pro-001)
Ogólna dostępność 2024-05-24 ---
Wersja testowa
gemini-1.5-pro-preview-0514 Najnowsza wersja testowa Gemini 1.5 Pro Publiczna wersja przedpremierowa 2024-05-14 2024-06-24
gemini-1.5-pro-preview-0409 Wskazuje na: gemini-1.5-pro-preview-0514
(czyli najnowsza wersja testowa)
Publiczna wersja przedpremierowa 2024-04-09 2024-06-14

Nazwy modeli Gemini 1.0 Pro Vision

Nazwa modelu Opis Etap wersji Data pierwszego wydania Data wycofania
Wersje stabilne
gemini-1.0-pro-vision-001 Najnowsza stabilna wersja Gemini 1.0 Pro Vision Ogólna dostępność 2024-02-15 Nie wcześniej niż 15.02.2025 r.
Wersja automatycznie zaktualizowana
gemini-1.0-pro-vision Wskazuje najnowszą stabilną wersję systemu 1.5 Pro Vision
(obecnie gemini-1.5-pro-vision-001)
Ogólna dostępność 2024-01-04 ---

Nazwy modeli Gemini 1.0 Pro

Nazwa modelu Opis Etap wersji Data pierwszego wydania Data wycofania
Wersje stabilne
gemini-1.0-pro-002 Najnowsza stabilna wersja Gemini 1.0 Pro Ogólna dostępność 2024-04-09 Nie wcześniej niż 9.04.2025
gemini-1.0-pro-001 Wersja stabilna Gemini 1.0 Pro Ogólna dostępność 2024-02-15 Nie wcześniej niż 15.02.2025 r.
Wersja automatycznie zaktualizowana
gemini-1.0-pro Wskazuje najnowszą stabilną wersję systemu 1.0 Pro
(obecnie gemini-1.0-pro-002)
Ogólna dostępność 2024-02-15 ---

Obsługiwane języki

Modele Gemini obsługują te języki:

.

Dalsze kroki

Wypróbuj możliwości interfejsu Gemini API