Informacje o modelach Gemini

Modele Gemini są uznawane za multimodalne, ponieważ mogą przetwarzać informacje z różnych modalności, w tym obrazy, filmy i tekst. Możesz na przykład wysłać modelowi Gemini zdjęcie talerza ciasteczek z prośbą o podanie przepisu na te ciasteczka.

Prompt Odpowiedź

Podaj mi przepis na te ciasteczka.

Zdjęcie kilku ciasteczek z kawałkami czekolady
**Składniki**
– 1 c. (2 kostki) miękkie masło niesolone
– 3/4 c. granulowanego cukru
– 3/4 c. brązowego cukru w pakiecie
– 1 łyżka cukru ekstrakt waniliowy
– 2 duże jajka
– 2 1/4 szklanki mąki uniwersalnej
– 1 łyżeczka sody oczyszczonej
– 1 łyżeczka soli
...

Z rodziną modeli Gemini możesz wchodzić w interakcje za pomocą interfejsu Gemini API udostępnianego przez Vertex AI w Google Cloud. W przypadku aplikacji mobilnych i internetowych możesz użyć pakietów SDK Vertex AI dla Firebase do wywołania interfejsu Gemini API i interakcji z modelami Gemini bezpośrednio w aplikacji.

Ta strona zawiera te informacje o modelach Gemini:

Dostępne modele

W Vertex AI dla Firebase możesz używać tych modeli Gemini:

  • Gemini 1.5 Flash: model multimodalny, który obsługuje te same typy danych wejściowych i wyjściowych co 1.5 Pro (oraz łączną liczbę tokenów), ale oprogramowanie Flash 1.5 zostało zaprojektowane specjalnie z myślą o dużych ilościach przy niskich kosztach.

  • Gemini 1.5 Pro: model multimodalny, który umożliwia dodawanie plików graficznych, audio, wideo i PDF w promptach tekstowych lub na czacie w odpowiedzi na SMS-y lub kod. Obsługuje też rozumienie długiego kontekstu przy użyciu do 1 miliona tokenów.

  • Gemini 1.0 Pro Vision: model wielomodalny zaprojektowany do obsługi tekstu, obrazów i filmów w odpowiedziach tekstowych lub kodu. Nie można używać na czacie.

  • Gemini 1.0 Pro: model zaprojektowany do obsługi zadań w języku naturalnym, czatu wieloetapowego z tekstem i kodem oraz generowania kodu.

Przejdź do nazw modeli, które chcesz uwzględnić w kodzie

Przypadki użycia poszczególnych modeli

Gemini 1.5 Flash /
Gemini 1.5 Pro
Gemini 1.0 Pro Vision Gemini 1.0 Pro
Typy danych wejściowych
Tekst
Kod
Obraz
PDF.
Film (tylko klatki)
Wideo (klatki i dźwięk)
Audio
Typy danych wyjściowych
Tekst
Kod
Ogólne przypadki użycia
Żądania multimodalne
Czat wieloetapowy

Więcej informacji o przypadkach użycia modeli Gemini znajdziesz w dokumentacji Google Cloud:

Szczegółowe informacje o każdym modelu

W przypadku wszystkich modeli Gemini token odpowiada około 4 znakom. 100 tokenów składa się z 60–80 angielskich słów. Całkowitą liczbę tokenów w żądaniach możesz określić za pomocą funkcji countTokens.

Właściwość Gemini 1.5 Flash /
Gemini 1.5 Pro
Gemini 1.0 Pro Vision Gemini 1.0 Pro
Łączny limit tokenów (połączone dane wejściowe i wyjściowe) 1 milion tokenów 16 384 tokeny 32 760 tokenów
Limit tokenów wyjściowych 8192 tokeny 2048 tokenów 8192 tokeny
Maksymalna liczba obrazów na żądanie 3000 obrazów, 16 obrazów, Nie dotyczy
Maksymalny rozmiar obrazu zakodowanego w formacie base64 7 MB 7 MB Nie dotyczy
Maksymalny rozmiar pliku PDF 30 MB 30 MB Nie dotyczy
Maksymalna liczba plików wideo na żądanie 10 plików wideo, 1 plik wideo Nie dotyczy
Maksymalna długość filmu (tylko klatki) 60 minut filmu 2 minuty Nie dotyczy
Maksymalna długość filmu (klatki i dźwięk) Ok. 45 minut filmu Nie dotyczy Nie dotyczy
Maksymalna liczba plików audio na żądanie 1 plik audio Nie dotyczy Nie dotyczy
Maksymalna długość ścieżki dźwiękowej ok.8,4 godziny dźwięku Nie dotyczy Nie dotyczy

Poniżej znajdziesz jeszcze bardziej szczegółowe informacje o modelach i plikach wejściowych:

Obsługa wersji modeli

Modele Gemini są oferowane w wersjach stabilnych, aktualizowanych automatycznie i w wersji podglądowej.

  • Wersje stabilne są uważane za ogólnie dostępne.

    • Wersje stabilne mają nazwy modeli z określonym 3-cyfrowym numerem wersji, np. gemini-1.0-pro-001.
  • Wersje aktualizowane automatycznie zawsze wskazują na najnowszą stabilną wersję danego modelu. Jeśli zostanie opublikowana nowa wersja stabilna, wersja aktualizowana automatycznie zaczyna wskazywać nową stabilną wersję.

    • Automatycznie zaktualizowane wersje mają nazwy modeli bez dodawania, np. gemini-1.0-pro.
  • Wersje podglądowe mają nowe możliwości i są uważane za niestabilne. Pamiętaj, że wersje poglądowe zawsze wskazują najnowszą wersję podglądową danego modelu. Jeśli zostanie opublikowana nowa wersja przedpremierowa, każda istniejąca wersja testowa automatycznie zacznie do niej wskazywać nową.

    • Wersje testowe mają nazwy modeli z dodanym ciągiem -preview wraz z datą premiery modelu (-MMDD), na przykład gemini-1.5-pro-preview-0409 (opublikowana 9 kwietnia 2024 r.).

Więcej informacji o dostępnych wersjach modeli Gemini i ich cyklu życia znajdziesz w dokumentacji Google Cloud.

Dostępne nazwy modeli

Nazwy modeli to jawne wartości, które podajesz w kodzie podczas inicjowania modelu generatywnego (jest to wymagane do wywołania interfejsu API Gemini). Przykłady inicjowania w Twoim języku znajdziesz we wprowadzeniu.

Gemini 1.5 Nazwy modeli Flash

Nazwa modelu Opis Etap wersji Data pierwszego wydania Data wycofania
Wersje stabilne
gemini-1.5-flash-001 Najnowsza stabilna wersja Gemini 1.5 Flash Ogólna dostępność 2024-05-24 Nie wcześniej niż 24.05.2025 r.
Wersja automatycznie aktualizowana
gemini-1.5-flash Wskazuje najnowszą stabilną wersję Flasha 1.5
(obecnie gemini-1.5-flash-001).
Ogólna dostępność 2024-05-24 ---
Wersje podglądu
gemini-1.5-flash-preview-0514 Najnowsza wersja testowa Gemini 1.5 Flash Publiczna wersja przedpremierowa 2024-05-14 2024-06-24

Nazwy modeli Gemini 1.5 Pro

Nazwa modelu Opis Etap wersji Data pierwszego wydania Data wycofania
Wersje stabilne
gemini-1.5-pro-001 Najnowsza stabilna wersja Gemini 1.5 Pro Ogólna dostępność 2024-05-24 Nie wcześniej niż 24.05.2025 r.
Wersja automatycznie aktualizowana
gemini-1.5-pro Wskazuje na najnowszą stabilną wersję 1.5 Pro
(obecnie gemini-1.5-pro-001)
Ogólna dostępność 2024-05-24 ---
Wersje podglądu
gemini-1.5-pro-preview-0514 Najnowsza wersja testowa Gemini 1.5 Pro Publiczna wersja przedpremierowa 2024-05-14 2024-06-24
gemini-1.5-pro-preview-0409 Wskazuje na gemini-1.5-pro-preview-0514
(czyli najnowszą wersję przedpremierową).
Publiczna wersja przedpremierowa 2024-04-09 2024-06-14

Nazwy modeli Gemini 1.0 Pro Vision

Nazwa modelu Opis Etap wersji Data pierwszego wydania Data wycofania
Wersje stabilne
gemini-1.0-pro-vision-001 Najnowsza stabilna wersja Gemini 1.0 Pro Vision Ogólna dostępność 2024-02-15 Nie wcześniej niż 15.02.2025 r.
Wersja automatycznie aktualizowana
gemini-1.0-pro-vision Wskazuje na najnowszą stabilną wersję 1.5 Pro Vision
(obecnie gemini-1.5-pro-vision-001)
Ogólna dostępność 2024-01-04 ---

Nazwy modeli Gemini 1.0 Pro

Nazwa modelu Opis Etap wersji Data pierwszego wydania Data wycofania
Wersje stabilne
gemini-1.0-pro-002 Najnowsza stabilna wersja Gemini 1.0 Pro Ogólna dostępność 2024-04-09 Nie wcześniej niż 9.04.2025 r.
gemini-1.0-pro-001 Wersja stabilna Gemini 1.0 Pro Ogólna dostępność 2024-02-15 Nie wcześniej niż 15.02.2025 r.
Wersja automatycznie aktualizowana
gemini-1.0-pro Wskazuje na najnowszą stabilną wersję 1.0 Pro
(obecnie gemini-1.0-pro-002)
Ogólna dostępność 2024-02-15 ---

Obsługiwane języki

Modele Gemini obsługują te języki:

hiszpański (ar), bengalski (bn), bułgarski (bg), chiński uproszczony (zh), chorwacki (hr), czeski (cs), duński (da), fiński (fi), francuski (fr), fiński (fi), francuski (fr), niemiecki (de), grecki (el, francuski), hebrajski (iw), grecki (el), litewski (francuski), niemiecki (de), turecki (el. litewski), włoski (hu) , turecki (w języku angielskim), turecki (w języku angielskim), włoski (hiw, węgierski (hu).

Dalsze kroki

Wypróbuj możliwości interfejsu Gemini API