Watch demos on how to build & run AI-powered apps with Firebase at Demo Day '24. Watch now.

Diese Seite wurde von der Cloud Translation API übersetzt.

Gemini-Modelle

Die Gemini-Modelle gelten als multimodal, da sie Informationen aus verschiedenen Modalitäten verarbeiten können, darunter Bilder, Videos und Text. Sie können einem Gemini-Modell beispielsweise ein Foto eines Tellers mit Keksen schicken und es bitten, Ihnen ein Rezept für diese Kekse zu geben.

Eingabeaufforderung	Antwort
`Give me a recipe for these cookies.`	`INGREDIENTS - 1 c. (2 sticks) unsalted butter, softened - 3/4 c. granulated sugar - 3/4 c. brown sugar, packed - 1 tsp . vanilla extract - 2 large eggs - 2 1/4 c. all-purpose flour - 1 tsp. baking soda - 1 tsp. salt ...`

Sie können mit der Gemini-Modellfamilie über die Gemini API von Vertex AI auf Google Cloud interagieren. Für mobile Apps und Webanwendungen können Sie die Vertex AI in Firebase SDKs verwenden, um die Gemini API aufzurufen und direkt über Ihre App mit den Gemini-Modellen zu interagieren.

Auf dieser Seite finden Sie die folgenden Informationen zu den Gemini-Modellen:

Grober Vergleich der Anwendungsfälle für die verschiedenen Gemini-Modelle, einschließlich der unterstützten Eingabetypen.
Vergleich der Details für jedes Modell, z. B. maximale Eingabetokens oder maximale Videolänge.
Beschreibung der Versionierung von Gemini-Modellen, insbesondere der stabilen, automatisch aktualisierten und Vorabversionen.
Listen mit verfügbaren Modellnamen, die Sie während der Initialisierung in Ihren Code aufnehmen müssen.
Liste der unterstützten Sprachen für die Gemini-Modelle.

Verfügbare Modelle

Sie können mit Vertex AI in Firebase eines der folgenden Gemini-Modelle verwenden:

Gemini 1.5 Flash
Multimodales Modell, das dieselben Eingabe- und Ausgabetypen wie 1.5 Pro unterstützt, aber mit einem Long-Context-Verstehen von 1 Million Tokens. Gemini 1.5 Flash wurde speziell für kostengünstige Anwendungen mit hohem Volumen entwickelt.
Gemini 1.5 Pro
Multimodales Modell, das das Hinzufügen von Bild-, Audio-, Video- und PDF-Dateien in Text- oder Chat-Prompts für eine Text- oder Codeantwort unterstützt. Außerdem unterstützt es das Long-Context-Verstehen mit 2 Millionen Tokens.
Gemini 1.0 Pro Vision
Multimodales Modell, das Text sowie Bilder und Videos für eine Text- oder Codeantwort verarbeitet. Kann nicht für Chats verwendet werden.
Gemini 1.0 Pro
Modell, das für Aufgaben in natürlicher Sprache, wechselseitigen Chat mit Text und Code sowie Codegenerierung entwickelt wurde.

Modellnamen, die in den Code aufgenommen werden sollen

Anwendungsfälle und Funktionen für jedes Modell

Jedes Gemini-Modell hat unterschiedliche Funktionen, die verschiedene Anwendungsfälle unterstützen. Weitere Informationen zu den einzelnen Gemini-Modellen finden Sie in der Google Cloud-Dokumentation.

Unterstützte Eingabe und Ausgabe für jedes Modell

	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision	Gemini 1.0 Pro
Eingabetypen
Text
Code
Bild
PDF
Video (nur Frames)
Video (Frames und Audio)
Audio
Ausgabetypen
Text
Strukturierte Ausgabe (z. B. JSON) mit Antwortschema
Code

Informationen zu den unterstützten Dateitypen finden Sie unter Unterstützte Eingabedateien und Anforderungen für die Vertex AI Gemini API.

Unterstützte Funktionen und allgemeine Funktionen für jedes Modell

		Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision	Gemini 1.0 Pro
Textgenerierung aus reiner Texteingabe
Textgenerierung aus multimodaler Eingabe
Strukturierte Ausgabe (z. B. JSON) mit Antwortschema
Wechselseitiger Chat
Funktionsaufrufe
	Grundlegende Funktionsaufrufe
	Paralleler Funktionsaufruf
	Modus für Funktionsaufrufe
Tokens und abrechenbare Zeichen zählen
Systemanweisungen

Detaillierte Informationen zu den einzelnen Modellen

Attribut	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision	Gemini 1.0 Pro
Gesamttokenlimit (Eingabe- und Ausgabe kombiniert) *	1.048.576 Tokens	2.097.152 Tokens	16.384 Tokens	32.760 Tokens
Ausgabetokenlimit *	8.192 Tokens	8.192 Tokens	2.048 Tokens	8.192 Tokens
Maximale Anzahl von Bildern pro Anfrage	3.000 Bilder	3.000 Bilder	16 Bilder	–
Maximale Größe eines Base64-codierten Bildes	7 MB	7 MB	7 MB	–
Maximale PDF-Größe	30 MB	30 MB	30 MB	–
Maximale Anzahl von Videodateien pro Anfrage	10 Videodateien	10 Videodateien	1 Videodatei	–
Maximale Videolänge (nur Frames)	~60 Minuten Videomaterial	~60 Minuten Videomaterial	2 Minuten	–
Maximale Videolänge (Frames und Audio)	~45 Minuten Videomaterial	~45 Minuten Videomaterial	–	–
Maximale Anzahl von Audiodateien pro Anfrage	1 Audiodatei	1 Audiodatei	–	–
Maximale Audiolänge	~ 8,4 Stunden Audio	~ 8,4 Stunden Audio	–	–

^{* Bei allen Gemini-Modellen entspricht ein Token etwa 4 Zeichen. 100 Tokens entsprechen also etwa 60–80 englischen Wörtern. Die Gesamtzahl der Tokens in deinen Anfragen kannst du mit countTokens ermitteln.}

Weitere Informationen zu unterstützten Dateitypen, zum Angeben des MIME-Typs und dazu, wie Sie dafür sorgen, dass Ihre Dateien und multimodalen Anfragen die Anforderungen erfüllen und Best Practices einhalten, finden Sie unter Unterstützte Eingabedateien und Anforderungen für die Vertex AI Gemini API.

Versionierung der Modelle

Die Gemini-Modelle werden in stabilen, automatisch aktualisierten und Vorabversionen angeboten.

Stabile Versionen gelten als allgemein verfügbar.
- Stabile Versionen haben eine dreistellige Versionsnummer, die an den Modellnamen angehängt ist, z. B. gemini-1.5-pro-002.
Automatisch aktualisierte Versionen verweisen immer auf die aktuelle stabile Version dieses Modells. Wenn eine neue stabile Version veröffentlicht wird, verweist die automatisch aktualisierte Version automatisch auf diese neue stabile Version.
- Automatisch aktualisierte Versionen haben Modellnamen ohne Zusatz, z. B. gemini-1.5-pro.
Vorabversionen bieten neue Funktionen und gelten als nicht stabil. Vorschauversionen verweisen immer auf die aktuelle Vorschauversion dieses Modells. Wenn eine neue Vorschauversion veröffentlicht wird, verweist jede vorhandene Vorschauversion automatisch auf diese neue Vorschauversion.
- Modellnamen von Vorabversionen werden mit -preview und dem Datum der Erstveröffentlichung des Modells (-MMDD) angehängt, z. B. gemini-1.5-pro-preview-0409 (veröffentlicht am 9. April 2024).

Weitere Informationen zu den verfügbaren Gemini-Modellversionen und ihrem Lebenszyklus finden Sie in der Google Cloud-Dokumentation.

Verfügbare Modellnamen

Modellnamen sind die expliziten Werte, die Sie in Ihren Code während der Initialisierung des generativen Modells einfügen. Dies ist ein erforderlicher Schritt, um die Gemini API aufzurufen. Beispiele für die Initialisierung für Ihre Sprache finden Sie im Leitfaden für den Einstieg.

Namen von Gemini 1.5-Flash-Modellen

Modellname	Beschreibung	Release-Phase	Datum der Erstveröffentlichung	Einstellungsdatum
Stabile Versionen
`gemini-1.5-flash-002`	Neueste stabile Version von Gemini 1.5 Flash	General Availability	2024-09-24	Frühestens am 24.09.2025
`gemini-1.5-flash-001`	Erste stabile Version von Gemini 1.5 Flash	General Availability	2024-05-24	Frühestens am 24. Mai 2025
Automatisch aktualisierte Version
`gemini-1.5-flash`	Verweist auf die neueste stabile Version von 1.5 Flash (aktuell `gemini-1.5-flash-002`)	General Availability	2024-09-24	---

Modellnamen von Gemini 1.5 Pro

Modellname	Beschreibung	Release-Phase	Datum der Erstveröffentlichung	Einstellungsdatum
Stabile Versionen
`gemini-1.5-pro-002`	Aktuelle stabile Version von Gemini 1.5 Pro	General Availability	2024-09-24	Frühestens am 24.09.2025
`gemini-1.5-pro-001`	Erste stabile Version von Gemini 1.5 Pro	General Availability	2024-05-24	Frühestens am 24. Mai 2025
Automatisch aktualisierte Version
`gemini-1.5-pro`	Verweist auf die aktuellste stabile Version von 1.5 Pro (derzeit `gemini-1.5-pro-002`)	General Availability	2024-09-24	---

Namen der Gemini 1.0 Pro Vision-Modelle

Modellname	Beschreibung	Release-Phase	Datum der Erstveröffentlichung	Einstellungsdatum
Stabile Versionen
`gemini-1.0-pro-vision-001`	Neueste stabile Version von Gemini 1.0 Pro Vision	General Availability	2024-02-15	Frühestens am 15. Februar 2025
Automatisch aktualisierte Version
`gemini-1.0-pro-vision`	Verweist auf die aktuelle stabile Version von 1.5 Pro Vision (aktuell `gemini-1.5-pro-vision-001`)	General Availability	2024-01-04	---

Modellnamen für Gemini 1.0 Pro

Modellname	Beschreibung	Release-Phase	Datum der Erstveröffentlichung	Einstellungsdatum
Stabile Versionen
`gemini-1.0-pro-002`	Neueste stabile Version von Gemini 1.0 Pro	General Availability	2024-04-09	Frühestens am 9. April 2025
`gemini-1.0-pro-001`	Stabile Version von Gemini 1.0 Pro	General Availability	2024-02-15	Frühestens am 15. Februar 2025
Automatisch aktualisierte Version
`gemini-1.0-pro`	Verweist auf die aktuelle stabile Version von 1.0 Pro (derzeit `gemini-1.0-pro-002`)	General Availability	2024-02-15	---

Unterstützte Sprachen

Alle Gemini-Modelle können die folgenden Sprachen verstehen und darauf antworten:

Arabisch (ar), Bengalisch (bn), Bulgarisch (bg), Chinesisch (vereinfacht und traditionell), Kroatisch (hr), Tschechisch (cs), Dänisch (da), Niederländisch (nl), Englisch (en), Estnisch (et), Finnisch (fi), Französisch (fr), Deutsch (de), Griechisch (el), Hebräisch (iw), Hindi (hi), Ungarisch (hu), Indonesisch (id), Italienisch (it), Japanisch (ja), Koreanisch (ko), Lettisch (lv), Litauisch (lt), Norwegisch (no) ), Polnisch (pl), Portugiesisch (pt), Rumänisch (ro), Russisch (ru), Serbisch (sr), Slowakisch (sk), Slowenisch (sl), Spanisch (es), Swahili (sw), Schwedisch (sv), Thai (th), Türkisch (tr), Ukrainisch (uk), Vietnamesisch (vi).
Die Modelle Gemini 1.5 Pro und Gemini 1.5 Flash können in den folgenden zusätzlichen Sprachen verstehen und antworten:

Afrikaans (af), Amharisch (am), Assamesisch (as), Aserbaidschanisch (az), Weißrussisch (be), Bosnisch (bs), Katalanisch (ca), Cebuano (ceb), Korsisch (co), Walisisch (cy), Divehi (dv), Esperanto (eo), Baskisch (eu), Persisch (fa), Filipino (Tagalog) (fil), Friesisch (fy), Irisch (ga), Schottisch-Gälisch (gd), Galicisch (gl), Gujarati (gu), Hausa (ha), Hawaiianisch (haw), Hmong (hmn), Haitianisch-Kreolisch (ht), Armenisch (hy), Igbo (ig), Isländisch (is), Javanisch (jv), Georgisch (ka), Kasachisch (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdisch (ku), Kirgisisch (ky), Lateinisch (la), Luxemburgisch (lb), Laotisch (lo), Malagasy (mg), Maori (mi), Mazedonisch (mk), Malayalam (ml), Mongolisch (mn), Meitei (Manipuri) (mni-Mtei), Marathi (mr), Malaysisch (ms), Maltesisch (mt), Myanmar (Burmesisch) (my), Nepalesisch (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Paschtu (ps), Sindhi (sd), Sinhala (Singhalesisch) (si), Samoanisch (sm), Shona (sn), Somali (so), Albanisch (sq), Sesotho (st), Sundanesisch (su), Tamil (ta), Telugu (te), Tadschikisch (tg), Uigurisch (ug), Urdu (ur), Usbekisch (uz), Xhosa (xh), Jiddisch (yi), Yoruba (yo), Zulu (zu)

Nächste Schritte

Funktionen des Gemini API testen

Unterhaltungen in mehreren Runden (Chat) erstellen
Text aus nur-Text-Prompts generieren
Text aus multimodalen Prompts generieren (einschließlich Text, Bildern, PDFs, Videos und Audio).
Sie können sowohl aus Text- als auch aus multimodalen Prompts strukturierte Ausgabe (z. B. JSON) generieren.
Verwenden Sie Funktionsaufrufe, um generative Modelle mit externen Systemen und Informationen zu verbinden.