Wenn Sie die Gemini API über ein Firebase AI Logic SDK aus Ihrer App aufrufen, können Sie das Gemini Modell auffordern, Text basierend auf einer multimodalen Eingabe wie Bildern, Videos, Audiodateien und Dokumenten (z. B. PDFs) zu generieren.
Sie müssen unterstützte Dateitypen verwenden, einen unterstützten MIME-Typ angeben und darauf achten, dass Ihre Dateien und multimodalen Anfragen die Anforderungen erfüllen und den Best Practices entsprechen.
Diese Seite bezieht sich speziell auf die Verwendung eines GenerativeModel und beschreibt Folgendes:
Details zu den unterstützten MIME-Typen, Best Practices und Einschränkungen für die folgenden Dateieingaben:
Bilder | Video | Audio | Dokumente (z. B. PDFs).
Optionen zum Bereitstellen von Dateien in multimodalen Anfragen
|
Wählen Sie Ihren Gemini API-Anbieter aus, um anbieterspezifische Inhalte auf dieser Seite zu sehen |
In jeder multimodalen Anfrage müssen Sie immer Folgendes angeben:
Den
mimeTypeder Datei Die unterstützten MIME-Typen für jede Eingabedatei finden Sie im entsprechenden Abschnitt auf dieser Seite.Die Datei Sie können die Datei entweder als Inline-Daten bereitstellen oder die Datei über ihre URL bereitstellen.
Die Größe und Anzahl der Dateien, die Sie in der Anfrage angeben können, hängt vom Typ der Eingabedatei, der Art der Bereitstellung und dem verwendeten Modell ab. Weitere Informationen finden Sie im Abschnitt für den jeweiligen Eingabedateityp auf dieser Seite.
Option 1: Datei als Inline-Daten bereitstellen
Beachten Sie bei Dateien, die als Inline-Daten bereitgestellt werden, Folgendes:
Es können nur kleine Dateien als Inline-Daten gesendet werden, da das Limit für die Gesamtgröße der Anfrage 20 MB beträgt.
Die Datei wird während der Übertragung in Base64 codiert, wodurch die Dateigröße zunimmt.
Ein Beispiel für das Einbinden einer Datei als Inline-Daten finden Sie unter Text aus Text- und Dateieingabe (multimodal) generieren. Die SDKs für Android- und Apple-Plattformen können Inline-Bilder in Anfragen verarbeiten, ohne dass der MIME-Typ angegeben werden muss. Weitere Informationen
Option 2: Datei über eine URL bereitstellen
Hier sind die zulässigen URL-Typen bei Verwendung der Gemini Developer API:
YouTube-Video-URL: Das YouTube-Video muss öffentlich oder nicht gelistet sein.
Sie können pro Anfrage eine YouTube-Video-URL angeben.
Bilder: Anforderungen, Best Practices und Einschränkungen
Bilder: Anforderungen
In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Bilder.
Unterstützte MIME-Typen
Gemini Modelle für multimodale Anfragen unterstützen die folgenden Bild-MIME-Typen:
- PNG –
image/png - JPEG –
image/jpeg - WebP –
image/webp
Limits pro Anfrage
Es gibt kein spezifisches Limit für die Anzahl der Pixel in einem Bild. Größere Bilder werden jedoch herunterskaliert und auf eine maximale Auflösung von 3072 × 3072 aufgefüllt, wobei ihr ursprüngliches Seitenverhältnis beibehalten wird.
Maximale Anzahl von Dateien pro Anfrage: 3.000 Bilddateien
Bilder: Tokenisierung
So werden Tokens für Bilder berechnet:
- Wenn beide Dimensionen eines Bildes kleiner oder gleich 384 Pixel sind, werden 258 Tokens verwendet.
- Wenn eine Dimension eines Bildes größer als 384 Pixel ist, wird das Bild in Kacheln unterteilt. Die Standardgröße jeder Kachel ist die kleinste Dimension (Breite oder Höhe) geteilt durch 1,5. Bei Bedarf wird jede Kachel so angepasst, dass sie nicht kleiner als 256 Pixel und nicht größer als 768 Pixel ist. Jede Kachel wird dann auf 768 × 768 Pixel skaliert und verwendet 258 Tokens.
Bilder: Best Practices
Beachten Sie bei der Verwendung von Bildern die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen:
- Wenn Sie Text in einem Bild erkennen möchten, verwenden Sie Prompts mit einem einzelnen Bild. So erzielen Sie bessere Ergebnisse als mit Prompts mit mehreren Bildern.
- Wenn Ihr Prompt ein einzelnes Bild enthält, platzieren Sie das Bild in Ihrer Anfrage vor dem Text Prompt.
- Wenn Ihr Prompt mehrere Bilder enthält und Sie später in Ihrem Prompt auf sie verweisen möchten oder das Modell in der Antwort auf sie verweisen soll, kann es hilfreich sein, jedem Bild vor dem Bild einen Index zu geben. Verwenden Sie
oderabc für Ihren Index. Im Folgenden finden Sie ein Beispiel für die Verwendung von indexierten Bildern in einem Prompt:image 1image 2image 3image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Verwenden Sie Bilder mit höherer Auflösung. Sie liefern bessere Ergebnisse.
- Fügen Sie einige Beispiele in den Prompt ein.
- Drehen Sie Bilder in die richtige Ausrichtung, bevor Sie sie dem Prompt hinzufügen.
- Vermeiden Sie unscharfe Bilder.
Bilder: Einschränkungen
Gemini multimodale Modelle sind in vielen multimodalen Anwendungs fällen leistungsstark. Es ist jedoch wichtig, die Einschränkungen der Modelle zu kennen:
- Inhaltsmoderation: Die Modelle geben keine Antworten auf Bilder, die gegen unsere Sicherheitsrichtlinien verstoßen.
- Räumliches Denken: Die Modelle können Text oder Objekte in Bildern nicht genau finden. Sie geben möglicherweise nur eine ungefähre Anzahl an Objekten zurück.
- Medizinische Verwendung: Die Modelle sind nicht geeignet, medizinische Bilder (z. B. Röntgenaufnahmen und CT-Scans) zu interpretieren oder medizinische Ratschläge zu geben.
- Personenerkennung: Die Modelle sind nicht dazu gedacht, Personen zu identifizieren, die keine Prominenten sind.
- Genauigkeit: Die Modelle können bei der Interpretation von Bildern mit niedriger Qualität, gedrehten Bildern oder Bildern mit extrem niedriger Auflösung halluzinieren oder Fehler machen. Die Modelle können auch bei der Interpretation von handgeschriebenem Text in Bilddokumenten halluzinieren.
Video: Anforderungen, Best Practices und Einschränkungen
Video: Anforderungen
In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Videos.
Unterstützte MIME-Typen
Gemini Modelle für multimodale Anfragen unterstützen die folgenden Video-MIME-Typen:
- FLV –
video/x-flv - MOV -
video/quicktime - MPEG -
video/mpeg - MPEGPS -
video/mpegps - MPG -
video/mpg - MP4 -
video/mp4 - WEBM -
video/webm - WMV -
video/wmv - 3GPP –
video/3gpp
Limits pro Anfrage
Maximale Anzahl von Dateien pro Anfrage: 10 Videodateien
Video: Tokenisierung
So werden Tokens für Videos berechnet:
-
Der Audiotrack wird mit Videoframes codiert. Der Audiotrack wird ebenfalls
in
1-Sekunden-Blöcke unterteilt, die jeweils 32 Tokens enthalten. Die Videoframe- und Audio-Tokens werden mit ihren Zeitstempeln verschachtelt. Die Zeitstempel werden als 5 Tokens dargestellt. -
Bei Videos, die mit einer Rate von
1 Frame pro Sekunde (fps) oder weniger gesampelt werden, werden die Zeitstempel für die erste Stunde des Videos als 5 Tokens pro Videoframe dargestellt. Die restlichen Zeitstempel werden als 7 Tokens pro Videoframe dargestellt. -
Bei Videos, die mit einer Rate von mehr als
1 Frame pro Sekunde (fps) gesampelt werden, werden die Zeitstempel für die erste Stunde des Videos als 9 Tokens pro Videoframe dargestellt. Die restlichen Zeitstempel werden als 11 Tokens pro Videoframe dargestellt.
Video: Best Practices
Beachten Sie bei der Verwendung von Videos die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen:
- Wenn Ihr Prompt ein einzelnes Video enthält, platzieren Sie das Video vor dem Text Prompt.
- Wenn Sie eine Zeitstempellokalisierung in einem Video mit Audio benötigen, fordern Sie das Modell auf, Zeitstempel im Format zu generieren, das unter "Zeitstempel format" beschrieben ist.
Video: Einschränkungen
Gemini multimodale Modelle sind in vielen multimodalen Anwendungs fällen leistungsstark. Es ist jedoch wichtig, die Einschränkungen der Modelle zu kennen:
- Inhaltsmoderation: Die Modelle geben keine Antworten auf Videos, die gegen unsere Sicherheitsrichtlinien verstoßen.
- Nichtsprachliche Geräuscherkennung: Die Modelle, die Audio unterstützen, können dazu führen, dass Töne, die keine Sprache sind, falsch erkannt werden.
Audio: Anforderungen und Einschränkungen
Audio: Anforderungen
In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Audio.
Unterstützte MIME-Typen
Gemini Modelle für multimodale Anfragen unterstützen die folgenden Audio-MIME-Typen:
- AAC –
audio/aac - FLAC -
audio/flac - MP3 -
audio/mp3 - MPA -
audio/m4a - MPEG -
audio/mpeg - MPGA -
audio/mpga - MP4 -
audio/mp4 - OPUS -
audio/opus - PCM -
audio/pcm - WAV -
audio/wav - WEBM –
audio/webm
Limits pro Anfrage
Maximale Anzahl von Dateien pro Anfrage: 1 Audiodatei
Audio: Einschränkungen
Gemini multimodale Modelle sind in vielen multimodalen Anwendungs fällen leistungsstark. Es ist jedoch wichtig, die Einschränkungen der Modelle zu kennen:
- Nichtsprachliche Geräuscherkennung: Die Modelle, die Audio unterstützen, können dazu führen, dass Töne, die keine Sprache sind, falsch erkannt werden.
- Zeitstempel nur für Audio: Wenn Sie genaue Zeitstempel für reine Audiodateien generieren möchten, müssen Sie den
audio_timestampParameter ingeneration_configkonfigurieren.
Dokumente (z. B. PDFs): Anforderungen, Best Practices und Einschränkungen
Dokumente: Anforderungen
In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Dokumente (z. B. PDFs).
Unterstützte MIME-Typen
Gemini Modelle für multimodale Anfragen unterstützen die folgenden Dokument-MIME-Typen:
- PDF –
application/pdf - Text –
text/plain
Limits pro Anfrage
PDFs werden als Bilder behandelt, sodass eine einzelne Seite einer PDF-Datei als ein einzelnes Bild behandelt wird. Die Anzahl der Seiten, die in einem Prompt zulässig sind, ist auf die Anzahl der Bilder beschränkt, die von den Gemini Modellen für multimodale Anfragen unterstützt werden.
- Maximale Anzahl von Dateien pro Anfrage: 3.000 Dateien
- Maximale Anzahl von Seiten pro Datei: 1.000 Seiten pro Datei
- Maximale Größe pro Datei: 50 MB pro Datei
Dokumente: Tokenisierung
PDF-Tokenisierung
PDFs werden als Bilder behandelt, sodass jede Seite einer PDF-Datei auf die gleiche Weise wie ein Bild tokenisiert wird.
Außerdem richten sich die Kosten für PDFs nach Gemini Bildpreisgestaltung. Wenn Sie beispielsweise eine zweiseitige PDF-Datei in einen Gemini API-Aufruf einfügen, fallen Ihnen Eingabegebühren für die Verarbeitung von zwei Bildern an.
Dokumente: Best Practices
Beachten Sie bei der Verwendung von PDFs die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen:
- Wenn Ihr Prompt eine einzelne PDF-Datei enthält, platzieren Sie die PDF-Datei in Ihrer Anfrage vor dem Text-Prompt.
- Wenn Sie ein langes Dokument haben, sollten Sie es in mehrere PDFs aufteilen, um es zu verarbeiten.
- Verwenden Sie PDFs, die mit Text entwickelt wurden, der als Text statt als Bilder gerendert wird. Dieses Format sorgt dafür, dass Text maschinenlesbar ist, damit das Modell im Vergleich zu gescannten Bild-PDFs einfacher bearbeiten, suchen und ändern kann. Dies liefert optimale Ergebnisse bei der Arbeit mit textintensiven Dokumenten wie Verträgen.
Dokumente: Einschränkungen
Gemini multimodale Modelle sind in vielen multimodalen Anwendungs fällen leistungsstark. Es ist jedoch wichtig, die Einschränkungen der Modelle zu kennen:
- Räumliches Denken: Die Modelle können Text oder Objekte in PDFs nicht genau finden. Sie geben möglicherweise nur eine ungefähre Anzahl an Objekten zurück.
- Genauigkeit: Die Modelle können bei der Interpretation von handgeschriebenem Text in PDF-Dokumenten halluzinieren.