Mit der Gemini API Text aus multimodalen Prompts generieren


Wenn Sie die Gemini API über ein Vertex AI in Firebase SDK von Ihrer App aus aufrufen, können Sie das Gemini-Modell auffordern, Text basierend auf einer multimodalen Eingabe zu generieren. Multimodale Prompts können mehrere Modalitäten (oder Eingabetypen) umfassen, z. B. Text zusammen mit Bildern, PDFs, Textdateien, Video und Audio.

In jeder multimodalen Anfrage müssen Sie immer Folgendes angeben:

Zum Testen und Iterieren multimodaler Prompts empfehlen wir die Verwendung von Vertex AI Studio.

Hinweis

Lesen Sie den Startleitfaden, in dem beschrieben wird, wie Sie Ihr Firebase-Projekt einrichten, Ihre App mit Firebase verbinden, das SDK hinzufügen und den Vertex AI-Dienst und eine GenerativeModel-Instanz initialisieren.

Text aus Text und einem einzelnen Bild generieren Text aus Text und mehreren Bildern generieren Text aus Text und einem Video generieren

Beispielmediendateien

Wenn Sie noch keine Mediadateien haben, können Sie die folgenden öffentlich zugänglichen Dateien verwenden. Da diese Dateien in Bucket gespeichert sind, die nicht zu Ihrem Firebase-Projekt gehören, müssen Sie das Format https://storage.googleapis.com/BUCKET_NAME/PATH/TO/FILE für die URL verwenden.

Text aus Text und einem einzelnen Bild generieren

Lesen Sie den Abschnitt Vorbereitung in dieser Anleitung, bevor Sie dieses Beispiel ausprobieren.

Sie können Gemini API mit multimodalen Prompts aufrufen, die sowohl Text als auch eine einzelne Datei enthalten, z. B. ein Bild (wie in diesem Beispiel). Für diese Aufrufe müssen Sie ein Modell verwenden, das Medien in Prompts unterstützt (z. B. Gemini 2.0 Flash).

Lesen Sie sich die Anforderungen und Empfehlungen für Eingabedateien durch.

Wählen Sie aus, ob Sie die Antwort streamen (generateContentStream) oder bis zur vollständigen Generierung des Ergebnisses warten möchten (generateContent).

Streaming

Sie können schnellere Interaktionen erzielen, wenn Sie nicht auf das vollständige Ergebnis der Modellgenerierung warten, sondern stattdessen Streaming zum Verarbeiten von Teilergebnissen verwenden.

Ohne Streaming

Alternativ können Sie auf das vollständige Ergebnis warten, anstatt es zu streamen. Das Ergebnis wird erst zurückgegeben, wenn das Modell den gesamten Generierungsprozess abgeschlossen hat.

Hier erfahren Sie, wie Sie ein Modell und optional einen Standort für Ihren Anwendungsfall und Ihre App auswählen.

Text aus Text und mehreren Bildern generieren

Lesen Sie den Abschnitt Vorbereitung in dieser Anleitung, bevor Sie dieses Beispiel ausprobieren.

Sie können Gemini API mit multimodalen Prompts aufrufen, die sowohl Text als auch mehrere Dateien (z. B. Bilder, wie in diesem Beispiel) enthalten. Für diese Aufrufe müssen Sie ein Modell verwenden, das Medien in Prompts unterstützt (z. B. Gemini 2.0 Flash).

Lesen Sie sich die Anforderungen und Empfehlungen für Eingabedateien durch.

Wählen Sie aus, ob Sie die Antwort streamen (generateContentStream) oder bis zur vollständigen Generierung des Ergebnisses warten möchten (generateContent).

Streaming

Sie können schnellere Interaktionen erzielen, wenn Sie nicht auf das vollständige Ergebnis der Modellgenerierung warten, sondern stattdessen Streaming zum Verarbeiten von Teilergebnissen verwenden.

Ohne Streaming

Alternativ können Sie auch auf das vollständige Ergebnis warten, anstatt es zu streamen. Das Ergebnis wird erst zurückgegeben, wenn das Modell den gesamten Generierungsprozess abgeschlossen hat.

Hier erfahren Sie, wie Sie ein Modell und optional einen Standort für Ihren Anwendungsfall und Ihre App auswählen.

Text aus Text und einem Video generieren

Lesen Sie den Abschnitt Vorbereitung in dieser Anleitung, bevor Sie dieses Beispiel ausprobieren.

Sie können Gemini API mit multimodalen Prompts aufrufen, die sowohl Text als auch Videodateien enthalten (wie in diesem Beispiel gezeigt). Für diese Aufrufe müssen Sie ein Modell verwenden, das Medien in Prompts unterstützt (z. B. Gemini 2.0 Flash).

Lesen Sie sich die Anforderungen und Empfehlungen für Eingabedateien durch.

Wählen Sie aus, ob Sie die Antwort streamen (generateContentStream) oder bis zur vollständigen Generierung des Ergebnisses warten möchten (generateContent).

Streaming

Sie können schnellere Interaktionen erzielen, wenn Sie nicht auf das vollständige Ergebnis der Modellgenerierung warten, sondern stattdessen Streaming zum Verarbeiten von Teilergebnissen verwenden.

Ohne Streaming

Alternativ können Sie auf das vollständige Ergebnis warten, anstatt es zu streamen. Das Ergebnis wird erst zurückgegeben, wenn das Modell den gesamten Generierungsprozess abgeschlossen hat.

Hier erfahren Sie, wie Sie ein Modell und optional einen Standort für Ihren Anwendungsfall und Ihre App auswählen.

Anforderungen und Empfehlungen für Eingabedateien

Unter Unterstützte Eingabedateien und Anforderungen für die Vertex AI Gemini API finden Sie Informationen zu folgenden Themen:

  • Verschiedene Optionen zum Einreichen einer Datei in einer Anfrage
  • Unterstützte Dateitypen
  • Unterstützte MIME-Typen und deren Angabe
  • Anforderungen und Best Practices für Dateien und multimodale Anfragen

Was können Sie sonst noch tun?

Andere Funktionen ausprobieren

Inhaltserstellung steuern

Mit Vertex AI Studio können Sie auch mit Prompts und Modellkonfigurationen experimentieren.

Weitere Informationen zu den unterstützten Modellen

Hier finden Sie Informationen zu den Modellen, die für verschiedene Anwendungsfälle verfügbar sind, sowie zu ihren Kontingenten und Preisen.


Feedback zu Vertex AI in Firebase geben