The latest Gemini models, like Gemini 3.1 Flash Image (Nano Banana 2), are available to use with Firebase AI Logic! Learn more.

Gemini 2.0 Flash and Flash-Lite models will shut down on June 1, 2026. To avoid service disruption, update to a newer model like gemini-3.1-flash-lite. Learn more.

All Imagen models will shut down on June 24, 2026. Learn about migrating your apps to use Nano Banana.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Audiodateien mit der Gemini API analysieren

Sie können ein Gemini-Modell bitten, von Ihnen bereitgestellte Audiodateien zu analysieren. Die Dateien können entweder inline (base64-codiert) oder über eine URL bereitgestellt werden. Wenn Sie Firebase AI Logic verwenden, können Sie diese Anfrage direkt über Ihre App stellen.

Mit dieser Funktion haben Sie beispielsweise folgende Möglichkeiten:

Audioinhalte beschreiben, zusammenfassen oder Fragen dazu beantworten
Audioinhalte transkribieren
Bestimmte Audioabschnitte mithilfe von Zeitstempeln analysieren

Zu Codebeispielen springen Zu Code für gestreamte Antworten springen

Weitere Anleitungen für zusätzliche Optionen für die Arbeit mit Audio
Strukturierte Ausgabe generieren Chat mit mehreren Durchgängen Bidirektionales Streaming

Hinweis

Klicken Sie auf Ihren Gemini API-Anbieter, um anbieterspezifische Inhalte und Code auf dieser Seite aufzurufen.

Falls noch nicht geschehen, folgen Sie dem Startleitfaden. Darin wird beschrieben, wie Sie Ihr Firebase-Projekt einrichten, Ihre App mit Firebase verbinden, das SDK hinzufügen, den Backend-Dienst für den ausgewählten Gemini API-Anbieter initialisieren und eine GenerativeModel-Instanz erstellen.

Zum Testen und Iterieren von Prompts empfehlen wir die Verwendung von Google AI Studio.

Benötigen Sie eine Beispiel-Audiodatei?

Sie können diese öffentlich verfügbare Datei mit dem MIME-Typ audio/mp3 verwenden (Datei ansehen oder herunterladen). https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3

Text aus Audiodateien (base64-codiert) generieren

Bevor Sie dieses Beispiel ausprobieren, müssen Sie den Abschnitt Vorbereitung in dieser Anleitung durcharbeiten, um Ihr Projekt und Ihre App einzurichten.
In diesem Abschnitt klicken Sie auch auf eine Schaltfläche für den von Ihnen ausgewählten Gemini API-Anbieter, damit auf dieser Seite anbieterspezifische Inhalte angezeigt werden.

Sie können ein Gemini-Modell bitten, Text zu generieren, indem Sie einen Prompt mit Text und Audio erstellen. Dazu geben Sie den mimeType der Eingabedatei und die Datei selbst an. Anforderungen und Empfehlungen für Eingabedateien finden Sie weiter unten auf dieser Seite.