Firebase AI Logic supports Gemini 3 Pro and Gemini 3 Pro Image (nano banana pro) for use on all platforms (in preview).

Diese Seite wurde von der Cloud Translation API übersetzt.

Konfigurationsoptionen für die Live API

Auch mit der einfachen Implementierung für die Live API können Sie ansprechende und leistungsstarke Interaktionen für Ihre Nutzer erstellen. Sie können die Funktion optional noch weiter anpassen, indem Sie die folgenden Konfigurationsoptionen verwenden:

Stimme und Sprache für Antworten
Transkriptionen für Audioeingabe und -ausgabe
Erkennung von Sprachaktivität (Voice Activity Detection, VAD)
Sitzungsverwaltung

Stimme und Sprache für Antworten

Sie können das Modell in einer bestimmten Stimme antworten lassen und es dazu bringen, in verschiedenen Sprachen zu antworten.

Stimme für die Antwort angeben

Klicken Sie auf Ihren Gemini API-Anbieter, um anbieterspezifische Inhalte und Code auf dieser Seite aufzurufen.

Live API verwendet Chirp 3, um synthetisierte Sprachantworten in HD-Stimmen zu unterstützen.

Wenn Sie keine Antwortstimme angeben, wird standardmäßig Puck verwendet.

Liste der Antwortstimmen ansehen

Hier finden Sie Demos der einzelnen Stimmen.

Zephyr – Hell
Kore – Fest
Orus – Fest
Autonoe – Hell
Umbriel – Gelassen
Erinome – Klar
Laomedeia – Fröhlich
Schedar – Gleichmäßig
Achird – Freundlich
Sadachbia – Lebhaft Puck – Fröhlich
Fenrir – Aufgeregt
Aoede – Leicht
Enceladus – Hauchig
Algieba – Sanft
Algenib – Rau
Achernar – Weich
Gacrux – Reif
Zubenelgenubi – Locker
Sadaltager – Wissend Charon – Informative
Leda – Jugendlich
Callirrhoe – Gelassen
Iapetus – Klar
Despina – Sanft
Rasalgethi – Informative
Alnilam – Entschlossen
Pulcherrima – Direkt
Vindemiatrix – Sanft
Sulafat – Warm

Wenn Sie eine Antwortstimme angeben möchten, legen Sie den Namen der Stimme im speechConfig-Objekt als Teil der Modellkonfiguration fest.

Swift


// ...

let liveModel = FirebaseAI.firebaseAI(backend: .googleAI()).liveModel(
  modelName: "gemini-2.5-flash-native-audio-preview-09-2025",
  // Configure the model to use a specific voice for its audio response
  generationConfig: LiveGenerationConfig(
    responseModalities: [.audio],
    speech: SpeechConfig(voiceName: "VOICE_NAME")
  )
)

// ...

Kotlin


// ...

val model = Firebase.ai(backend = GenerativeBackend.googleAI()).liveModel(
    modelName = "gemini-2.5-flash-native-audio-preview-09-2025",
    // Configure the model to use a specific voice for its audio response
    generationConfig = liveGenerationConfig {
        responseModality = ResponseModality.AUDIO
        speechConfig = SpeechConfig(voice = Voice("VOICE_NAME"))
    }
)

// ...

Java


// ...

LiveGenerativeModel lm = FirebaseAI.getInstance(GenerativeBackend.googleAI()).liveModel(
    "gemini-2.5-flash-native-audio-preview-09-2025",
    // Configure the model to use a specific voice for its audio response
    new LiveGenerationConfig.Builder()
        .setResponseModality(ResponseModality.AUDIO)
        .setSpeechConfig(new SpeechConfig(new Voice("VOICE_NAME")))
        .build()
);

// ...

Web


// ...

const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });

const liveModel = getLiveGenerativeModel(ai, {
  model: "gemini-2.5-flash-native-audio-preview-09-2025",
  // Configure the model to use a specific voice for its audio response
  generationConfig: {
    responseModalities: [ResponseModality.AUDIO],
    speechConfig: {
      voiceConfig: {
        prebuiltVoiceConfig: { voiceName: "VOICE_NAME" },
      },
    },
  },
});

// ...

Dart


// ...

final _liveModel = FirebaseAI.googleAI().liveGenerativeModel(
  model: 'gemini-2.5-flash-native-audio-preview-09-2025',
  // Configure the model to use a specific voice for its audio response
  liveGenerationConfig: LiveGenerationConfig(
    responseModalities: [ResponseModalities.audio],
    speechConfig: SpeechConfig(voiceName: 'VOICE_NAME'),
  ),
);

// ...

Einheit


// ...

var liveModel = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI()).GetLiveModel(
    modelName: "gemini-2.5-flash-native-audio-preview-09-2025",
    // Configure the model to use a specific voice for its audio response
    liveGenerationConfig: new LiveGenerationConfig(
        responseModalities: new[] { ResponseModality.Audio },
        speechConfig: SpeechConfig.UsePrebuiltVoice("VOICE_NAME")
    )
);

// ...

Sprache der Antwort beeinflussen

Die Live API-Modelle wählen automatisch die passende Sprache für ihre Antworten aus.

Liste der unterstützten Sprachen ansehen

Sprache	BCP-47-Code	Sprache	BCP-47-Code
Arabisch (Ägypten)	ar-EG	Deutsch (Deutschland)	de-DE
Englisch (USA)	en-US	Spanisch (USA)	es-US
Französisch (Frankreich)	fr-FR	Hindi (Indien)	hi-IN
Indonesisch (Indonesien)	id-ID	Italienisch (Italien)	it-IT
Japanisch (Japan)	ja-JP	Koreanisch (Korea)	ko-KR
Portugiesisch (Brasilien)	pt-BR	Russisch (Russland)	ru-RU
Niederländisch (Niederlande)	nl-NL	Polnisch (Polen)	pl-PL
Thailändisch (Thailand)	th-TH	Türkisch (Türkei)	tr-TR
Vietnamesisch (Vietnam)	vi-VN	Rumänisch (Rumänien)	ro-RO
Ukrainisch (Ukraine)	uk-UA	Bengalisch (Bangladesch)	bn-BD
Englisch (Indien)	en-IN- und hi-IN-Set	Marathi (Indien)	mr-IN
Tamil (Indien)	ta-IN	Telugu (Indien)	te-IN

Wenn das Modell in einer anderen Sprache als Englisch oder immer in einer bestimmten Sprache antworten soll, können Sie die Antworten des Modells mit Systemanweisungen wie in den folgenden Beispielen beeinflussen:

Dem Modell mitteilen, dass eine nicht englische Sprache angemessen sein kann

Listen to the speaker carefully. If you detect a non-English language, respond
in the language you hear from the speaker. You must respond unmistakably in the
speaker's language.

Modell anweisen, immer in einer bestimmten Sprache zu antworten

RESPOND IN LANGUAGE. YOU MUST RESPOND UNMISTAKABLY IN LANGUAGE.

Transkriptionen für Audioeingabe und ‑ausgabe

Klicken Sie auf Ihren Gemini API-Anbieter, um anbieterspezifische Inhalte und Code auf dieser Seite aufzurufen.

Als Teil der Antwort des Modells können Sie Transkriptionen der Audioeingabe und der Audioantwort des Modells erhalten. Sie legen diese Konfiguration im Rahmen der Modellkonfiguration fest.

Fügen Sie für die Transkription der Audioeingabe inputAudioTranscription hinzu.
Wenn Sie die Audioantwort des Modells transkribieren lassen möchten, fügen Sie outputAudioTranscription hinzu.

Wichtige Hinweise:

Sie können das Modell so konfigurieren, dass Transkriptionen von Ein- und Ausgabe zurückgegeben werden (wie im folgenden Beispiel gezeigt), oder nur von einer der beiden.
Die Transkripte werden zusammen mit dem Audio gestreamt. Daher ist es am besten, sie wie Textteile mit jedem Zug zu erfassen.
Die Transkriptionssprache wird aus der Audioeingabe und der Audioantwort des Modells abgeleitet.

Swift


// ...

let liveModel = FirebaseAI.firebaseAI(backend: .googleAI()).liveModel(
  modelName: "gemini-2.5-flash-native-audio-preview-09-2025",
  // Configure the model to return transcriptions of the audio input and output
  generationConfig: LiveGenerationConfig(
    responseModalities: [.audio],
    inputAudioTranscription: AudioTranscriptionConfig(),
    outputAudioTranscription: AudioTranscriptionConfig()
  )
)

var inputTranscript: String = ""
var outputTranscript: String = ""

do {
  let session = try await liveModel.connect()
  for try await response in session.responses {
    if case let .content(content) = response.payload {
      if let inputText = content.inputAudioTranscription?.text {
        // Handle transcription text of the audio input
        inputTranscript += inputText
      }

      if let outputText = content.outputAudioTranscription?.text {
        // Handle transcription text of the audio output
        outputTranscript += outputText
      }

      if content.isTurnComplete {
        // Log the transcripts after the current turn is complete
        print("Input audio: \(inputTranscript)")
        print("Output audio: \(outputTranscript)")

        // Reset the transcripts for the next turn
        inputTranscript = ""
        outputTranscript = ""
      }
    }
  }


} catch {
  // Handle error
}

// ...

Kotlin


// ...

val liveModel = Firebase.ai(backend = GenerativeBackend.googleAI()).liveModel(
    modelName = "gemini-2.5-flash-native-audio-preview-09-2025",
    // Configure the model to return transcriptions of the audio input and output
    generationConfig = liveGenerationConfig {
        responseModality = ResponseModality.AUDIO
        inputAudioTranscription = AudioTranscriptionConfig()
        outputAudioTranscription = AudioTranscriptionConfig()
   }
)

val liveSession = liveModel.connect()

fun handleTranscription(input: Transcription?, output: Transcription?) {
    input?.text?.let { text ->
        // Handle transcription text of the audio input
        println("Input Transcription: $text")
    }
    output?.text?.let { text ->
        // Handle transcription text of the audio output
        println("Output Transcription: $text")
    }
}

liveSession.startAudioConversation(null, ::handleTranscription)

// ...

Java


// ...

ExecutorService executor = Executors.newFixedThreadPool(1);

LiveGenerativeModel lm = FirebaseAI.getInstance(GenerativeBackend.googleAI()).liveModel(
    "gemini-2.5-flash-native-audio-preview-09-2025",
    // Configure the model to return transcriptions of the audio input and output
    new LiveGenerationConfig.Builder()
            .setResponseModality(ResponseModality.AUDIO)
            .setInputAudioTranscription(new AudioTranscriptionConfig())
            .setOutputAudioTranscription(new AudioTranscriptionConfig())
            .build()
    );

LiveModelFutures liveModel = LiveModelFutures.from(lm);
ListenableFuture sessionFuture = liveModel.connect();

Futures.addCallback(sessionFuture, new FutureCallback() {
    @Override
    public void onSuccess(LiveSessionFutures ses) {
        LiveSessionFutures session = ses;
        session.startAudioConversation((Transcription input, Transcription output) -> {
            if (input != null) {
                // Handle transcription text of the audio input
                System.out.println("Input Transcription: " + input.getText());
            }
            if (output != null) {
                // Handle transcription text of the audio output
                System.out.println("Output Transcription: " + output.getText());
            }
            return null;
        });
    }

    @Override
    public void onFailure(Throwable t) {
        // Handle exceptions
        t.printStackTrace();
    }
}, executor);

// ...

Web


// ...

const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });

const liveModel = getLiveGenerativeModel(ai, {
  model: 'gemini-2.5-flash-native-audio-preview-09-2025',
  // Configure the model to return transcriptions of the audio input and output
  generationConfig: {
    responseModalities: [ResponseModality.AUDIO],
    inputAudioTranscription: {},
    outputAudioTranscription: {},
  },
});

const liveSession = await liveModel.connect();

liveSession.sendAudioRealtime({ data, mimeType: "audio/pcm" });

const messages = liveSession.receive();
for await (const message of messages) {
  switch (message.type) {
    case 'serverContent':
      if (message.inputTranscription) {
        // Handle transcription text of the audio input
        console.log(`Input transcription: ${message.inputTranscription.text}`);
      }
      if (message.outputTranscription) {
        // Handle transcription text of the audio output
        console.log(`Output transcription: ${message.outputTranscription.text}`);
      } else {
      	 // Handle other message types (modelTurn, turnComplete, interruption)
      }
    default:
      // Handle other message types (toolCall, toolCallCancellation)
  }
}

// ...

Dart


// ...

final _liveModel = FirebaseAI.googleAI().liveGenerativeModel(
  model: 'gemini-2.5-flash-native-audio-preview-09-2025',
  // Configure the model to return transcriptions of the audio input and output
  liveGenerationConfig: LiveGenerationConfig(
    responseModalities: [ResponseModalities.audio],
    inputAudioTranscription: AudioTranscriptionConfig(),
    outputAudioTranscription: AudioTranscriptionConfig(),
  ),
);

final LiveSession _session = _liveModel.connect();

await for (final response in _session.receive()) {
  LiveServerContent message = response.message;
  if (message.inputTranscription?.text case final inputText?) {
    // Handle transcription text of the audio input
    print('Input: $inputText');
  }

  if (message.outputTranscription?.text case final outputText?) {
    // Handle transcription text of the audio output
    print('Output: $outputText');
  }
}

// ...

Einheit


// ...

var liveModel = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI()).GetLiveModel(
    modelName: "gemini-2.5-flash-native-audio-preview-09-2025",
    // Configure the model to return transcriptions of the audio input and output
    liveGenerationConfig: new LiveGenerationConfig(
        responseModalities: new[] { ResponseModality.Audio },
        inputAudioTranscription: new AudioTranscriptionConfig(),
        outputAudioTranscription: new AudioTranscriptionConfig()
    )
);

try
{
    var session = await liveModel.ConnectAsync();
    var stream = session.ReceiveAsync();
    await foreach (var response in stream) {
        if (response.Message is LiveSessionContent sessionContent) {
            if (!string.IsNullOrEmpty(sessionContent.InputTranscription?.Text)) {
              // handle transcription text of input audio
            }

            if (!string.IsNullOrEmpty(sessionContent.OutputTranscription?.Text)) {
              // handle transcription text of output audio
            }
        }
    }
}
catch (Exception e)
{
    // Handle error
}

// ...

Erkennung von Sprachaktivitäten (Voice Activity Detection, VAD)

Das Modell führt automatisch eine VAD (Voice Activity Detection, Spracherkennung) für einen kontinuierlichen Audioeingabestream durch. VAD ist standardmäßig aktiviert.

Sitzungsverwaltung

Weitere Informationen zu sitzungsbezogenen Themen:
- Erweiterte Funktionen, darunter:
  - Systemanweisungen während einer Sitzung aktualisieren
  - Inkrementelle Inhaltsaktualisierungen hinzufügen
- Sitzungsbezogene Einschränkungen, einschließlich Einschränkungen für Verbindungen und Sitzungsdauer, Einschränkungen für das Sitzungskontextfenster und Ratenbeschränkungen.
Firebase AI Logic unterstützt die folgenden Funktionen für die Sitzungsverwaltung noch nicht. Schauen Sie später noch einmal vorbei!
- Umgang mit Unterbrechungen
- Sitzungslänge verlängern
- Sitzung fortsetzen
- Kontext über Sitzungen und Anfragen hinweg beibehalten
- Kontextfenster komprimieren

Konfigurationsoptionen für die Live API Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Stimme und Sprache für Antworten

Stimme für die Antwort angeben

Swift

Kotlin

Java

Web

Dart

Einheit

Sprache der Antwort beeinflussen

Transkriptionen für Audioeingabe und ‑ausgabe

Swift

Kotlin

Java

Web

Dart

Einheit

Erkennung von Sprachaktivitäten (Voice Activity Detection, VAD)

Sitzungsverwaltung

Konfigurationsoptionen für die Live API