The latest Gemini models, like Gemini 3.6 Flash, are available to use with Firebase AI Logic! Learn more.

All Imagen models will shut down as early as June 30, 2026. Learn about migrating your apps to use Nano Banana.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Options de configuration de l'API Live

Même avec l'implémentation de base de l'Live API, vous pouvez créer des interactions attrayantes et puissantes pour vos utilisateurs. Vous pouvez également personnaliser davantage l'expérience à l'aide des options de configuration suivantes :

Langue et voix de la réponse
Transcriptions pour l'entrée et la sortie audio
Détection de l'activité vocale (VAD)
Gestion de la session

Langue et voix de la réponse

Vous pouvez faire en sorte que le modèle réponde avec une voix spécifique et influencer le modèle pour qu'il réponde dans différentes langues.

Spécifier une voix de réponse

Cliquez sur votre fournisseur Gemini API pour afficher le contenu spécifique au fournisseur et le code sur cette page.

Le Live API utilise Chirp 3 pour prendre en charge les réponses vocales synthétisées dans des voix HD.

Si vous ne spécifiez pas de voix de réponse, la valeur par défaut est Puck.

Afficher la liste des options de voix de réponse

Pour obtenir des démos de chaque voix, consultez Chirp 3 : voix HD.

Zephyr : Lumineuse
Kore : Ferme
Orus : Ferme
Autonoe : Lumineuse
Umbriel : Décontractée
Erinome : Clair
Laomedeia : Entraînante
Schedar : Égale
Achird : Amicale
Sadachbia : Animée Puck : Entraînante
Fenrir : Excitée
Aoede : Légère
Enceladus : Voix soufflée
Algieba : Douce
Algenib : Graveleuse
Achernar : Douce
Gacrux : Mature
Zubenelgenubi : Décontractée
Sadaltager : Informée Charon : Informative
Leda : Jeune
Callirrhoe : Décontractée
Iapetus : Clair
Despina : Douce
Rasalgethi : Informative
Alnilam : Ferme
Pulcherrima : Directe
Vindemiatrix : Douce
Sulafat : Chaleureuse

Pour spécifier une voix de réponse, définissez le nom de la voix dans l'objet speechConfig lors de la configuration du modèle.

Swift


// ...

let liveModel = FirebaseAI.firebaseAI(backend: .googleAI()).liveModel(
  modelName: "gemini-2.5-flash-native-audio-preview-12-2025",
  // Configure the model to use a specific voice for its audio response
  generationConfig: LiveGenerationConfig(
    responseModalities: [.audio],
    speech: SpeechConfig(voiceName: "VOICE_NAME")
  )
)

// ...

Kotlin


// ...

val model = Firebase.ai(backend = GenerativeBackend.googleAI()).liveModel(
    modelName = "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to use a specific voice for its audio response
    generationConfig = liveGenerationConfig {
        responseModality = ResponseModality.AUDIO
        speechConfig = SpeechConfig(voice = Voice("VOICE_NAME"))
    }
)

// ...

Java


// ...

LiveGenerativeModel lm = FirebaseAI.getInstance(GenerativeBackend.googleAI()).liveModel(
    "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to use a specific voice for its audio response
    new LiveGenerationConfig.Builder()
        .setResponseModality(ResponseModality.AUDIO)
        .setSpeechConfig(new SpeechConfig(new Voice("VOICE_NAME")))
        .build()
);

// ...

Web


// ...

const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });

const liveModel = getLiveGenerativeModel(ai, {
  model: "gemini-2.5-flash-native-audio-preview-12-2025",
  // Configure the model to use a specific voice for its audio response
  generationConfig: {
    responseModalities: [ResponseModality.AUDIO],
    speechConfig: {
      voiceConfig: {
        prebuiltVoiceConfig: { voiceName: "VOICE_NAME" },
      },
    },
  },
});

// ...

Dart


// ...

final _liveModel = FirebaseAI.googleAI().liveGenerativeModel(
  model: 'gemini-2.5-flash-native-audio-preview-12-2025',
  // Configure the model to use a specific voice for its audio response
  liveGenerationConfig: LiveGenerationConfig(
    responseModalities: [ResponseModalities.audio],
    speechConfig: SpeechConfig(voiceName: 'VOICE_NAME'),
  ),
);

// ...

Unity


// ...

var liveModel = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI()).GetLiveModel(
    modelName: "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to use a specific voice for its audio response
    liveGenerationConfig: new LiveGenerationConfig(
        responseModalities: new[] { ResponseModality.Audio },
        speechConfig: SpeechConfig.UsePrebuiltVoice("VOICE_NAME")
    )
);

// ...

Influencer la langue de la réponse

Les modèles Live API choisissent automatiquement la langue appropriée pour leurs réponses.

Afficher la liste des langues compatibles

Langue	Code BCP-47	Langue	Code BCP-47
Arabe (Égypte)	ar-EG	Allemand (Allemagne)	de-DE
Anglais (États-Unis)	en-US	Espagnol (États-Unis)	es-US
Français (France)	fr-FR	Hindi (Inde)	hi-IN
Indonésien (Indonésie)	id-ID	Italien (Italie)	it-IT
Japonais (Japon)	ja-JP	Coréen (Corée)	ko-KR
Portugais (Brésil)	pt-BR	Russe (Russie)	ru-RU
Néerlandais (Pays-Bas)	nl-NL	Polonais (Pologne)	pl-PL
Thaï (Thaïlande)	th-TH	Turc (Turquie)	tr-TR
Vietnamien (Viêt Nam)	vi-VN	Roumain (Roumanie)	ro-RO
Ukrainien (Ukraine)	uk-UA	Bengali (Bangladesh)	bn-BD
Anglais (Inde)	Groupe en-IN et hi-IN	Marathi (Inde)	mr-IN
Tamoul (Inde)	ta-IN	Télougou (Inde)	te-IN

Si vous souhaitez que le modèle réponde dans une langue autre que l'anglais ou toujours dans une langue spécifique, vous pouvez influencer ses réponses à l'aide d' instructions système comme celles-ci :

Indiquer au modèle qu'une langue autre que l'anglais peut être appropriée

Listen to the speaker carefully. If you detect a non-English language, respond
in the language you hear from the speaker. You must respond unmistakably in the
speaker's language.

Demander au modèle de toujours répondre dans une langue spécifique
```
RESPOND IN LANGUAGE. YOU MUST RESPOND UNMISTAKABLY IN LANGUAGE.
```

Transcriptions pour l'entrée et la sortie audio

Cliquez sur votre fournisseur Gemini API pour afficher le contenu spécifique au fournisseur et le code sur cette page.

Dans le cadre de la réponse du modèle, vous pouvez recevoir des transcriptions de l'entrée audio et de la réponse audio du modèle. Vous définissez cette configuration dans le cadre de la configuration du modèle.

Pour la transcription de l'entrée audio, ajoutez inputAudioTranscription.
Pour la transcription de la réponse audio du modèle, ajoutez outputAudioTranscription.

Veuillez noter les points suivants :

Vous pouvez configurer le modèle pour qu'il renvoie des transcriptions de l'entrée et de la sortie (comme illustré dans l'exemple suivant), ou vous pouvez le configurer pour qu'il n'en renvoie qu'une seule.
Les transcriptions sont diffusées en streaming avec l'audio. Il est donc préférable de les collecter comme vous le faites pour les parties de texte à chaque tour.
La langue de transcription est déduite de l'entrée audio et de la réponse audio du modèle.

Swift


// ...

let liveModel = FirebaseAI.firebaseAI(backend: .googleAI()).liveModel(
  modelName: "gemini-2.5-flash-native-audio-preview-12-2025",
  // Configure the model to return transcriptions of the audio input and output
  generationConfig: LiveGenerationConfig(
    responseModalities: [.audio],
    inputAudioTranscription: AudioTranscriptionConfig(),
    outputAudioTranscription: AudioTranscriptionConfig()
  )
)

var inputTranscript: String = ""
var outputTranscript: String = ""

do {
  let session = try await liveModel.connect()
  for try await response in session.responses {
    if case let .content(content) = response.payload {
      if let inputText = content.inputAudioTranscription?.text {
        // Handle transcription text of the audio input
        inputTranscript += inputText
      }

      if let outputText = content.outputAudioTranscription?.text {
        // Handle transcription text of the audio output
        outputTranscript += outputText
      }

      if content.isTurnComplete {
        // Log the transcripts after the current turn is complete
        print("Input audio: \(inputTranscript)")
        print("Output audio: \(outputTranscript)")

        // Reset the transcripts for the next turn
        inputTranscript = ""
        outputTranscript = ""
      }
    }
  }


} catch {
  // Handle error
}

// ...

Kotlin


// ...

val liveModel = Firebase.ai(backend = GenerativeBackend.googleAI()).liveModel(
    modelName = "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to return transcriptions of the audio input and output
    generationConfig = liveGenerationConfig {
        responseModality = ResponseModality.AUDIO
        inputAudioTranscription = AudioTranscriptionConfig()
        outputAudioTranscription = AudioTranscriptionConfig()
   }
)

val liveSession = liveModel.connect()

fun handleTranscription(input: Transcription?, output: Transcription?) {
    input?.text?.let { text ->
        // Handle transcription text of the audio input
        println("Input Transcription: $text")
    }
    output?.text?.let { text ->
        // Handle transcription text of the audio output
        println("Output Transcription: $text")
    }
}

liveSession.startAudioConversation(null, ::handleTranscription)

// ...

Java


// ...

ExecutorService executor = Executors.newFixedThreadPool(1);

LiveGenerativeModel lm = FirebaseAI.getInstance(GenerativeBackend.googleAI()).liveModel(
    "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to return transcriptions of the audio input and output
    new LiveGenerationConfig.Builder()
            .setResponseModality(ResponseModality.AUDIO)
            .setInputAudioTranscription(new AudioTranscriptionConfig())
            .setOutputAudioTranscription(new AudioTranscriptionConfig())
            .build()
    );

LiveModelFutures liveModel = LiveModelFutures.from(lm);
ListenableFuture sessionFuture = liveModel.connect();

Futures.addCallback(sessionFuture, new FutureCallback() {
    @Override
    public void onSuccess(LiveSessionFutures ses) {
        LiveSessionFutures session = ses;
        session.startAudioConversation((Transcription input, Transcription output) -> {
            if (input != null) {
                // Handle transcription text of the audio input
                System.out.println("Input Transcription: " + input.getText());
            }
            if (output != null) {
                // Handle transcription text of the audio output
                System.out.println("Output Transcription: " + output.getText());
            }
            return null;
        });
    }

    @Override
    public void onFailure(Throwable t) {
        // Handle exceptions
        t.printStackTrace();
    }
}, executor);

// ...

Web


// ...

const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });

const liveModel = getLiveGenerativeModel(ai, {
  model: 'gemini-2.5-flash-native-audio-preview-12-2025',
  // Configure the model to return transcriptions of the audio input and output
  generationConfig: {
    responseModalities: [ResponseModality.AUDIO],
    inputAudioTranscription: {},
    outputAudioTranscription: {},
  },
});

const liveSession = await liveModel.connect();

liveSession.sendAudioRealtime({ data, mimeType: "audio/pcm" });

const messages = liveSession.receive();
for await (const message of messages) {
  switch (message.type) {
    case 'serverContent':
      if (message.inputTranscription) {
        // Handle transcription text of the audio input
        console.log(`Input transcription: ${message.inputTranscription.text}`);
      }
      if (message.outputTranscription) {
        // Handle transcription text of the audio output
        console.log(`Output transcription: ${message.outputTranscription.text}`);
      } else {
      	 // Handle other message types (modelTurn, turnComplete, interruption)
      }
    default:
      // Handle other message types (toolCall, toolCallCancellation)
  }
}

// ...

Dart


// ...

final _liveModel = FirebaseAI.googleAI().liveGenerativeModel(
  model: 'gemini-2.5-flash-native-audio-preview-12-2025',
  // Configure the model to return transcriptions of the audio input and output
  liveGenerationConfig: LiveGenerationConfig(
    responseModalities: [ResponseModalities.audio],
    inputAudioTranscription: AudioTranscriptionConfig(),
    outputAudioTranscription: AudioTranscriptionConfig(),
  ),
);

final LiveSession _session = _liveModel.connect();

await for (final response in _session.receive()) {
  LiveServerContent message = response.message;
  if (message.inputTranscription?.text case final inputText?) {
    // Handle transcription text of the audio input
    print('Input: $inputText');
  }

  if (message.outputTranscription?.text case final outputText?) {
    // Handle transcription text of the audio output
    print('Output: $outputText');
  }
}

// ...

Unity


// ...

var liveModel = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI()).GetLiveModel(
    modelName: "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to return transcriptions of the audio input and output
    liveGenerationConfig: new LiveGenerationConfig(
        responseModalities: new[] { ResponseModality.Audio },
        inputAudioTranscription: new AudioTranscriptionConfig(),
        outputAudioTranscription: new AudioTranscriptionConfig()
    )
);

try
{
    var session = await liveModel.ConnectAsync();
    var stream = session.ReceiveAsync();
    await foreach (var response in stream) {
        if (response.Message is LiveSessionContent sessionContent) {
            if (!string.IsNullOrEmpty(sessionContent.InputTranscription?.Text)) {
              // handle transcription text of input audio
            }

            if (!string.IsNullOrEmpty(sessionContent.OutputTranscription?.Text)) {
              // handle transcription text of output audio
            }
        }
    }
}
catch (Exception e)
{
    // Handle error
}

// ...

Détection de l'activité vocale (VAD)

Le modèle détecte automatiquement l'activité vocale sur un flux d'entrée audio continu. La VAD est activée par défaut.

Gestion de la session

Découvrez les sujets suivants liés aux sessions :

Fonctionnalités avancées, y compris :
- Mise à jour des instructions système en cours de session
- Ajout de mises à jour de contenu incrémentales
Limites liées aux sessions, y compris les limites de connexion et de durée des sessions, les limites de la fenêtre de contexte des sessions et les limites de débit.
Options de gestion des limites de session, y compris :
- Compression de la fenêtre de contexte
- Reprise d'une session

Options de configuration de l'API Live Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Langue et voix de la réponse

Spécifier une voix de réponse

Swift

Kotlin

Java

Web

Dart

Unity

Influencer la langue de la réponse

Transcriptions pour l'entrée et la sortie audio

Swift

Kotlin

Java

Web

Dart

Unity

Détection de l'activité vocale (VAD)

Gestion de la session

Options de configuration de l'API Live