The latest Gemini models, like Gemini 3.6 Flash, are available to use with Firebase AI Logic! Learn more.

All Imagen models will shut down as early as June 30, 2026. Learn about migrating your apps to use Nano Banana.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Opzioni di configurazione per l'API Live

Anche con l'implementazione di base per Live API, puoi creare interazioni coinvolgenti e potenti per i tuoi utenti. Se vuoi, puoi personalizzare ulteriormente l'esperienza utilizzando le seguenti opzioni di configurazione:

Voce e lingua delle risposte
Trascrizioni per input e output audio
Rilevamento di attività vocale (VAD)
Gestione delle sessioni

Voce e lingua della risposta

Puoi fare in modo che il modello risponda con una voce specifica e influenzare il modello in modo che risponda in lingue diverse.

Specificare una voce di risposta

Fai clic sul tuo fornitore Gemini API per visualizzare i contenuti e il codice specifici del fornitore in questa pagina.

Live API utilizza Chirp 3 per supportare le risposte di sintesi vocale con voci in HD.

Se non specifichi una voce di risposta, il valore predefinito è Puck.

Visualizzare l'elenco delle opzioni di voce di risposta

Per le demo di ogni voce, consulta Chirp 3: voci in HD.

Zephyr — Brillante
Kore — Fermo
Orus — Fermo
Autonoe — Brillante
Umbriel — Tranquillo
Erinome — Chiaro
Laomedeia — Vivace
Schedar — Uniforme
Achird — Amichevole
Sadachbia — Vivace Puck — Vivace
Fenrir — Entusiasta
Aoede — Spensierata
Enceladus — Sussurrata
Algieba — Dolce
Algenib — Ruvida
Achernar — Delicata
Gacrux — Matura
Zubenelgenubi — Informale
Sadaltager — Competente Charon — Informativo
Leda — Giovanile
Callirrhoe — Tranquillo
Iapetus — Chiaro
Despina — Fluido
Rasalgethi — Informativo
Alnilam — Fermo
Pulcherrima — Diretto
Vindemiatrix — Delicato
Sulafat — Caldo

Per specificare una voce di risposta, imposta il nome della voce all'interno dell'oggetto speechConfig come parte della configurazione del modello.

Swift


// ...

let liveModel = FirebaseAI.firebaseAI(backend: .googleAI()).liveModel(
  modelName: "gemini-2.5-flash-native-audio-preview-12-2025",
  // Configure the model to use a specific voice for its audio response
  generationConfig: LiveGenerationConfig(
    responseModalities: [.audio],
    speech: SpeechConfig(voiceName: "VOICE_NAME")
  )
)

// ...

Kotlin


// ...

val model = Firebase.ai(backend = GenerativeBackend.googleAI()).liveModel(
    modelName = "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to use a specific voice for its audio response
    generationConfig = liveGenerationConfig {
        responseModality = ResponseModality.AUDIO
        speechConfig = SpeechConfig(voice = Voice("VOICE_NAME"))
    }
)

// ...

Java


// ...

LiveGenerativeModel lm = FirebaseAI.getInstance(GenerativeBackend.googleAI()).liveModel(
    "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to use a specific voice for its audio response
    new LiveGenerationConfig.Builder()
        .setResponseModality(ResponseModality.AUDIO)
        .setSpeechConfig(new SpeechConfig(new Voice("VOICE_NAME")))
        .build()
);

// ...

Web


// ...

const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });

const liveModel = getLiveGenerativeModel(ai, {
  model: "gemini-2.5-flash-native-audio-preview-12-2025",
  // Configure the model to use a specific voice for its audio response
  generationConfig: {
    responseModalities: [ResponseModality.AUDIO],
    speechConfig: {
      voiceConfig: {
        prebuiltVoiceConfig: { voiceName: "VOICE_NAME" },
      },
    },
  },
});

// ...

Dart


// ...

final _liveModel = FirebaseAI.googleAI().liveGenerativeModel(
  model: 'gemini-2.5-flash-native-audio-preview-12-2025',
  // Configure the model to use a specific voice for its audio response
  liveGenerationConfig: LiveGenerationConfig(
    responseModalities: [ResponseModalities.audio],
    speechConfig: SpeechConfig(voiceName: 'VOICE_NAME'),
  ),
);

// ...

Unity


// ...

var liveModel = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI()).GetLiveModel(
    modelName: "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to use a specific voice for its audio response
    liveGenerationConfig: new LiveGenerationConfig(
        responseModalities: new[] { ResponseModality.Audio },
        speechConfig: SpeechConfig.UsePrebuiltVoice("VOICE_NAME")
    )
);

// ...

Influenzare la lingua della risposta

I modelli Live API scelgono automaticamente la lingua appropriata per le loro risposte.

Visualizza l'elenco delle lingue supportate

Lingua	Codice BCP-47	Lingua	Codice BCP-47
Arabo (egiziano)	ar-EG	Tedesco (Germania)	de-DE
Inglese (USA)	en-US	Spagnolo (USA)	es-US
Francese (Francia)	fr-FR	Hindi (India)	hi-IN
Indonesiano (Indonesia)	id-ID	Italiano (Italia)	it-IT
Giapponese (Giappone)	ja-JP	Coreano (Corea)	ko-KR
Portoghese (Brasile)	pt-BR	Russo (Russia)	ru-RU
Olandese (Paesi Bassi)	nl-NL	Polacco (Polonia)	pl-PL
Thailandese (Thailandia)	th-TH	Turco (Turchia)	tr-TR
Vietnamita (Vietnam)	vi-VN	Rumeno (Romania)	ro-RO
Ucraino (Ucraina)	uk_UA	Bengalese (Bangladesh)	bn-BD
Inglese (India)	Bundle en-IN e hi-IN	Marathi (India)	mr-IN
Tamil (India)	ta-IN	Telugu (India)	te-IN

Se vuoi che il modello risponda in una lingua diversa dall'inglese o sempre in una lingua specifica, puoi influenzare le risposte del modello utilizzando istruzioni di sistema come questi esempi:

Rafforzare il modello in modo che una lingua diversa dall'inglese possa essere appropriata

Listen to the speaker carefully. If you detect a non-English language, respond
in the language you hear from the speaker. You must respond unmistakably in the
speaker's language.

Chiedere al modello di rispondere sempre in una lingua specifica

RESPOND IN LANGUAGE. YOU MUST RESPOND UNMISTAKABLY IN LANGUAGE.

Trascrizioni per l'input e l'output audio

Fai clic sul tuo fornitore Gemini API per visualizzare i contenuti e il codice specifici del fornitore in questa pagina.

Come parte della risposta del modello, puoi ricevere le trascrizioni dell'input audio e della risposta audio del modello. Questa configurazione viene impostata nell'ambito della configurazione del modello.

Per la trascrizione dell'input audio, aggiungi inputAudioTranscription.
Per la trascrizione della risposta audio del modello, aggiungi outputAudioTranscription.

Tieni presente quanto segue:

Puoi configurare il modello in modo che restituisca le trascrizioni sia dell'input che dell'output (come mostrato nell'esempio seguente) oppure puoi configurarlo in modo che restituisca solo uno o l'altro.
Le trascrizioni vengono trasmesse in streaming insieme all'audio, quindi è meglio raccoglierle come fai con le parti di testo a ogni turno.
La lingua della trascrizione viene dedotta dall'input audio e dalla risposta audio del modello.

Swift


// ...

let liveModel = FirebaseAI.firebaseAI(backend: .googleAI()).liveModel(
  modelName: "gemini-2.5-flash-native-audio-preview-12-2025",
  // Configure the model to return transcriptions of the audio input and output
  generationConfig: LiveGenerationConfig(
    responseModalities: [.audio],
    inputAudioTranscription: AudioTranscriptionConfig(),
    outputAudioTranscription: AudioTranscriptionConfig()
  )
)

var inputTranscript: String = ""
var outputTranscript: String = ""

do {
  let session = try await liveModel.connect()
  for try await response in session.responses {
    if case let .content(content) = response.payload {
      if let inputText = content.inputAudioTranscription?.text {
        // Handle transcription text of the audio input
        inputTranscript += inputText
      }

      if let outputText = content.outputAudioTranscription?.text {
        // Handle transcription text of the audio output
        outputTranscript += outputText
      }

      if content.isTurnComplete {
        // Log the transcripts after the current turn is complete
        print("Input audio: \(inputTranscript)")
        print("Output audio: \(outputTranscript)")

        // Reset the transcripts for the next turn
        inputTranscript = ""
        outputTranscript = ""
      }
    }
  }


} catch {
  // Handle error
}

// ...

Kotlin


// ...

val liveModel = Firebase.ai(backend = GenerativeBackend.googleAI()).liveModel(
    modelName = "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to return transcriptions of the audio input and output
    generationConfig = liveGenerationConfig {
        responseModality = ResponseModality.AUDIO
        inputAudioTranscription = AudioTranscriptionConfig()
        outputAudioTranscription = AudioTranscriptionConfig()
   }
)

val liveSession = liveModel.connect()

fun handleTranscription(input: Transcription?, output: Transcription?) {
    input?.text?.let { text ->
        // Handle transcription text of the audio input
        println("Input Transcription: $text")
    }
    output?.text?.let { text ->
        // Handle transcription text of the audio output
        println("Output Transcription: $text")
    }
}

liveSession.startAudioConversation(null, ::handleTranscription)

// ...

Java


// ...

ExecutorService executor = Executors.newFixedThreadPool(1);

LiveGenerativeModel lm = FirebaseAI.getInstance(GenerativeBackend.googleAI()).liveModel(
    "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to return transcriptions of the audio input and output
    new LiveGenerationConfig.Builder()
            .setResponseModality(ResponseModality.AUDIO)
            .setInputAudioTranscription(new AudioTranscriptionConfig())
            .setOutputAudioTranscription(new AudioTranscriptionConfig())
            .build()
    );

LiveModelFutures liveModel = LiveModelFutures.from(lm);
ListenableFuture sessionFuture = liveModel.connect();

Futures.addCallback(sessionFuture, new FutureCallback() {
    @Override
    public void onSuccess(LiveSessionFutures ses) {
        LiveSessionFutures session = ses;
        session.startAudioConversation((Transcription input, Transcription output) -> {
            if (input != null) {
                // Handle transcription text of the audio input
                System.out.println("Input Transcription: " + input.getText());
            }
            if (output != null) {
                // Handle transcription text of the audio output
                System.out.println("Output Transcription: " + output.getText());
            }
            return null;
        });
    }

    @Override
    public void onFailure(Throwable t) {
        // Handle exceptions
        t.printStackTrace();
    }
}, executor);

// ...

Web


// ...

const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });

const liveModel = getLiveGenerativeModel(ai, {
  model: 'gemini-2.5-flash-native-audio-preview-12-2025',
  // Configure the model to return transcriptions of the audio input and output
  generationConfig: {
    responseModalities: [ResponseModality.AUDIO],
    inputAudioTranscription: {},
    outputAudioTranscription: {},
  },
});

const liveSession = await liveModel.connect();

liveSession.sendAudioRealtime({ data, mimeType: "audio/pcm" });

const messages = liveSession.receive();
for await (const message of messages) {
  switch (message.type) {
    case 'serverContent':
      if (message.inputTranscription) {
        // Handle transcription text of the audio input
        console.log(`Input transcription: ${message.inputTranscription.text}`);
      }
      if (message.outputTranscription) {
        // Handle transcription text of the audio output
        console.log(`Output transcription: ${message.outputTranscription.text}`);
      } else {
      	 // Handle other message types (modelTurn, turnComplete, interruption)
      }
    default:
      // Handle other message types (toolCall, toolCallCancellation)
  }
}

// ...

Dart


// ...

final _liveModel = FirebaseAI.googleAI().liveGenerativeModel(
  model: 'gemini-2.5-flash-native-audio-preview-12-2025',
  // Configure the model to return transcriptions of the audio input and output
  liveGenerationConfig: LiveGenerationConfig(
    responseModalities: [ResponseModalities.audio],
    inputAudioTranscription: AudioTranscriptionConfig(),
    outputAudioTranscription: AudioTranscriptionConfig(),
  ),
);

final LiveSession _session = _liveModel.connect();

await for (final response in _session.receive()) {
  LiveServerContent message = response.message;
  if (message.inputTranscription?.text case final inputText?) {
    // Handle transcription text of the audio input
    print('Input: $inputText');
  }

  if (message.outputTranscription?.text case final outputText?) {
    // Handle transcription text of the audio output
    print('Output: $outputText');
  }
}

// ...

Unity


// ...

var liveModel = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI()).GetLiveModel(
    modelName: "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to return transcriptions of the audio input and output
    liveGenerationConfig: new LiveGenerationConfig(
        responseModalities: new[] { ResponseModality.Audio },
        inputAudioTranscription: new AudioTranscriptionConfig(),
        outputAudioTranscription: new AudioTranscriptionConfig()
    )
);

try
{
    var session = await liveModel.ConnectAsync();
    var stream = session.ReceiveAsync();
    await foreach (var response in stream) {
        if (response.Message is LiveSessionContent sessionContent) {
            if (!string.IsNullOrEmpty(sessionContent.InputTranscription?.Text)) {
              // handle transcription text of input audio
            }

            if (!string.IsNullOrEmpty(sessionContent.OutputTranscription?.Text)) {
              // handle transcription text of output audio
            }
        }
    }
}
catch (Exception e)
{
    // Handle error
}

// ...

Rilevamento di attività vocale (VAD)

Il modello esegue automaticamente il rilevamento di attività vocale (VAD) su un flusso di input audio continuo. Il VAD è attivo per impostazione predefinita.

Gestione sessione

Scopri di più sui seguenti argomenti relativi alle sessioni:

Funzionalità avanzate, tra cui:
- Aggiornamento delle istruzioni di sistema a metà sessione
- Aggiunta di aggiornamenti incrementali dei contenuti
Limiti relativi alle sessioni, inclusi i limiti di connessione e durata della sessione, i limiti della finestra contestuale della sessione e i limiti di frequenza.
Opzioni per la gestione dei limiti di sessione, tra cui:
- Compressione della finestra contestuale
- Riprendere una sessione

Opzioni di configurazione per l'API Live Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Voce e lingua della risposta

Specificare una voce di risposta

Swift

Kotlin

Java

Web

Dart

Unity

Influenzare la lingua della risposta

Trascrizioni per l'input e l'output audio

Swift

Kotlin

Java

Web

Dart

Unity

Rilevamento di attività vocale (VAD)

Gestione sessione

Opzioni di configurazione per l'API Live