The latest Gemini models, like Gemini 3.1 Flash Image (Nano Banana 2), are available to use with Firebase AI Logic on all platforms!

Gemini 2.0 Flash and Flash-Lite models will be retired on June 1, 2026. To avoid service disruption, update to a newer model like gemini-2.5-flash-lite. Also, Gemini 3 Pro Preview (gemini-3-pro-preview) will be retired on March 9, 2026 (update to Gemini 3.1 Pro Preview: gemini-3.1-pro-preview). Learn more.

Opciones de configuración de la API de Live

Incluso con la implementación básica de Live API, puedes crear interacciones atractivas y eficaces para tus usuarios. De manera opcional, puedes personalizar aún más la experiencia con las siguientes opciones de configuración:

Idioma y voz de la respuesta
Transcripciones para la entrada y salida de audio
Detección de actividad de voz (VAD)
Administración de sesiones

Idioma y voz de la respuesta

Puedes hacer que el modelo responda con una voz específica y en diferentes idiomas.

Cómo especificar una voz de respuesta

Haz clic en tu proveedor de Gemini API para ver el contenido y el código específicos del proveedor en esta página.

Live API usa Chirp 3 para admitir respuestas de voz sintetizada en voces en HD.

Si no especificas una voz de respuesta, la predeterminada es Puck.

Cómo ver la lista de opciones de voz de respuesta

Para ver demostraciones de cómo suena cada voz, consulta Chirp 3: Voces en HD.

Zephyr: Brillante
Kore: Firme
Orus: Firme
Autonoe: Brillante
Umbriel: Tranquilo
Erinome: Claro
Laomedeia: Optimista
Schedar: Parejo
Achird: Amigable
Sadachbia: Animado Puck: Optimista
Fenrir: Entusiasmado
Aoede: Ligero
Enceladus: Susurrante
Algieba: Suave
Algenib: Grave
Achernar: Suave
Gacrux: Maduro
Zubenelgenubi: Informal
Sadaltager: Informativo Charon -- Informativo
Leda -- Juvenil
Callirrhoe -- Relajado
Iapetus -- Claro
Despina -- Suave
Rasalgethi -- Informativo
Alnilam -- Firme
Pulcherrima -- Directo
Vindemiatrix -- Delicado
Sulafat -- Cálido

Para especificar una voz de respuesta, configura el nombre de la voz dentro del objeto speechConfig como parte de la configuración del modelo.

Swift


// ...

let liveModel = FirebaseAI.firebaseAI(backend: .googleAI()).liveModel(
  modelName: "gemini-2.5-flash-native-audio-preview-12-2025",
  // Configure the model to use a specific voice for its audio response
  generationConfig: LiveGenerationConfig(
    responseModalities: [.audio],
    speech: SpeechConfig(voiceName: "VOICE_NAME")
  )
)

// ...

Kotlin


// ...

val model = Firebase.ai(backend = GenerativeBackend.googleAI()).liveModel(
    modelName = "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to use a specific voice for its audio response
    generationConfig = liveGenerationConfig {
        responseModality = ResponseModality.AUDIO
        speechConfig = SpeechConfig(voice = Voice("VOICE_NAME"))
    }
)

// ...

Java


// ...

LiveGenerativeModel lm = FirebaseAI.getInstance(GenerativeBackend.googleAI()).liveModel(
    "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to use a specific voice for its audio response
    new LiveGenerationConfig.Builder()
        .setResponseModality(ResponseModality.AUDIO)
        .setSpeechConfig(new SpeechConfig(new Voice("VOICE_NAME")))
        .build()
);

// ...

Web


// ...

const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });

const liveModel = getLiveGenerativeModel(ai, {
  model: "gemini-2.5-flash-native-audio-preview-12-2025",
  // Configure the model to use a specific voice for its audio response
  generationConfig: {
    responseModalities: [ResponseModality.AUDIO],
    speechConfig: {
      voiceConfig: {
        prebuiltVoiceConfig: { voiceName: "VOICE_NAME" },
      },
    },
  },
});

// ...

Dart


// ...

final _liveModel = FirebaseAI.googleAI().liveGenerativeModel(
  model: 'gemini-2.5-flash-native-audio-preview-12-2025',
  // Configure the model to use a specific voice for its audio response
  liveGenerationConfig: LiveGenerationConfig(
    responseModalities: [ResponseModalities.audio],
    speechConfig: SpeechConfig(voiceName: 'VOICE_NAME'),
  ),
);

// ...

Unity


// ...

var liveModel = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI()).GetLiveModel(
    modelName: "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to use a specific voice for its audio response
    liveGenerationConfig: new LiveGenerationConfig(
        responseModalities: new[] { ResponseModality.Audio },
        speechConfig: SpeechConfig.UsePrebuiltVoice("VOICE_NAME")
    )
);

// ...

Cómo influir en el idioma de la respuesta

Los modelos de Live API eligen automáticamente el idioma adecuado para sus respuestas.

Consulta la lista de idiomas admitidos

Idioma	Código BCP-47	Idioma	Código BCP-47
Árabe (Egipto)	ar-EG	Alemán (Alemania)	de-DE
Inglés (EE.UU.)	en-US	Español (EE.UU.)	es-US
Francés (Francia)	fr-FR	Hindi (India)	hi-IN
Indonesio (Indonesia)	id-ID	Italiano (Italia)	it-IT
Japonés (Japón)	ja-JP	Coreano (Corea)	ko-KR
Portugués (Brasil)	pt-BR	Ruso (Rusia)	ru-RU
Holandés (Países Bajos)	nl-NL	Polaco (Polonia)	pl-PL
Tailandés (Tailandia)	th-TH	Turco (Türkiye)	tr-TR
Vietnamita (Vietnam)	vi-VN	Rumano (Rumania)	ro-RO
Ucraniano (Ucrania)	uk-UA	Bengalí (Bangladés)	bn-BD
Inglés (India)	Paquete de en-IN y hi-IN	Maratí (India)	mr-IN
Tamil (India)	ta-IN	Telugu (India)	te-IN

Si quieres que el modelo responda en un idioma que no sea inglés o siempre en un idioma específico, puedes influir en sus respuestas con instrucciones del sistema como las de estos ejemplos:

Refuerza en el modelo que un idioma que no sea inglés puede ser apropiado

Listen to the speaker carefully. If you detect a non-English language, respond
in the language you hear from the speaker. You must respond unmistakably in the
speaker's language.

Indícale al modelo que siempre responda en un idioma específico

RESPOND IN LANGUAGE. YOU MUST RESPOND UNMISTAKABLY IN LANGUAGE.

Transcripciones para la entrada y salida de audio

Haz clic en tu proveedor de Gemini API para ver el contenido y el código específicos del proveedor en esta página.

Como parte de la respuesta del modelo, puedes recibir transcripciones de la entrada de audio y de la respuesta de audio del modelo. Estableces esta configuración como parte de la configuración del modelo.

Para transcribir la entrada de audio, agrega inputAudioTranscription.
Para la transcripción de la respuesta de audio del modelo, agrega outputAudioTranscription.

Ten en cuenta lo siguiente:

Puedes configurar el modelo para que devuelva transcripciones de la entrada y la salida (como se muestra en el siguiente ejemplo) o solo de una de ellas.
Las transcripciones se transmiten junto con el audio, por lo que es mejor recopilarlas como lo haces con las partes de texto en cada turno.
El idioma de la transcripción se infiere a partir de la entrada de audio y la respuesta de audio del modelo.

Swift


// ...

let liveModel = FirebaseAI.firebaseAI(backend: .googleAI()).liveModel(
  modelName: "gemini-2.5-flash-native-audio-preview-12-2025",
  // Configure the model to return transcriptions of the audio input and output
  generationConfig: LiveGenerationConfig(
    responseModalities: [.audio],
    inputAudioTranscription: AudioTranscriptionConfig(),
    outputAudioTranscription: AudioTranscriptionConfig()
  )
)

var inputTranscript: String = ""
var outputTranscript: String = ""

do {
  let session = try await liveModel.connect()
  for try await response in session.responses {
    if case let .content(content) = response.payload {
      if let inputText = content.inputAudioTranscription?.text {
        // Handle transcription text of the audio input
        inputTranscript += inputText
      }

      if let outputText = content.outputAudioTranscription?.text {
        // Handle transcription text of the audio output
        outputTranscript += outputText
      }

      if content.isTurnComplete {
        // Log the transcripts after the current turn is complete
        print("Input audio: \(inputTranscript)")
        print("Output audio: \(outputTranscript)")

        // Reset the transcripts for the next turn
        inputTranscript = ""
        outputTranscript = ""
      }
    }
  }


} catch {
  // Handle error
}

// ...

Kotlin


// ...

val liveModel = Firebase.ai(backend = GenerativeBackend.googleAI()).liveModel(
    modelName = "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to return transcriptions of the audio input and output
    generationConfig = liveGenerationConfig {
        responseModality = ResponseModality.AUDIO
        inputAudioTranscription = AudioTranscriptionConfig()
        outputAudioTranscription = AudioTranscriptionConfig()
   }
)

val liveSession = liveModel.connect()

fun handleTranscription(input: Transcription?, output: Transcription?) {
    input?.text?.let { text ->
        // Handle transcription text of the audio input
        println("Input Transcription: $text")
    }
    output?.text?.let { text ->
        // Handle transcription text of the audio output
        println("Output Transcription: $text")
    }
}

liveSession.startAudioConversation(null, ::handleTranscription)

// ...

Java


// ...

ExecutorService executor = Executors.newFixedThreadPool(1);

LiveGenerativeModel lm = FirebaseAI.getInstance(GenerativeBackend.googleAI()).liveModel(
    "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to return transcriptions of the audio input and output
    new LiveGenerationConfig.Builder()
            .setResponseModality(ResponseModality.AUDIO)
            .setInputAudioTranscription(new AudioTranscriptionConfig())
            .setOutputAudioTranscription(new AudioTranscriptionConfig())
            .build()
    );

LiveModelFutures liveModel = LiveModelFutures.from(lm);
ListenableFuture sessionFuture = liveModel.connect();

Futures.addCallback(sessionFuture, new FutureCallback() {
    @Override
    public void onSuccess(LiveSessionFutures ses) {
        LiveSessionFutures session = ses;
        session.startAudioConversation((Transcription input, Transcription output) -> {
            if (input != null) {
                // Handle transcription text of the audio input
                System.out.println("Input Transcription: " + input.getText());
            }
            if (output != null) {
                // Handle transcription text of the audio output
                System.out.println("Output Transcription: " + output.getText());
            }
            return null;
        });
    }

    @Override
    public void onFailure(Throwable t) {
        // Handle exceptions
        t.printStackTrace();
    }
}, executor);

// ...

Web


// ...

const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });

const liveModel = getLiveGenerativeModel(ai, {
  model: 'gemini-2.5-flash-native-audio-preview-12-2025',
  // Configure the model to return transcriptions of the audio input and output
  generationConfig: {
    responseModalities: [ResponseModality.AUDIO],
    inputAudioTranscription: {},
    outputAudioTranscription: {},
  },
});

const liveSession = await liveModel.connect();

liveSession.sendAudioRealtime({ data, mimeType: "audio/pcm" });

const messages = liveSession.receive();
for await (const message of messages) {
  switch (message.type) {
    case 'serverContent':
      if (message.inputTranscription) {
        // Handle transcription text of the audio input
        console.log(`Input transcription: ${message.inputTranscription.text}`);
      }
      if (message.outputTranscription) {
        // Handle transcription text of the audio output
        console.log(`Output transcription: ${message.outputTranscription.text}`);
      } else {
      	 // Handle other message types (modelTurn, turnComplete, interruption)
      }
    default:
      // Handle other message types (toolCall, toolCallCancellation)
  }
}

// ...

Dart


// ...

final _liveModel = FirebaseAI.googleAI().liveGenerativeModel(
  model: 'gemini-2.5-flash-native-audio-preview-12-2025',
  // Configure the model to return transcriptions of the audio input and output
  liveGenerationConfig: LiveGenerationConfig(
    responseModalities: [ResponseModalities.audio],
    inputAudioTranscription: AudioTranscriptionConfig(),
    outputAudioTranscription: AudioTranscriptionConfig(),
  ),
);

final LiveSession _session = _liveModel.connect();

await for (final response in _session.receive()) {
  LiveServerContent message = response.message;
  if (message.inputTranscription?.text case final inputText?) {
    // Handle transcription text of the audio input
    print('Input: $inputText');
  }

  if (message.outputTranscription?.text case final outputText?) {
    // Handle transcription text of the audio output
    print('Output: $outputText');
  }
}

// ...

Unity


// ...

var liveModel = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI()).GetLiveModel(
    modelName: "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to return transcriptions of the audio input and output
    liveGenerationConfig: new LiveGenerationConfig(
        responseModalities: new[] { ResponseModality.Audio },
        inputAudioTranscription: new AudioTranscriptionConfig(),
        outputAudioTranscription: new AudioTranscriptionConfig()
    )
);

try
{
    var session = await liveModel.ConnectAsync();
    var stream = session.ReceiveAsync();
    await foreach (var response in stream) {
        if (response.Message is LiveSessionContent sessionContent) {
            if (!string.IsNullOrEmpty(sessionContent.InputTranscription?.Text)) {
              // handle transcription text of input audio
            }

            if (!string.IsNullOrEmpty(sessionContent.OutputTranscription?.Text)) {
              // handle transcription text of output audio
            }
        }
    }
}
catch (Exception e)
{
    // Handle error
}

// ...

Detección de actividad de voz (VAD)

El modelo realiza automáticamente la detección de actividad de voz (VAD) en un flujo de entrada de audio continuo. El VAD está habilitado de forma predeterminada.

Administración de las sesiones

Obtén más información sobre los siguientes temas relacionados con las sesiones:
- Funciones avanzadas, incluidas las siguientes:
  - Actualización de las instrucciones del sistema durante la sesión
  - Cómo agregar actualizaciones de contenido incrementales
- Límites relacionados con la sesión, incluidos los límites de conexión y duración de la sesión, los límites de la ventana de contexto de la sesión y los límites de frecuencia
Firebase AI Logic aún no admite las siguientes funciones para la administración de sesiones. Vuelva a consultar más tarde.
- Cómo controlar interrupciones
- Cómo extender la duración de la sesión
- Cómo reanudar una sesión
- Cómo mantener el contexto en las sesiones y solicitudes
- Cómo comprimir la ventana de contexto

Opciones de configuración de la API de Live Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Idioma y voz de la respuesta

Cómo especificar una voz de respuesta

Swift

Kotlin

Java

Web

Dart

Unity

Cómo influir en el idioma de la respuesta

Transcripciones para la entrada y salida de audio

Swift

Kotlin

Java

Web

Dart

Unity

Detección de actividad de voz (VAD)

Administración de las sesiones

Opciones de configuración de la API de Live