The latest Gemini models, like Gemini 3.5 Flash, are available to use with Firebase AI Logic! Learn more.

All Imagen models will shut down as early as June 30, 2026. Learn about migrating your apps to use Nano Banana.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Opções de configuração para a API Live

Mesmo com a implementação básica do Live API, é possível criar interações envolventes e poderosas para os usuários. Você pode personalizar ainda mais a experiência usando as seguintes opções de configuração:

Voz e idioma da resposta
Transcrição para entrada e saída de áudio
Detecção de atividade de voz (VAD)
Gerenciamento de sessões

Voz e idioma da resposta

Você pode fazer com que o modelo responda com uma voz específica e influenciar o modelo a responder em diferentes idiomas.

Especificar uma voz de resposta

Clique no seu provedor de Gemini API para conferir o conteúdo e o código específicos do provedor nesta página.

O Live API usa o Chirp 3 para oferecer suporte a respostas de fala sintetizada em vozes em alta definição.

Se você não especificar uma voz de resposta, o padrão será Puck.

Ver a lista de opções de voz de resposta

Para demonstrações de como cada voz soa, consulte Chirp 3: vozes em alta definição.

Zephyr — Brilhante
Kore — Firme
Orus — Firme
Autonoe — Brilhante
Umbriel — Tranquilo
Erinome — Claro
Laomedeia — Animado
Schedar — Equilibrado
Achird — Amigável
Sadachbia — Animado Puck — Animada
Fenrir — Entusiasmada
Aoede — Leve
Enceladus — Suave
Algieba — Calma
Algenib — Grave
Achernar — Delicada
Gacrux — Madura
Zubenelgenubi — Informal
Sadaltager — Conhecedora Charon — Informativo
Leda — Jovem
Callirrhoe — Tranquilo
Iapetus — Claro
Despina — Suave
Rasalgethi — Informativo
Alnilam — Firme
Pulcherrima — Direto
Vindemiatrix — Delicado
Sulafat — Acolhedor

Para especificar uma voz de resposta, defina o nome da voz no objeto speechConfig como parte da configuração do modelo.

Swift


// ...

let liveModel = FirebaseAI.firebaseAI(backend: .googleAI()).liveModel(
  modelName: "gemini-2.5-flash-native-audio-preview-12-2025",
  // Configure the model to use a specific voice for its audio response
  generationConfig: LiveGenerationConfig(
    responseModalities: [.audio],
    speech: SpeechConfig(voiceName: "VOICE_NAME")
  )
)

// ...

Kotlin


// ...

val model = Firebase.ai(backend = GenerativeBackend.googleAI()).liveModel(
    modelName = "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to use a specific voice for its audio response
    generationConfig = liveGenerationConfig {
        responseModality = ResponseModality.AUDIO
        speechConfig = SpeechConfig(voice = Voice("VOICE_NAME"))
    }
)

// ...

Java


// ...

LiveGenerativeModel lm = FirebaseAI.getInstance(GenerativeBackend.googleAI()).liveModel(
    "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to use a specific voice for its audio response
    new LiveGenerationConfig.Builder()
        .setResponseModality(ResponseModality.AUDIO)
        .setSpeechConfig(new SpeechConfig(new Voice("VOICE_NAME")))
        .build()
);

// ...

Web


// ...

const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });

const liveModel = getLiveGenerativeModel(ai, {
  model: "gemini-2.5-flash-native-audio-preview-12-2025",
  // Configure the model to use a specific voice for its audio response
  generationConfig: {
    responseModalities: [ResponseModality.AUDIO],
    speechConfig: {
      voiceConfig: {
        prebuiltVoiceConfig: { voiceName: "VOICE_NAME" },
      },
    },
  },
});

// ...

Dart


// ...

final _liveModel = FirebaseAI.googleAI().liveGenerativeModel(
  model: 'gemini-2.5-flash-native-audio-preview-12-2025',
  // Configure the model to use a specific voice for its audio response
  liveGenerationConfig: LiveGenerationConfig(
    responseModalities: [ResponseModalities.audio],
    speechConfig: SpeechConfig(voiceName: 'VOICE_NAME'),
  ),
);

// ...

Unity


// ...

var liveModel = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI()).GetLiveModel(
    modelName: "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to use a specific voice for its audio response
    liveGenerationConfig: new LiveGenerationConfig(
        responseModalities: new[] { ResponseModality.Audio },
        speechConfig: SpeechConfig.UsePrebuiltVoice("VOICE_NAME")
    )
);

// ...

Influenciar o idioma da resposta

Os modelos Live API escolhem automaticamente o idioma adequado para as respostas.

Conferir a lista de idiomas compatíveis

Idioma	Código BCP-47	Idioma	Código BCP-47
Árabe (egípcio)	ar-EG	Alemão (Alemanha)	de-DE
Inglês (EUA)	en-US	Espanhol (EUA)	es-US
Francês (França)	fr-FR	Híndi (Índia)	hi-IN
Indonésio (Indonésia)	id-ID	Italiano (Itália)	it-IT
Japonês (Japão)	ja-JP	Coreano (Coreia)	ko-KR
Português (Brasil)	pt-BR	Russo (Rússia)	ru-RU
Holandês (Holanda)	nl-NL	Polonês (Polônia)	pl-PL
Tailandês (Tailândia)	th-TH	Turco (Turquia)	tr-TR
Vietnamita (Vietnã)	vi-VN	Romeno (Romênia)	ro-RO
Ucraniano (Ucrânia)	uk-UA	Bengali (Bangladesh)	bn-BD
Inglês (Índia)‎	Pacote en-IN e hi-IN	Marati (Índia)	mr-IN
Tâmil (Índia)	ta-IN	Telugu (Índia)	te-IN

Se você quiser que o modelo responda em um idioma diferente do inglês ou sempre em um idioma específico, use as instruções do sistema para influenciar as respostas do modelo, como nestes exemplos:

Reforce para o modelo que um idioma diferente do inglês pode ser adequado

Listen to the speaker carefully. If you detect a non-English language, respond
in the language you hear from the speaker. You must respond unmistakably in the
speaker's language.

Pedir para o modelo sempre responder em um idioma específico

RESPOND IN LANGUAGE. YOU MUST RESPOND UNMISTAKABLY IN LANGUAGE.

Transcrição para entrada e saída de áudio

Clique no seu provedor de Gemini API para conferir o conteúdo e o código específicos do provedor nesta página.

Como parte da resposta do modelo, você pode receber transcrições da entrada de áudio e da resposta de áudio do modelo. Você definiu essa configuração como parte da configuração do modelo.

Para a transcrição da entrada de áudio, adicione inputAudioTranscription.
Para a transcrição da resposta de áudio do modelo, adicione outputAudioTranscription.

Observações:

É possível configurar o modelo para retornar transcrições de entrada e saída (como mostrado no exemplo a seguir) ou apenas uma delas.
As transcrições são transmitidas por streaming junto com o áudio. Por isso, é melhor coletá-las como você faz com partes de texto a cada vez.
O idioma da transcrição é inferido da entrada de áudio e da resposta de áudio do modelo.

Swift


// ...

let liveModel = FirebaseAI.firebaseAI(backend: .googleAI()).liveModel(
  modelName: "gemini-2.5-flash-native-audio-preview-12-2025",
  // Configure the model to return transcriptions of the audio input and output
  generationConfig: LiveGenerationConfig(
    responseModalities: [.audio],
    inputAudioTranscription: AudioTranscriptionConfig(),
    outputAudioTranscription: AudioTranscriptionConfig()
  )
)

var inputTranscript: String = ""
var outputTranscript: String = ""

do {
  let session = try await liveModel.connect()
  for try await response in session.responses {
    if case let .content(content) = response.payload {
      if let inputText = content.inputAudioTranscription?.text {
        // Handle transcription text of the audio input
        inputTranscript += inputText
      }

      if let outputText = content.outputAudioTranscription?.text {
        // Handle transcription text of the audio output
        outputTranscript += outputText
      }

      if content.isTurnComplete {
        // Log the transcripts after the current turn is complete
        print("Input audio: \(inputTranscript)")
        print("Output audio: \(outputTranscript)")

        // Reset the transcripts for the next turn
        inputTranscript = ""
        outputTranscript = ""
      }
    }
  }


} catch {
  // Handle error
}

// ...

Kotlin


// ...

val liveModel = Firebase.ai(backend = GenerativeBackend.googleAI()).liveModel(
    modelName = "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to return transcriptions of the audio input and output
    generationConfig = liveGenerationConfig {
        responseModality = ResponseModality.AUDIO
        inputAudioTranscription = AudioTranscriptionConfig()
        outputAudioTranscription = AudioTranscriptionConfig()
   }
)

val liveSession = liveModel.connect()

fun handleTranscription(input: Transcription?, output: Transcription?) {
    input?.text?.let { text ->
        // Handle transcription text of the audio input
        println("Input Transcription: $text")
    }
    output?.text?.let { text ->
        // Handle transcription text of the audio output
        println("Output Transcription: $text")
    }
}

liveSession.startAudioConversation(null, ::handleTranscription)

// ...

Java


// ...

ExecutorService executor = Executors.newFixedThreadPool(1);

LiveGenerativeModel lm = FirebaseAI.getInstance(GenerativeBackend.googleAI()).liveModel(
    "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to return transcriptions of the audio input and output
    new LiveGenerationConfig.Builder()
            .setResponseModality(ResponseModality.AUDIO)
            .setInputAudioTranscription(new AudioTranscriptionConfig())
            .setOutputAudioTranscription(new AudioTranscriptionConfig())
            .build()
    );

LiveModelFutures liveModel = LiveModelFutures.from(lm);
ListenableFuture sessionFuture = liveModel.connect();

Futures.addCallback(sessionFuture, new FutureCallback() {
    @Override
    public void onSuccess(LiveSessionFutures ses) {
        LiveSessionFutures session = ses;
        session.startAudioConversation((Transcription input, Transcription output) -> {
            if (input != null) {
                // Handle transcription text of the audio input
                System.out.println("Input Transcription: " + input.getText());
            }
            if (output != null) {
                // Handle transcription text of the audio output
                System.out.println("Output Transcription: " + output.getText());
            }
            return null;
        });
    }

    @Override
    public void onFailure(Throwable t) {
        // Handle exceptions
        t.printStackTrace();
    }
}, executor);

// ...

Web


// ...

const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });

const liveModel = getLiveGenerativeModel(ai, {
  model: 'gemini-2.5-flash-native-audio-preview-12-2025',
  // Configure the model to return transcriptions of the audio input and output
  generationConfig: {
    responseModalities: [ResponseModality.AUDIO],
    inputAudioTranscription: {},
    outputAudioTranscription: {},
  },
});

const liveSession = await liveModel.connect();

liveSession.sendAudioRealtime({ data, mimeType: "audio/pcm" });

const messages = liveSession.receive();
for await (const message of messages) {
  switch (message.type) {
    case 'serverContent':
      if (message.inputTranscription) {
        // Handle transcription text of the audio input
        console.log(`Input transcription: ${message.inputTranscription.text}`);
      }
      if (message.outputTranscription) {
        // Handle transcription text of the audio output
        console.log(`Output transcription: ${message.outputTranscription.text}`);
      } else {
      	 // Handle other message types (modelTurn, turnComplete, interruption)
      }
    default:
      // Handle other message types (toolCall, toolCallCancellation)
  }
}

// ...

Dart


// ...

final _liveModel = FirebaseAI.googleAI().liveGenerativeModel(
  model: 'gemini-2.5-flash-native-audio-preview-12-2025',
  // Configure the model to return transcriptions of the audio input and output
  liveGenerationConfig: LiveGenerationConfig(
    responseModalities: [ResponseModalities.audio],
    inputAudioTranscription: AudioTranscriptionConfig(),
    outputAudioTranscription: AudioTranscriptionConfig(),
  ),
);

final LiveSession _session = _liveModel.connect();

await for (final response in _session.receive()) {
  LiveServerContent message = response.message;
  if (message.inputTranscription?.text case final inputText?) {
    // Handle transcription text of the audio input
    print('Input: $inputText');
  }

  if (message.outputTranscription?.text case final outputText?) {
    // Handle transcription text of the audio output
    print('Output: $outputText');
  }
}

// ...

Unity


// ...

var liveModel = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI()).GetLiveModel(
    modelName: "gemini-2.5-flash-native-audio-preview-12-2025",
    // Configure the model to return transcriptions of the audio input and output
    liveGenerationConfig: new LiveGenerationConfig(
        responseModalities: new[] { ResponseModality.Audio },
        inputAudioTranscription: new AudioTranscriptionConfig(),
        outputAudioTranscription: new AudioTranscriptionConfig()
    )
);

try
{
    var session = await liveModel.ConnectAsync();
    var stream = session.ReceiveAsync();
    await foreach (var response in stream) {
        if (response.Message is LiveSessionContent sessionContent) {
            if (!string.IsNullOrEmpty(sessionContent.InputTranscription?.Text)) {
              // handle transcription text of input audio
            }

            if (!string.IsNullOrEmpty(sessionContent.OutputTranscription?.Text)) {
              // handle transcription text of output audio
            }
        }
    }
}
catch (Exception e)
{
    // Handle error
}

// ...

Detecção de atividade de voz (VAD)

O modelo realiza automaticamente a detecção de atividade de voz (VAD) em um fluxo contínuo de entrada de áudio. A VAD está ativada por padrão.

Gerenciamento de sessões

Saiba mais sobre os seguintes tópicos relacionados a sessões:

Recursos avançados, incluindo:
- Atualizar as instruções do sistema no meio da sessão
- Adicionar atualizações incrementais de conteúdo
Limites relacionados à sessão, incluindo limites de conexão e duração da sessão, limites de janela de contexto da sessão e limites de taxa.
Opções para lidar com limites de sessão, incluindo:
- Compactando a janela de contexto
- Retomar uma sessão

Opções de configuração para a API Live Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Voz e idioma da resposta

Especificar uma voz de resposta

Swift

Kotlin

Java

Web

Dart

Unity

Influenciar o idioma da resposta

Transcrição para entrada e saída de áudio

Swift

Kotlin

Java

Web

Dart

Unity

Detecção de atividade de voz (VAD)

Gerenciamento de sessões

Opções de configuração para a API Live