Firebase AI Logic supports Gemini 3 Pro and Gemini 3 Pro Image (nano banana pro) for use on all platforms (in preview).

דף זה תורגם על ידי Cloud Translation API.

אפשרויות ההגדרה של Live API

גם עם ההטמעה הבסיסית של Live API, תוכלו ליצור אינטראקציות מרתקות ושימושיות למשתמשים. אפשר גם להתאים אישית את החוויה עוד יותר באמצעות אפשרויות ההגדרה הבאות:

הקול והשפה של התשובה
תמלילים לקלט ופלט של אודיו
זיהוי פעילות קולית (VAD)
ניהול סשנים

הקול והשפה של התשובה

אתם יכולים לגרום למודל להגיב בקול ספציפי ולהשפיע על המודל כך שיגיב בשפות שונות.

הגדרת קול לתשובה

לוחצים על הספק Gemini API כדי לראות בדף הזה תוכן וקוד שספציפיים לספק.

‫Live API משתמש ב-Chirp 3 כדי לתמוך בתשובות של דיבור מסונתז בקולות באיכות HD.

אם לא מציינים קול לתשובה, ברירת המחדל היא Puck.

הצגת רשימת האפשרויות של קולות לתשובות

כדי לשמוע הדגמות של כל קול, אפשר לעיין במאמר Chirp 3: HD voices.

Zephyr -- Bright
Kore -- Firm
Orus -- Firm
Autonoe -- Bright
Umbriel -- Easy-going
Erinome -- Clear
Laomedeia -- Upbeat
Schedar -- Even
Achird -- Friendly
Sadachbia -- Lively Puck -- Upbeat
Fenrir -- Excitable
Aoede -- Breezy
Enceladus -- Breathy
Algieba -- Smooth
Algenib -- Gravelly
Achernar -- Soft
Gacrux -- Mature
Zubenelgenubi -- Casual
Sadaltager -- Knowledgeable Charon -- Informative
Leda -- Youthful
Callirrhoe -- Easy-going
Iapetus -- Clear
Despina -- Smooth
Rasalgethi -- Informative
Alnilam -- Firm
Pulcherrima -- Forward
Vindemiatrix -- Gentle
Sulafat -- Warm

כדי לציין קול לתגובה, מגדירים את שם הקול באובייקט speechConfig כחלק מהגדרת המודל.

Swift


// ...

let liveModel = FirebaseAI.firebaseAI(backend: .googleAI()).liveModel(
  modelName: "gemini-2.5-flash-native-audio-preview-09-2025",
  // Configure the model to use a specific voice for its audio response
  generationConfig: LiveGenerationConfig(
    responseModalities: [.audio],
    speech: SpeechConfig(voiceName: "VOICE_NAME")
  )
)

// ...

Kotlin


// ...

val model = Firebase.ai(backend = GenerativeBackend.googleAI()).liveModel(
    modelName = "gemini-2.5-flash-native-audio-preview-09-2025",
    // Configure the model to use a specific voice for its audio response
    generationConfig = liveGenerationConfig {
        responseModality = ResponseModality.AUDIO
        speechConfig = SpeechConfig(voice = Voice("VOICE_NAME"))
    }
)

// ...

Java


// ...

LiveGenerativeModel lm = FirebaseAI.getInstance(GenerativeBackend.googleAI()).liveModel(
    "gemini-2.5-flash-native-audio-preview-09-2025",
    // Configure the model to use a specific voice for its audio response
    new LiveGenerationConfig.Builder()
        .setResponseModality(ResponseModality.AUDIO)
        .setSpeechConfig(new SpeechConfig(new Voice("VOICE_NAME")))
        .build()
);

// ...

Web


// ...

const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });

const liveModel = getLiveGenerativeModel(ai, {
  model: "gemini-2.5-flash-native-audio-preview-09-2025",
  // Configure the model to use a specific voice for its audio response
  generationConfig: {
    responseModalities: [ResponseModality.AUDIO],
    speechConfig: {
      voiceConfig: {
        prebuiltVoiceConfig: { voiceName: "VOICE_NAME" },
      },
    },
  },
});

// ...

Dart


// ...

final _liveModel = FirebaseAI.googleAI().liveGenerativeModel(
  model: 'gemini-2.5-flash-native-audio-preview-09-2025',
  // Configure the model to use a specific voice for its audio response
  liveGenerationConfig: LiveGenerationConfig(
    responseModalities: [ResponseModalities.audio],
    speechConfig: SpeechConfig(voiceName: 'VOICE_NAME'),
  ),
);

// ...

Unity


// ...

var liveModel = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI()).GetLiveModel(
    modelName: "gemini-2.5-flash-native-audio-preview-09-2025",
    // Configure the model to use a specific voice for its audio response
    liveGenerationConfig: new LiveGenerationConfig(
        responseModalities: new[] { ResponseModality.Audio },
        speechConfig: SpeechConfig.UsePrebuiltVoice("VOICE_NAME")
    )
);

// ...

השפעה על שפת התשובה

מודלים של Live API בוחרים באופן אוטומטי את השפה המתאימה לתשובות שלהם.

הצגת רשימה של שפות נתמכות

שפה	קוד BCP-47	שפה	קוד BCP-47
ערבית (מצרית)	ar-EG	גרמנית (גרמניה)	de-DE
אנגלית (ארה"ב)	en-US	ספרדית (ארצות הברית)	es-US
צרפתית (צרפת)	fr-FR	הינדית (הודו)	hi-IN
אינדונזית (אינדונזיה)	id-ID	איטלקית (איטליה)	it-IT
יפנית (יפן)	ja-JP	קוריאנית (קוריאה)	ko-KR
פורטוגזית (ברזיל)	pt-BR	רוסית (רוסיה)	ru-RU
הולנדית (הולנד)	nl-NL	פולנית (פולין)	pl-PL
תאית (תאילנד)	th-TH	טורקית (טורקיה)	tr-TR
וייטנאמית (וייטנאם)	vi-VN	רומנית (רומניה)	ro-RO
אוקראינית (אוקראינה)	uk-UA	בנגלית (בנגלדש)	bn-BD
אנגלית (הודו)	חבילה en-IN & hi-IN	מראטהית (הודו)	mr-IN
טמילית (הודו)	ta-IN	טלוגו (הודו)	te-IN

אם רוצים שהמודל ישיב בשפה שאינה אנגלית או תמיד בשפה מסוימת, אפשר להשפיע על התשובות של המודל באמצעות הוראות מערכת כמו הדוגמאות הבאות:

חיזוק ההבנה של המודל לגבי האפשרות להשתמש בשפה שאינה אנגלית

Listen to the speaker carefully. If you detect a non-English language, respond
in the language you hear from the speaker. You must respond unmistakably in the
speaker's language.

הנחיית המודל להשיב תמיד בשפה ספציפית

RESPOND IN LANGUAGE. YOU MUST RESPOND UNMISTAKABLY IN LANGUAGE.

תמלולים לקלט ופלט של אודיו

לוחצים על הספק Gemini API כדי לראות בדף הזה תוכן וקוד שספציפיים לספק.

כחלק מהתשובה של המודל, אתם יכולים לקבל תמלילים של קלט האודיו ושל תשובת האודיו של המודל. ההגדרה הזו היא חלק מהגדרת המודל.

כדי לתמלל את קלט האודיו, מוסיפים את התגית inputAudioTranscription.
כדי לתמלל את תשובת האודיו של המודל, מוסיפים את outputAudioTranscription.

שימו לב לנקודות הבאות:

אתם יכולים להגדיר את המודל כך שיחזיר תמלילים של הקלט וגם של הפלט (כמו בדוגמה הבאה), או להגדיר אותו כך שיחזיר רק אחד מהם.
התמלילים מועברים בסטרימינג יחד עם האודיו, ולכן מומלץ לאסוף אותם כמו חלקי טקסט בכל תור.
שפת התמלול נקבעת לפי קלט האודיו ותשובת האודיו של המודל.

Swift


// ...

let liveModel = FirebaseAI.firebaseAI(backend: .googleAI()).liveModel(
  modelName: "gemini-2.5-flash-native-audio-preview-09-2025",
  // Configure the model to return transcriptions of the audio input and output
  generationConfig: LiveGenerationConfig(
    responseModalities: [.audio],
    inputAudioTranscription: AudioTranscriptionConfig(),
    outputAudioTranscription: AudioTranscriptionConfig()
  )
)

var inputTranscript: String = ""
var outputTranscript: String = ""

do {
  let session = try await liveModel.connect()
  for try await response in session.responses {
    if case let .content(content) = response.payload {
      if let inputText = content.inputAudioTranscription?.text {
        // Handle transcription text of the audio input
        inputTranscript += inputText
      }

      if let outputText = content.outputAudioTranscription?.text {
        // Handle transcription text of the audio output
        outputTranscript += outputText
      }

      if content.isTurnComplete {
        // Log the transcripts after the current turn is complete
        print("Input audio: \(inputTranscript)")
        print("Output audio: \(outputTranscript)")

        // Reset the transcripts for the next turn
        inputTranscript = ""
        outputTranscript = ""
      }
    }
  }


} catch {
  // Handle error
}

// ...

Kotlin


// ...

val liveModel = Firebase.ai(backend = GenerativeBackend.googleAI()).liveModel(
    modelName = "gemini-2.5-flash-native-audio-preview-09-2025",
    // Configure the model to return transcriptions of the audio input and output
    generationConfig = liveGenerationConfig {
        responseModality = ResponseModality.AUDIO
        inputAudioTranscription = AudioTranscriptionConfig()
        outputAudioTranscription = AudioTranscriptionConfig()
   }
)

val liveSession = liveModel.connect()

fun handleTranscription(input: Transcription?, output: Transcription?) {
    input?.text?.let { text ->
        // Handle transcription text of the audio input
        println("Input Transcription: $text")
    }
    output?.text?.let { text ->
        // Handle transcription text of the audio output
        println("Output Transcription: $text")
    }
}

liveSession.startAudioConversation(null, ::handleTranscription)

// ...

Java


// ...

ExecutorService executor = Executors.newFixedThreadPool(1);

LiveGenerativeModel lm = FirebaseAI.getInstance(GenerativeBackend.googleAI()).liveModel(
    "gemini-2.5-flash-native-audio-preview-09-2025",
    // Configure the model to return transcriptions of the audio input and output
    new LiveGenerationConfig.Builder()
            .setResponseModality(ResponseModality.AUDIO)
            .setInputAudioTranscription(new AudioTranscriptionConfig())
            .setOutputAudioTranscription(new AudioTranscriptionConfig())
            .build()
    );

LiveModelFutures liveModel = LiveModelFutures.from(lm);
ListenableFuture sessionFuture = liveModel.connect();

Futures.addCallback(sessionFuture, new FutureCallback() {
    @Override
    public void onSuccess(LiveSessionFutures ses) {
        LiveSessionFutures session = ses;
        session.startAudioConversation((Transcription input, Transcription output) -> {
            if (input != null) {
                // Handle transcription text of the audio input
                System.out.println("Input Transcription: " + input.getText());
            }
            if (output != null) {
                // Handle transcription text of the audio output
                System.out.println("Output Transcription: " + output.getText());
            }
            return null;
        });
    }

    @Override
    public void onFailure(Throwable t) {
        // Handle exceptions
        t.printStackTrace();
    }
}, executor);

// ...

Web


// ...

const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });

const liveModel = getLiveGenerativeModel(ai, {
  model: 'gemini-2.5-flash-native-audio-preview-09-2025',
  // Configure the model to return transcriptions of the audio input and output
  generationConfig: {
    responseModalities: [ResponseModality.AUDIO],
    inputAudioTranscription: {},
    outputAudioTranscription: {},
  },
});

const liveSession = await liveModel.connect();

liveSession.sendAudioRealtime({ data, mimeType: "audio/pcm" });

const messages = liveSession.receive();
for await (const message of messages) {
  switch (message.type) {
    case 'serverContent':
      if (message.inputTranscription) {
        // Handle transcription text of the audio input
        console.log(`Input transcription: ${message.inputTranscription.text}`);
      }
      if (message.outputTranscription) {
        // Handle transcription text of the audio output
        console.log(`Output transcription: ${message.outputTranscription.text}`);
      } else {
      	 // Handle other message types (modelTurn, turnComplete, interruption)
      }
    default:
      // Handle other message types (toolCall, toolCallCancellation)
  }
}

// ...

Dart


// ...

final _liveModel = FirebaseAI.googleAI().liveGenerativeModel(
  model: 'gemini-2.5-flash-native-audio-preview-09-2025',
  // Configure the model to return transcriptions of the audio input and output
  liveGenerationConfig: LiveGenerationConfig(
    responseModalities: [ResponseModalities.audio],
    inputAudioTranscription: AudioTranscriptionConfig(),
    outputAudioTranscription: AudioTranscriptionConfig(),
  ),
);

final LiveSession _session = _liveModel.connect();

await for (final response in _session.receive()) {
  LiveServerContent message = response.message;
  if (message.inputTranscription?.text case final inputText?) {
    // Handle transcription text of the audio input
    print('Input: $inputText');
  }

  if (message.outputTranscription?.text case final outputText?) {
    // Handle transcription text of the audio output
    print('Output: $outputText');
  }
}

// ...

Unity


// ...

var liveModel = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI()).GetLiveModel(
    modelName: "gemini-2.5-flash-native-audio-preview-09-2025",
    // Configure the model to return transcriptions of the audio input and output
    liveGenerationConfig: new LiveGenerationConfig(
        responseModalities: new[] { ResponseModality.Audio },
        inputAudioTranscription: new AudioTranscriptionConfig(),
        outputAudioTranscription: new AudioTranscriptionConfig()
    )
);

try
{
    var session = await liveModel.ConnectAsync();
    var stream = session.ReceiveAsync();
    await foreach (var response in stream) {
        if (response.Message is LiveSessionContent sessionContent) {
            if (!string.IsNullOrEmpty(sessionContent.InputTranscription?.Text)) {
              // handle transcription text of input audio
            }

            if (!string.IsNullOrEmpty(sessionContent.OutputTranscription?.Text)) {
              // handle transcription text of output audio
            }
        }
    }
}
catch (Exception e)
{
    // Handle error
}

// ...

זיהוי פעילות קולית (VAD)

המודל מבצע באופן אוטומטי זיהוי פעילות קולית (VAD) בזרם קלט אודיו רציף. התכונה VAD מופעלת כברירת מחדל.

ניהול סשנים

מידע נוסף על נושאים שקשורים לסשנים:
- יכולות מתקדמות, כולל:
  - עדכון ההוראות למערכת באמצע הפעלה
  - הוספת עדכוני תוכן מצטברים
- מגבלות שקשורות לסשן, כולל מגבלות על חיבור ואורך סשן, מגבלות על חלון ההקשר של הסשן ומגבלות על קצב הבקשות.
Firebase AI Logic עדיין לא תומך בתכונות הבאות לניהול סשנים. בדוק שוב בקרוב!
- איך מתמודדים עם הפרעות
- הארכת משך הסשן
- המשך של סשן
- שמירה על ההקשר בין סשנים ובקשות
- דחיסת חלון ההקשר

אפשרויות ההגדרה של Live API קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

הקול והשפה של התשובה

הגדרת קול לתשובה

Swift

Kotlin

Java

Web

Dart

Unity

השפעה על שפת התשובה

תמלולים לקלט ופלט של אודיו

Swift

Kotlin

Java

Web

Dart

Unity

זיהוי פעילות קולית (VAD)

ניהול סשנים

אפשרויות ההגדרה של Live API