Die Gemini Live API verarbeitet kontinuierliche Audio- oder Textstreams, die als Sitzungen bezeichnet werden. Sie können den Sitzungslebenszyklus vom ersten Handshake bis zum ordnungsgemäßen Beenden verwalten.
Limits für Sitzungen
Bei Live API bezieht sich eine Sitzung auf eine dauerhafte Verbindung, bei der Ein- und Ausgabe kontinuierlich über eine Verbindung gestreamt werden.
Wenn die Sitzung eines der folgenden Limits überschreitet, wird die Verbindung beendet. Live API bietet jedoch einige Optionen (siehe unten), um diese sitzungsbezogenen Limits zu umgehen.
Das Kontextfenster der Sitzung ist auf 128.000 Tokens begrenzt.
Aufgrund dieses Kontextfensterlimits ergeben sich die folgenden ungefähren maximalen Sitzungslängen basierend auf den Eingabemodalitäten:
- Eingabesitzungen, die nur Audio enthalten, sind auf
15 Minuten begrenzt. - Video- und Audioeingaben sind auf
2 Minuten begrenzt.
- Eingabesitzungen, die nur Audio enthalten, sind auf
Die Verbindungsdauer ist auf etwa
10 Minuten begrenzt.Sie erhalten 60 Sekunden vor dem Ende der Verbindung eine Benachrichtigung über die bevorstehende Trennung.
Hier sind einige Optionen für den Umgang mit sitzungsbezogenen Limits:
Komprimieren Sie das Sitzungskontextfenster, damit der Server die Kontextgröße automatisch innerhalb des Limits hält.
Sitzung fortsetzen, um den Kontext der Unterhaltung bei kurzen Netzwerkunterbrechungen oder nach Erhalt einer Benachrichtigung über das Schließen der App nicht zu verlieren.
Sitzung starten
Im Startleitfaden für Live API finden Sie ein vollständiges Snippet, das zeigt, wie eine Sitzung gestartet wird.
Aktualisierung während der Sitzung
Die Live API-Modelle unterstützen die folgenden erweiterten Funktionen für Aktualisierungen während der Sitzung:
Systemanweisungen aktualisieren (nur für Vertex AI Gemini API)
Inkrementelle Inhaltsaktualisierungen hinzufügen
Sie können während einer aktiven Sitzung inkrementelle Updates hinzufügen. Damit können Sie Texteingaben senden, Sitzungskontext festlegen oder Sitzungskontext wiederherstellen.
Bei längeren Kontexten empfehlen wir, eine Zusammenfassung der einzelnen Nachrichten bereitzustellen, um das Kontextfenster für nachfolgende Interaktionen freizugeben.
Bei kurzen Kontexten können Sie Turn-by-Turn-Interaktionen senden, um die genaue Abfolge der Ereignisse darzustellen, wie im folgenden Snippet.
Swift
// Define initial turns (history/context).
let turns: [ModelContent] = [
ModelContent(role: "user", parts: [TextPart("What is the capital of France?")]),
ModelContent(role: "model", parts: [TextPart("Paris")]),
]
// Send history, keeping the conversational turn OPEN (false).
await session.sendContent(turns, turnComplete: false)
// Define the new user query.
let newTurn: [ModelContent] = [
ModelContent(role: "user", parts: [TextPart("What is the capital of Germany?")]),
]
// Send the final query, CLOSING the turn (true) to trigger the model response.
await session.sendContent(newTurn, turnComplete: true)
Kotlin
Not yet supported for Android apps - check back soon!
Java
Not yet supported for Android apps - check back soon!
Web
const turns = [{ text: "Hello from the user!" }];
await session.send(
turns,
false // turnComplete: false
);
console.log("Sent history. Waiting for next input...");
// Define the new user query.
const newTurn [{ text: "And what is the capital of Germany?" }];
// Send the final query, CLOSING the turn (true) to trigger the model response.
await session.send(
newTurn,
true // turnComplete: true
);
console.log("Sent final query. Model response expected now.");
Dart
// Define initial turns (history/context).
final List turns = [
Content(
"user",
[Part.text("What is the capital of France?")],
),
Content(
"model",
[Part.text("Paris")],
),
];
// Send history, keeping the conversational turn OPEN (false).
await session.send(
input: turns,
turnComplete: false,
);
// Define the new user query.
final List newTurn = [
Content(
"user",
[Part.text("What is the capital of Germany?")],
),
];
// Send the final query, CLOSING the turn (true) to trigger the model response.
await session.send(
input: newTurn,
turnComplete: true,
);
Einheit
// Define initial turns (history/context).
List turns = new List {
new ModelContent("user", new ModelContent.TextPart("What is the capital of France?") ),
new ModelContent("model", new ModelContent.TextPart("Paris") ),
};
// Send history, keeping the conversational turn OPEN (false).
foreach (ModelContent turn in turns)
{
await session.SendAsync(
content: turn,
turnComplete: false
);
}
// Define the new user query.
ModelContent newTurn = ModelContent.Text("What is the capital of Germany?");
// Send the final query, CLOSING the turn (true) to trigger the model response.
await session.SendAsync(
content: newTurn,
turnComplete: true
);
Systemanweisungen während einer Sitzung aktualisieren
| Nur verfügbar, wenn Sie Vertex AI Gemini API als API-Anbieter verwenden. |
Sie können die Systemanweisungen während einer aktiven Sitzung aktualisieren. Damit können Sie die Antworten des Modells anpassen, z. B. die Sprache oder den Ton ändern.
Wenn Sie die Systemanweisungen während der Sitzung aktualisieren möchten, können Sie Textinhalte mit der Rolle system senden. Die aktualisierten Systemanweisungen bleiben für den Rest der Sitzung in Kraft.
Swift
await session.sendContent(
[ModelContent(
role: "system",
parts: [TextPart("new system instruction")]
)],
turnComplete: false
)
Kotlin
Not yet supported for Android apps - check back soon!
Java
Not yet supported for Android apps - check back soon!
Web
Not yet supported for Web apps - check back soon!
Dart
try {
await _session.send(
input: Content(
'system',
[Part.text('new system instruction')],
),
turnComplete: false,
);
} catch (e) {
print('Failed to update system instructions: $e');
}
Einheit
try
{
await session.SendAsync(
content: new ModelContent(
"system",
new ModelContent.TextPart("new system instruction")
),
turnComplete: false
);
}
catch (Exception e)
{
Debug.LogError($"Failed to update system instructions: {e.Message}");
}
Kontextfenster komprimieren
|
Klicken Sie auf Ihren Gemini API-Anbieter, um anbieterspezifische Inhalte und Code auf dieser Seite aufzurufen. |
Im Live API Sitzungskontextfenster werden in Echtzeit gestreamte Daten (25 Tokens pro Sekunde (TPS) für Audio und 258 TPS für Video) sowie andere Inhalte wie Texteingaben und Modellausgaben gespeichert. Alle Live API-Modelle haben ein Sitzungskontextfensterlimit von 128.000 Tokens.
Aufgrund dieses Kontextfensterlimits gelten standardmäßig die folgenden ungefähren maximalen Sitzungslängen basierend auf den Eingabemodalitäten:
- Eingabesitzungen, die nur Audio enthalten, sind auf
15 Minuten begrenzt. - Video- und Audioeingaben sind auf
2 Minuten begrenzt.
Bei längeren Sitzungen wird im Laufe der Unterhaltung der Verlauf der Audio- und/oder Videotokens immer länger. Wenn dieser Verlauf das Limit des Modells überschreitet, kann es zu Halluzinationen kommen, die Verarbeitung kann sich verlangsamen oder die Sitzung kann zwangsweise beendet werden.
Wenn Sie längere Sitzungen ermöglichen möchten, können Sie die Kontextfensterkomprimierung aktivieren, indem Sie das Feld contextWindowCompression als Teil von LiveGenerationConfig festlegen. Wenn diese Option aktiviert ist, verwendet der Server einen Gleitfenstermechanismus, um die ältesten Anfragen automatisch zu verwerfen oder zusammenzufassen, damit die Kontextgröße innerhalb der Standard- oder angegebenen Grenzwerte bleibt. Systemanweisungen werden nicht verworfen und bleiben immer am Anfang des Kontextfensters.
Aus Nutzersicht sind so theoretisch unendlich lange Sitzungen möglich, da der „Speicher“ ständig verwaltet wird.
Sie können den Sliding-Window-Mechanismus sowie optional die Anzahl der Tokens konfigurieren, die die Komprimierung auslösen (siehe verfügbare Einstellungen und Werte unten). Hier sind einige allgemeine Überlegungen zur Verwendung dieser Einstellungen:
Wenn Sie
targetTokenssehr niedrig einstellen, wird mehr Kontext für fortlaufende Streams freigegeben, das Modell „vergisst“ aber schnell ältere Gesprächsrunden.Wenn Sie
targetTokensnäher antriggerTokensfestlegen, wird mehr Arbeitsspeicher freigegeben, aber es werden viel häufiger Komprimierungsroutinen ausgelöst.
| Einstellung | Standardwert für das gleitende Fenster, wenn in der Konfiguration kein Wert festgelegt ist | Mindestwert | Höchstwert |
|---|---|---|---|
triggerTokensDie Kontextlänge, bevor die Komprimierung ausgelöst wird |
80% des Kontextfensterlimits des Modells | 5.000 | 128.000 |
targetTokensDie Zielanzahl der beizubehaltenden Tokens |
50% des triggerTokens-Werts
|
0 | 128.000 |
Swift
// Initialize the Gemini Developer API backend service
let liveModel = FirebaseAI.firebaseAI(backend: .googleAI()).liveModel(
modelName: "gemini-2.5-flash-native-audio-preview-12-2025",
// Enable context window compression.
// (Optional) Configure the number of tokens in the context window that triggers the compression.
generationConfig: LiveGenerationConfig(
responseModalities: [.audio],
contextWindowCompression: ContextWindowCompressionConfig(
triggerTokens: 10000,
slidingWindow: SlidingWindow(
targetTokens: 2000,
)
)
)
)
Kotlin
// Initialize the Gemini Developer API backend service
val liveModel = Firebase.ai(backend = GenerativeBackend.googleAI()).liveModel(
modelName = "gemini-2.5-flash-native-audio-preview-12-2025",
// Enable context window compression.
// (Optional) Configure the number of tokens in the context window that triggers the compression.
generationConfig = liveGenerationConfig {
responseModality = ResponseModality.AUDIO,
contextWindowCompression = ContextWindowCompressionConfig(
triggerTokens = 10000,
slidingWindow = SlidingWindow(targetTokens = 2000)
)
}
)
Java
// Initialize the Gemini Developer API backend service
LiveGenerativeModel lm = FirebaseAI.getInstance(GenerativeBackend.googleAI()).liveModel(
"gemini-2.5-flash-native-audio-preview-12-2025",
// Enable context window compression.
// (Optional) Configure the number of tokens in the context window that triggers the compression.
new LiveGenerationConfig.Builder()
.setResponseModality(ResponseModality.AUDIO)
.setContextWindowCompression(
new ContextWindowCompressionConfig(10000, new SlidingWindow(2000))
)
.build()
);
Web
const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });
const liveModel = getLiveGenerativeModel(ai, {
model: "gemini-2.5-flash-native-audio-preview-12-2025",
// Enable context window compression.
// (Optional) Configure the number of tokens in the context window that triggers the compression.
generationConfig: {
responseModalities: [ResponseModality.AUDIO],
contextWindowCompression: {
triggerTokens: 10000,
slidingWindow: {
targetTokens: 2000,
},
},
},
});
Dart
final _liveModel = FirebaseAI.googleAI().liveGenerativeModel(
model: 'gemini-2.5-flash-native-audio-preview-12-2025',
// Enable context window compression.
// (Optional) Configure the number of tokens in the context window that triggers the compression.
liveGenerationConfig: LiveGenerationConfig(
responseModalities: [ResponseModalities.audio],
contextWindowCompression: ContextWindowCompressionConfig(
triggerTokens: 10000,
slidingWindow: SlidingWindow(targetTokens: 2000),
),
),
);
Einheit
var liveModel = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI()).GetLiveModel(
modelName: "gemini-2.5-flash-native-audio-preview-12-2025",
// Enable context window compression.
// (Optional) Configure the number of tokens in the context window that triggers the compression.
liveGenerationConfig: new LiveGenerationConfig(
responseModalities: new[] { ResponseModality.Audio },
contextWindowCompression: new ContextWindowCompressionConfig(
triggerTokens: 10000,
slidingWindow: new SlidingWindow(targetTokens: 2000)
)
)
);
Erkennen, wann eine Sitzung beendet wird
Die maximale Dauer einer einzelnen, kontinuierlichen WebSocket-Verbindung beträgt etwa
Das folgende Beispiel zeigt, wie Sie eine bevorstehende Verbindungsbeendigung erkennen, indem Sie auf eine going away-Benachrichtigung warten:
Swift
for try await response in session.responses {
switch response.payload {
case .goingAwayNotice(let goingAwayNotice):
// Prepare for the session to close soon
if let timeLeft = goingAwayNotice.timeLeft {
print("Server going away in \(timeLeft) seconds")
}
}
}
Kotlin
for (response in session.responses) {
when (val message = response.payload) {
is LiveServerGoAway -> {
// Prepare for the session to close soon
val remaining = message.timeLeft
logger.info("Server going away in $remaining")
}
}
}
Java
session.getResponses().forEach(response -> {
if (response.getPayload() instanceof LiveServerResponse.GoingAwayNotice) {
LiveServerResponse.GoingAwayNotice notice = (LiveServerResponse.GoingAwayNotice) response.getPayload();
// Prepare for the session to close soon
Duration timeLeft = notice.getTimeLeft();
}
});
Web
for await (const message of session.receive()) {
switch (message.type) {
...
case "goingAwayNotice":
console.log("Server going away. Time left:", message.timeLeft);
break;
}
}
Dart
Future _handleLiveServerMessage(LiveServerResponse response) async {
final message = response.message;
if (message is GoingAwayNotice) {
// Prepare for the session to close soon
developer.log('Server going away. Time left: ${message.timeLeft}');
}
}
Einheit
foreach (var response in session.Responses) {
if (response.Payload is LiveSessionGoingAway notice) {
// Prepare for the session to close soon
TimeSpan timeLeft = notice.TimeLeft;
Debug.Log($"Server going away notice received. Remaining: {timeLeft}");
}
}
Sitzung fortsetzen
Der Live API unterstützt die Wiederaufnahme von Sitzungen, um den Kontext von Unterhaltungen nicht zu verlieren. Jede Sitzung hat einen Handle, der auf folgende Weise verwendet werden kann:
Sitzung aufrechterhalten, bevor das Zeitlimit für die Verbindung erreicht wird
Die maximale Dauer einer einzelnen, kontinuierlichen WebSocket-Verbindung beträgt etwa
10 Minuten . Sie können erkennen, wann eine Verbindung beendet wird, indem Sie auf eine going away-Benachrichtigung warten und die Sitzung dann verlängern, indem Sie mit dem Sitzungshandle eine neue Verbindung herstellen.Sitzung direkt nach einem Verbindungsabbruch fortsetzen
Wenn eine Verbindung vor Ablauf des maximalen Zeitlimits für Verbindungen beendet oder unterbrochen wird (z. B. beim Wechsel von WLAN zu 5G), behält der Server den Sitzungsstatus etwa
10 Minuten lang bei. Während dieses Zeitraums können Sie die Sitzung fortsetzen, indem Sie mit dem Sitzungshandle eine neue Verbindung herstellen.Sitzung nach längerem Zeitraum fortsetzen
Nach dem Ende einer Verbindung behält der Server den Sitzungsstatus einige Stunden lang bei. Während dieses Zeitraums können Sie die Sitzung fortsetzen, indem Sie mit dem Sitzungshandle eine neue Verbindung herstellen. Beachten Sie, dass dieses Zeitfenster für die beiden Gemini API-Anbieter unterschiedlich ist: Gemini Developer API:
2 Stunden | Vertex AI Gemini API:24 Stunden .
Die Sitzungswiederaufnahme ist standardmäßig deaktiviert. Wenn Sie die Wiederaufnahme von Sitzungen aktivieren möchten, übergeben Sie beim Herstellen einer neuen Verbindung eine leere Wiederaufnahmekonfiguration. Wenn diese Option aktiviert ist, sendet der Server regelmäßig Updates mit einem Handle für die Wiederaufnahme der Sitzung. Wenn die Verbindung zur Sitzung getrennt wird, können Sie die Verbindung wiederherstellen und diesen Handle übergeben, um die Sitzung mit intaktem Kontext fortzusetzen.
Die folgenden Beispiele zeigen zwei Optionen zum Fortsetzen der Sitzung:
Swift
// Local variable to save the active session handle
var activeSessionHandle: String?
// Initialize the session. Passing an empty config requests the server to send SessionResumptionUpdate
var session = try await liveModel.connect(
sessionResumption: SessionResumptionConfig()
)
// Start receiving responses
for try await message in session.responses {
// Check for new session handles inside your message handling loop
switch message.payload {
case let .sessionResumptionUpdate(updateMessage):
guard let newHandle = updateMessage.newHandle, updateMessage.resumable else {
continue
}
activeSessionHandle = newHandle
print("SessionResumptionUpdate: handle \(newHandle)")
// ... handle other LiveServerMessage types ...
default:
break
}
}
// The following are alternative options to resume a session. Choose only one.
// Option 1: Create and connect a session to resume with the saved handle
if let handle = activeSessionHandle {
session = try await liveModel.connect(
sessionResumption: SessionResumptionConfig(handle: handle)
)
}
// Option 2: Resume the session directly on an existing session object
if let handle = activeSessionHandle {
try await session.resumeSession(
sessionResumption: SessionResumptionConfig(handle: handle)
)
}
Kotlin
// Local variable to save the active session handle
var activeSessionHandle: String? = null
// Initialize the session. Passing an empty config requests the server to send SessionResumptionUpdate
var session = liveModel.connect(
sessionResumption = SessionResumptionConfig()
)
// Start receiving responses
session.receive().collect { message ->
// Process other received response types...
// Check for new session handles inside your message handling loop
if (message is LiveSessionResumptionUpdate) {
if (message.resumable == true && message.newHandle != null) {
activeSessionHandle = message.newHandle
Log.d("TAG", "SessionResumptionUpdate: handle ${message.newHandle}")
}
}
}
// The following are alternative options to resume a session. Choose only one.
// Option 1: Create and connect a session to resume with the saved handle
activeSessionHandle?.let { handle ->
session = liveModel.connect(
sessionResumption = SessionResumptionConfig(handle = handle)
)
}
// Option 2: Resume the session directly on an existing session object
activeSessionHandle?.let { handle ->
session.resumeSession(
sessionResumption = SessionResumptionConfig(handle = handle)
)
}
Java
For Java, session resumption is not yet supported. Check back soon!
Web
// Local variable to save the active session handle
let activeSessionHandle = null;
// Initialize the session. Passing an empty object requests the server to send SessionResumptionUpdate
let session = await liveModel.connect({});
// Start receiving responses
for await (const message of session.receive()) {
// Process other received response types...
// Check for new session handles inside your message handling loop
if (message.type === 'sessionResumptionUpdate') {
if (message.resumable && message.newHandle) {
activeSessionHandle = message.newHandle;
console.log(`SessionResumptionUpdate: handle ${activeSessionHandle}`);
}
}
}
// The following are alternative options to resume a session. Choose only one.
// Option 1: Create and connect a session to resume with the saved handle
if (activeSessionHandle) {
session = await liveModel.connect({
handle: activeSessionHandle
});
}
// Option 2: Resume the session directly on an existing session object
if (activeSessionHandle) {
await session.resumeSession({
handle: activeSessionHandle
});
}
Dart
// Local variable to save the active session handle
String? _activeSessionHandle;
// Initialize the session. Passing an empty config requests the server to send SessionResumptionUpdate
var _session = await _liveModel.connect(
sessionResumption: SessionResumptionConfig(),
);
// Start receiving responses
await for (final message in _session.receive()) {
// Process other received response types...
// Check for new session handles inside your message handling loop
if (message is SessionResumptionUpdate &&
message.resumable != null &&
message.resumable!) {
_activeSessionHandle = message.newHandle;
log('SessionResumptionUpdate: handle ${message.newHandle}');
}
}
// The following are alternative options to resume a session. Choose only one.
// Option 1: Create and connect a session to resume with the saved handle
if (_activeSessionHandle != null) {
_session = await _liveModel.connect(
sessionResumption: SessionResumptionConfig.resume(_activeSessionHandle!),
);
}
// Option 2: Alternatively, resume the session directly on an existing session object
if (_activeSessionHandle != null) {
await _session.resumeSession(
sessionResumption: SessionResumptionConfig.resume(_activeSessionHandle!),
);
}
Einheit
// Local variable to save the active session handle
string activeSessionHandle = null;
// Initialize the session. Passing an empty config requests the server to send SessionResumptionUpdate
var session = await liveModel.ConnectAsync(
sessionResumption: new SessionResumptionConfig()
);
// Start receiving responses
await foreach (var response in session.ReceiveAsync())
{
// Process other received response types...
// Check for new session handles inside your message handling loop
if (response.Message is LiveSessionResumptionUpdate updateMessage)
{
if (updateMessage.Resumable == true && !string.IsNullOrEmpty(updateMessage.NewHandle))
{
activeSessionHandle = updateMessage.NewHandle;
Debug.Log($"SessionResumptionUpdate: handle {activeSessionHandle}");
}
}
}
// The following are alternative options to resume a session. Choose only one.
// Option 1: Create and connect a session to resume with the saved handle
if (!string.IsNullOrEmpty(activeSessionHandle)) {
session = await liveModel.ConnectAsync(
sessionResumption: new SessionResumptionConfig(activeSessionHandle)
);
}
// Option 2: Resume the session directly on an existing session object
if (!string.IsNullOrEmpty(activeSessionHandle)) {
await session.ResumeSessionAsync(
sessionResumption: new SessionResumptionConfig(activeSessionHandle)
);
}