Puedes pedirle a un Gemini modelo que genere texto a partir de una instrucción de solo texto o una instrucción multimodal. Cuando usas Firebase AI Logic, puedes hacer esta solicitud directamente desde tu app.
Las instrucciones multimodales pueden incluir varios tipos de entrada (como texto junto con imágenes, archivos PDF, archivos de texto sin formato, audio y video).
En esta guía, se muestra cómo generar texto a partir de una instrucción de solo texto y de una instrucción multimodal básica que incluye un archivo.
Ir al código para la entrada de solo texto Ir al código para la entrada multimodal Ir al código para las respuestas transmitidas
|
Consulta otras guías para obtener opciones adicionales para trabajar con texto Generar resultados estructurados Chat de varios turnos Transmisión bidireccional Generar texto en el dispositivo Generar imágenes a partir de texto |
Antes de comenzar
|
Haz clic en tu proveedor de Gemini API para ver el contenido específico del proveedor y el código en esta página. |
Si aún no lo hiciste, completa la
guía de introducción, en la que se describe cómo
configurar tu proyecto de Firebase, conectar tu app a Firebase, agregar el SDK,
inicializar el servicio de backend para el proveedor de Gemini API que elijas y
crear una instancia de GenerativeModel.
Para probar y, luego, iterar tus instrucciones, te recomendamos que uses Google AI Studio.
Genera texto a partir de entradas de solo texto
|
Antes de probar este ejemplo, completa la sección
Antes de comenzar de esta guía
para configurar tu proyecto y tu app. En esa sección, también harás clic en un botón para el Gemini API proveedor que elijas, de modo que veas contenido específico del proveedor en esta página. |
Puedes pedirle a un Gemini modelo que genere texto con una instrucción de entrada de solo texto.
Swift
Puedes llamar a
generateContent()
para generar texto a partir de entradas de solo texto.
import FirebaseAILogic
// Initialize the Gemini Developer API backend service
let ai = FirebaseAI.firebaseAI(backend: .googleAI())
// Create a `GenerativeModel` instance with a model that supports your use case
let model = ai.generativeModel(modelName: "gemini-3-flash-preview")
// Provide a prompt that contains text
let prompt = "Write a story about a magic backpack."
// To generate text output, call generateContent with the text input
let response = try await model.generateContent(prompt)
print(response.text ?? "No text in response.")
Kotlin
Puedes llamar a
generateContent()
para generar texto a partir de entradas de solo texto.
// Initialize the Gemini Developer API backend service
// Create a `GenerativeModel` instance with a model that supports your use case
val model = Firebase.ai(backend = GenerativeBackend.googleAI())
.generativeModel("gemini-3-flash-preview")
// Provide a prompt that contains text
val prompt = "Write a story about a magic backpack."
// To generate text output, call generateContent with the text input
val response = model.generateContent(prompt)
print(response.text)
Java
Puedes llamar a
generateContent()
para generar texto a partir de entradas de solo texto.
ListenableFuture.
// Initialize the Gemini Developer API backend service
// Create a `GenerativeModel` instance with a model that supports your use case
GenerativeModel ai = FirebaseAI.getInstance(GenerativeBackend.googleAI())
.generativeModel("gemini-3-flash-preview");
// Use the GenerativeModelFutures Java compatibility layer which offers
// support for ListenableFuture and Publisher APIs
GenerativeModelFutures model = GenerativeModelFutures.from(ai);
// Provide a prompt that contains text
Content prompt = new Content.Builder()
.addText("Write a story about a magic backpack.")
.build();
// To generate text output, call generateContent with the text input
ListenableFuture<GenerateContentResponse> response = model.generateContent(prompt);
Futures.addCallback(response, new FutureCallback<GenerateContentResponse>() {
@Override
public void onSuccess(GenerateContentResponse result) {
String resultText = result.getText();
System.out.println(resultText);
}
@Override
public void onFailure(Throwable t) {
t.printStackTrace();
}
}, executor);
Web
Puedes llamar a
generateContent()
para generar texto a partir de entradas de solo texto.
import { initializeApp } from "firebase/app";
import { getAI, getGenerativeModel, GoogleAIBackend } from "firebase/ai";
// TODO(developer) Replace the following with your app's Firebase configuration
// See: https://firebase.google.com/docs/web/learn-more#config-object
const firebaseConfig = {
// ...
};
// Initialize FirebaseApp
const firebaseApp = initializeApp(firebaseConfig);
// Initialize the Gemini Developer API backend service
const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });
// Create a `GenerativeModel` instance with a model that supports your use case
const model = getGenerativeModel(ai, { model: "gemini-3-flash-preview" });
// Wrap in an async function so you can use await
async function run() {
// Provide a prompt that contains text
const prompt = "Write a story about a magic backpack."
// To generate text output, call generateContent with the text input
const result = await model.generateContent(prompt);
const response = result.response;
const text = response.text();
console.log(text);
}
run();
Dart
Puedes llamar a
generateContent()
para generar texto a partir de entradas de solo texto.
import 'package:firebase_ai/firebase_ai.dart';
import 'package:firebase_core/firebase_core.dart';
import 'firebase_options.dart';
// Initialize FirebaseApp
await Firebase.initializeApp(
options: DefaultFirebaseOptions.currentPlatform,
);
// Initialize the Gemini Developer API backend service
// Create a `GenerativeModel` instance with a model that supports your use case
final model =
FirebaseAI.googleAI().generativeModel(model: 'gemini-3-flash-preview');
// Provide a prompt that contains text
final prompt = [Content.text('Write a story about a magic backpack.')];
// To generate text output, call generateContent with the text input
final response = await model.generateContent(prompt);
print(response.text);
Unity
Puedes llamar a
GenerateContentAsync()
para generar texto a partir de entradas de solo texto.
using Firebase;
using Firebase.AI;
// Initialize the Gemini Developer API backend service
var ai = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI());
// Create a `GenerativeModel` instance with a model that supports your use case
var model = ai.GetGenerativeModel(modelName: "gemini-3-flash-preview");
// Provide a prompt that contains text
var prompt = "Write a story about a magic backpack.";
// To generate text output, call GenerateContentAsync with the text input
var response = await model.GenerateContentAsync(prompt);
UnityEngine.Debug.Log(response.Text ?? "No text in response.");
Obtén información para elegir un modelo adecuada para tu caso de uso y tu app.
Genera texto a partir de entradas de texto y archivos (multimodales)
|
Antes de probar este ejemplo, completa la sección
Antes de comenzar de esta guía
para configurar tu proyecto y tu app. En esa sección, también harás clic en un botón para el Gemini API proveedor que elijas, de modo que veas contenido específico del proveedor en esta página. |
Puedes pedirle a un Gemini modelo que
genere texto con una instrucción de texto y un archivo, proporcionando el mimeType de cada archivo de entrada y el archivo en sí. Encontrarás
los requisitos y las recomendaciones para los archivos de entrada
más adelante en esta página.
En el siguiente ejemplo, se muestran los aspectos básicos para generar texto a partir de una entrada de archivo mediante el análisis de un solo archivo de video proporcionado como datos intercalados (archivo codificado en base64).
Ten en cuenta que este ejemplo muestra cómo proporcionar el archivo intercalado, pero los SDKs también admiten proporcionar una URL de YouTube.
Swift
Puedes llamar a
generateContent()
para generar texto a partir de entradas multimodales de texto y archivos de video.
import FirebaseAILogic
// Initialize the Gemini Developer API backend service
let ai = FirebaseAI.firebaseAI(backend: .googleAI())
// Create a `GenerativeModel` instance with a model that supports your use case
let model = ai.generativeModel(modelName: "gemini-3-flash-preview")
// Provide the video as `Data` with the appropriate MIME type.
let video = InlineDataPart(data: try Data(contentsOf: videoURL), mimeType: "video/mp4")
// Provide a text prompt to include with the video
let prompt = "What is in the video?"
// To generate text output, call generateContent with the text and video
let response = try await model.generateContent(video, prompt)
print(response.text ?? "No text in response.")
Kotlin
Puedes llamar a
generateContent()
para generar texto a partir de entradas multimodales de texto y archivos de video.
// Initialize the Gemini Developer API backend service
// Create a `GenerativeModel` instance with a model that supports your use case
val model = Firebase.ai(backend = GenerativeBackend.googleAI())
.generativeModel("gemini-3-flash-preview")
val contentResolver = applicationContext.contentResolver
contentResolver.openInputStream(videoUri).use { stream ->
stream?.let {
val bytes = stream.readBytes()
// Provide a prompt that includes the video specified above and text
val prompt = content {
inlineData(bytes, "video/mp4")
text("What is in the video?")
}
// To generate text output, call generateContent with the prompt
val response = model.generateContent(prompt)
Log.d(TAG, response.text ?: "")
}
}
Java
Puedes llamar a
generateContent()
para generar texto a partir de entradas multimodales de texto y archivos de video.
ListenableFuture.
// Initialize the Gemini Developer API backend service
// Create a `GenerativeModel` instance with a model that supports your use case
GenerativeModel ai = FirebaseAI.getInstance(GenerativeBackend.googleAI())
.generativeModel("gemini-3-flash-preview");
// Use the GenerativeModelFutures Java compatibility layer which offers
// support for ListenableFuture and Publisher APIs
GenerativeModelFutures model = GenerativeModelFutures.from(ai);
ContentResolver resolver = getApplicationContext().getContentResolver();
try (InputStream stream = resolver.openInputStream(videoUri)) {
File videoFile = new File(new URI(videoUri.toString()));
int videoSize = (int) videoFile.length();
byte[] videoBytes = new byte[videoSize];
if (stream != null) {
stream.read(videoBytes, 0, videoBytes.length);
stream.close();
// Provide a prompt that includes the video specified above and text
Content prompt = new Content.Builder()
.addInlineData(videoBytes, "video/mp4")
.addText("What is in the video?")
.build();
// To generate text output, call generateContent with the prompt
ListenableFuture<GenerateContentResponse> response = model.generateContent(prompt);
Futures.addCallback(response, new FutureCallback<GenerateContentResponse>() {
@Override
public void onSuccess(GenerateContentResponse result) {
String resultText = result.getText();
System.out.println(resultText);
}
@Override
public void onFailure(Throwable t) {
t.printStackTrace();
}
}, executor);
}
} catch (IOException e) {
e.printStackTrace();
} catch (URISyntaxException e) {
e.printStackTrace();
}
Web
Puedes llamar a
generateContent()
para generar texto a partir de entradas multimodales de texto y archivos de video.
import { initializeApp } from "firebase/app";
import { getAI, getGenerativeModel, GoogleAIBackend } from "firebase/ai";
// TODO(developer) Replace the following with your app's Firebase configuration
// See: https://firebase.google.com/docs/web/learn-more#config-object
const firebaseConfig = {
// ...
};
// Initialize FirebaseApp
const firebaseApp = initializeApp(firebaseConfig);
// Initialize the Gemini Developer API backend service
const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });
// Create a `GenerativeModel` instance with a model that supports your use case
const model = getGenerativeModel(ai, { model: "gemini-3-flash-preview" });
// Converts a File object to a Part object.
async function fileToGenerativePart(file) {
const base64EncodedDataPromise = new Promise((resolve) => {
const reader = new FileReader();
reader.onloadend = () => resolve(reader.result.split(',')[1]);
reader.readAsDataURL(file);
});
return {
inlineData: { data: await base64EncodedDataPromise, mimeType: file.type },
};
}
async function run() {
// Provide a text prompt to include with the video
const prompt = "What do you see?";
const fileInputEl = document.querySelector("input[type=file]");
const videoPart = await fileToGenerativePart(fileInputEl.files[0]);
// To generate text output, call generateContent with the text and video
const result = await model.generateContent([prompt, videoPart]);
const response = result.response;
const text = response.text();
console.log(text);
}
run();
Dart
Puedes llamar a
generateContent()
para generar texto a partir de entradas multimodales de texto y archivos de video.
import 'package:firebase_ai/firebase_ai.dart';
import 'package:firebase_core/firebase_core.dart';
import 'firebase_options.dart';
// Initialize FirebaseApp
await Firebase.initializeApp(
options: DefaultFirebaseOptions.currentPlatform,
);
// Initialize the Gemini Developer API backend service
// Create a `GenerativeModel` instance with a model that supports your use case
final model =
FirebaseAI.googleAI().generativeModel(model: 'gemini-3-flash-preview');
// Provide a text prompt to include with the video
final prompt = TextPart("What's in the video?");
// Prepare video for input
final video = await File('video0.mp4').readAsBytes();
// Provide the video as `Data` with the appropriate mimetype
final videoPart = InlineDataPart('video/mp4', video);
// To generate text output, call generateContent with the text and images
final response = await model.generateContent([
Content.multi([prompt, ...videoPart])
]);
print(response.text);
Unity
Puedes llamar a
GenerateContentAsync()
para generar texto a partir de entradas multimodales de texto y archivos de video.
using Firebase;
using Firebase.AI;
// Initialize the Gemini Developer API backend service
var ai = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI());
// Create a `GenerativeModel` instance with a model that supports your use case
var model = ai.GetGenerativeModel(modelName: "gemini-3-flash-preview");
// Provide the video as `data` with the appropriate MIME type.
var video = ModelContent.InlineData("video/mp4",
System.IO.File.ReadAllBytes(System.IO.Path.Combine(
UnityEngine.Application.streamingAssetsPath, "yourVideo.mp4")));
// Provide a text prompt to include with the video
var prompt = ModelContent.Text("What is in the video?");
// To generate text output, call GenerateContentAsync with the text and video
var response = await model.GenerateContentAsync(new [] { video, prompt });
UnityEngine.Debug.Log(response.Text ?? "No text in response.");
Obtén información para elegir un modelo adecuada para tu caso de uso y tu app.
Transmite la respuesta
|
Antes de probar este ejemplo, completa la sección
Antes de comenzar de esta guía
para configurar tu proyecto y tu app. En esa sección, también harás clic en un botón para el Gemini API proveedor que elijas, de modo que veas contenido específico del proveedor en esta página. |
Puedes lograr interacciones más rápidas si no esperas el resultado completo de la generación del modelo y, en su lugar, usas la transmisión para controlar los resultados parciales.
Para transmitir la respuesta, llama a generateContentStream.
Requisitos y recomendaciones para los archivos de imagen de entrada
Ten en cuenta que un archivo proporcionado como datos intercalados se codifica en base64 en tránsito, lo que aumenta el tamaño de la solicitud. Recibirás un error HTTP 413 si una solicitud es demasiado grande.
Consulta Archivos de entrada admitidos y requisitos para Vertex AI Gemini API para obtener información detallada sobre lo siguiente:
- Diferentes opciones para proporcionar un archivo en una solicitud (ya sea intercalado o con la URL o el URI del archivo)
- Tipos de archivos admitidos
- Tipos de MIME admitidos y cómo especificarlos
- Requisitos y prácticas recomendadas para archivos y solicitudes multimodales
¿Qué más puedes hacer?
- Obtén información para contar tokens antes de enviar instrucciones largas al modelo.
- Configura Cloud Storage for Firebase para poder incluir archivos grandes en tus solicitudes multimodales y tener una solución más administrada para proporcionar archivos en instrucciones. Los archivos pueden incluir imágenes, archivos PDF, video y audio.
-
Comienza a pensar en prepararte para la producción (consulta la
lista de tareas de producción):
- Configura Firebase App Check lo antes posible para ayudar a proteger Gemini API contra el abuso de clientes no autorizados.
- Integrate Firebase Remote Config para actualizar valores en tu app (como el nombre del modelo) sin lanzar una versión nueva de la app version.
Prueba otras capacidades
- Crea conversaciones de varios turnos (chat).
- Genera texto a partir de instrucciones de solo texto.
- Genera resultados estructurados (como JSON) a partir de instrucciones de texto y multimodales.
- Genera y edita imágenes a partir de instrucciones de texto y multimodales.
- Transmite entradas y salidas (incluido el audio) con la Gemini Live API.
- Usa herramientas (como la llamada a función y la fundamentación con la Búsqueda de Google) para conectar un modelo Gemini a otras partes de tu app y a sistemas e información externos.
Obtén información para controlar la generación de contenido
- Comprende el diseño de instrucciones, incluidas las prácticas recomendadas, las estrategias y los ejemplos de instrucciones.
- Configura los parámetros del modelo como la temperatura y la cantidad máxima de tokens de salida.
- Usa la configuración de seguridad para ajustar la probabilidad de obtener respuestas que puedan considerarse dañinas.
Obtén más información sobre los modelos admitidos
Obtén información sobre los modelos disponibles para varios casos de uso y sus cuotas y precios.Envía comentarios sobre tu experiencia con Firebase AI Logic