Puedes pedirle a un Gemini modelo que analice archivos de documentos (como PDFs y archivos de texto sin formato) que proporciones de forma intercalada (codificados en base64) o a través de una URL. Cuando usas Firebase AI Logic, puedes realizar esta solicitud directamente desde tu app.
Con esta capacidad, puedes hacer lo siguiente:
- Analizar diagramas, gráficos y tablas dentro de los documentos
- Extraer información en formatos de salida estructurados
- Responder preguntas sobre el contenido visual y de texto en los documentos
- Resumir documentos
- Transcribir contenido de documentos (por ejemplo, a HTML), preservar diseños y formatos para usar en aplicaciones posteriores (como en canalizaciones de RAG)
Ir a ejemplos de código Ir al código de respuestas transmitidas
|
Consulta otras guías para obtener opciones adicionales para trabajar con documentos (como PDFs) Generar resultados estructurados Chat de varios turnos |
Antes de comenzar
|
Haz clic en tu proveedor de Gemini API para ver el contenido específico del proveedor y el código en esta página. |
Si aún no lo hiciste, completa la
guía de introducción, en la que se describe cómo
configurar tu proyecto de Firebase, conectar tu app a Firebase, agregar el SDK,
inicializar el servicio de backend para el proveedor de Gemini API que elijas y
crear una instancia de GenerativeModel.
Para probar y, luego, iterar tus instrucciones, te recomendamos usar Google AI Studio.
Genera texto a partir de archivos PDF (codificados en base64)
|
Antes de probar esta muestra, completa la sección
Antes de comenzar de esta guía
para configurar tu proyecto y tu app. En esa sección, también harás clic en un botón para el proveedor de la API de Gemini que elijas, Gemini API de modo que veas contenido específico del proveedor en esta página. |
Puedes pedirle a un Gemini modelo que
genere texto con instrucciones de texto y PDFs, proporcionando el
archivo de entrada de cada mimeType y el archivo en sí. Encontrarás
los requisitos y las recomendaciones para los archivos de entrada
más adelante en esta página.
Swift
Puedes llamar a
generateContent()
para generar texto a partir de la entrada multimodal de texto y PDFs.
import FirebaseAILogic
// Initialize the Gemini Developer API backend service
let ai = FirebaseAI.firebaseAI(backend: .googleAI())
// Create a `GenerativeModel` instance with a model that supports your use case
let model = ai.generativeModel(modelName: "gemini-3-flash-preview")
// Provide the PDF as `Data` with the appropriate MIME type
let pdf = try InlineDataPart(data: Data(contentsOf: pdfURL), mimeType: "application/pdf")
// Provide a text prompt to include with the PDF file
let prompt = "Summarize the important results in this report."
// To generate text output, call `generateContent` with the PDF file and text prompt
let response = try await model.generateContent(pdf, prompt)
// Print the generated text, handling the case where it might be nil
print(response.text ?? "No text in response.")
Kotlin
Puedes llamar a
generateContent()
para generar texto a partir de la entrada multimodal de texto y PDFs.
// Initialize the Gemini Developer API backend service
// Create a `GenerativeModel` instance with a model that supports your use case
val model = Firebase.ai(backend = GenerativeBackend.googleAI())
.generativeModel("gemini-3-flash-preview")
val contentResolver = applicationContext.contentResolver
// Provide the URI for the PDF file you want to send to the model
val inputStream = contentResolver.openInputStream(pdfUri)
if (inputStream != null) { // Check if the PDF file loaded successfully
inputStream.use { stream ->
// Provide a prompt that includes the PDF file specified above and text
val prompt = content {
inlineData(
bytes = stream.readBytes(),
mimeType = "application/pdf" // Specify the appropriate PDF file MIME type
)
text("Summarize the important results in this report.")
}
// To generate text output, call `generateContent` with the prompt
val response = model.generateContent(prompt)
// Log the generated text, handling the case where it might be null
Log.d(TAG, response.text ?: "")
}
} else {
Log.e(TAG, "Error getting input stream for file.")
// Handle the error appropriately
}
Java
Puedes llamar a
generateContent()
para generar texto a partir de la entrada multimodal de texto y PDFs.
ListenableFuture.
// Initialize the Gemini Developer API backend service
// Create a `GenerativeModel` instance with a model that supports your use case
GenerativeModel ai = FirebaseAI.getInstance(GenerativeBackend.googleAI())
.generativeModel("gemini-3-flash-preview");
// Use the GenerativeModelFutures Java compatibility layer which offers
// support for ListenableFuture and Publisher APIs
GenerativeModelFutures model = GenerativeModelFutures.from(ai);
ContentResolver resolver = getApplicationContext().getContentResolver();
// Provide the URI for the PDF file you want to send to the model
try (InputStream stream = resolver.openInputStream(pdfUri)) {
if (stream != null) {
byte[] audioBytes = stream.readAllBytes();
stream.close();
// Provide a prompt that includes the PDF file specified above and text
Content prompt = new Content.Builder()
.addInlineData(audioBytes, "application/pdf") // Specify the appropriate PDF file MIME type
.addText("Summarize the important results in this report.")
.build();
// To generate text output, call `generateContent` with the prompt
ListenableFuture<GenerateContentResponse> response = model.generateContent(prompt);
Futures.addCallback(response, new FutureCallback<GenerateContentResponse>() {
@Override
public void onSuccess(GenerateContentResponse result) {
String text = result.getText();
Log.d(TAG, (text == null) ? "" : text);
}
@Override
public void onFailure(Throwable t) {
Log.e(TAG, "Failed to generate a response", t);
}
}, executor);
} else {
Log.e(TAG, "Error getting input stream for file.");
// Handle the error appropriately
}
} catch (IOException e) {
Log.e(TAG, "Failed to read the pdf file", e);
} catch (URISyntaxException e) {
Log.e(TAG, "Invalid pdf file", e);
}
Web
Puedes llamar a
generateContent()
para generar texto a partir de la entrada multimodal de texto y PDFs.
import { initializeApp } from "firebase/app";
import { getAI, getGenerativeModel, GoogleAIBackend } from "firebase/ai";
// TODO(developer) Replace the following with your app's Firebase configuration
// See: https://firebase.google.com/docs/web/learn-more#config-object
const firebaseConfig = {
// ...
};
// Initialize FirebaseApp
const firebaseApp = initializeApp(firebaseConfig);
// Initialize the Gemini Developer API backend service
const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });
// Create a `GenerativeModel` instance with a model that supports your use case
const model = getGenerativeModel(ai, { model: "gemini-3-flash-preview" });
// Converts a File object to a Part object.
async function fileToGenerativePart(file) {
const base64EncodedDataPromise = new Promise((resolve) => {
const reader = new FileReader();
reader.onloadend = () => resolve(reader.result.split(','));
reader.readAsDataURL(file);
});
return {
inlineData: { data: await base64EncodedDataPromise, mimeType: file.type },
};
}
async function run() {
// Provide a text prompt to include with the PDF file
const prompt = "Summarize the important results in this report.";
// Prepare PDF file for input
const fileInputEl = document.querySelector("input[type=file]");
const pdfPart = await fileToGenerativePart(fileInputEl.files);
// To generate text output, call `generateContent` with the text and PDF file
const result = await model.generateContent([prompt, pdfPart]);
// Log the generated text, handling the case where it might be undefined
console.log(result.response.text() ?? "No text in response.");
}
run();
Dart
Puedes llamar a
generateContent()
para generar texto a partir de la entrada multimodal de texto y PDFs.
import 'package:firebase_ai/firebase_ai.dart';
import 'package:firebase_core/firebase_core.dart';
import 'firebase_options.dart';
// Initialize FirebaseApp
await Firebase.initializeApp(
options: DefaultFirebaseOptions.currentPlatform,
);
// Initialize the Gemini Developer API backend service
// Create a `GenerativeModel` instance with a model that supports your use case
final model =
FirebaseAI.googleAI().generativeModel(model: 'gemini-3-flash-preview');
// Provide a text prompt to include with the PDF file
final prompt = TextPart("Summarize the important results in this report.");
// Prepare the PDF file for input
final doc = await File('document0.pdf').readAsBytes();
// Provide the PDF file as `Data` with the appropriate PDF file MIME type
final docPart = InlineDataPart('application/pdf', doc);
// To generate text output, call `generateContent` with the text and PDF file
final response = await model.generateContent([
Content.multi([prompt,docPart])
]);
// Print the generated text
print(response.text);
Unity
Puedes llamar a
GenerateContentAsync()
para generar texto a partir de la entrada multimodal de texto y PDFs.
using Firebase;
using Firebase.AI;
// Initialize the Gemini Developer API backend service
var ai = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI());
// Create a `GenerativeModel` instance with a model that supports your use case
var model = ai.GetGenerativeModel(modelName: "gemini-3-flash-preview");
// Provide a text prompt to include with the PDF file
var prompt = ModelContent.Text("Summarize the important results in this report.");
// Provide the PDF file as `data` with the appropriate PDF file MIME type
var doc = ModelContent.InlineData("application/pdf",
System.IO.File.ReadAllBytes(System.IO.Path.Combine(
UnityEngine.Application.streamingAssetsPath, "document0.pdf")));
// To generate text output, call `GenerateContentAsync` with the text and PDF file
var response = await model.GenerateContentAsync(new [] { prompt, doc });
// Print the generated text
UnityEngine.Debug.Log(response.Text ?? "No text in response.");
Obtén información para elegir un modelo adecuada para tu caso de uso y tu app.
Transmite la respuesta
|
Antes de probar esta muestra, completa la sección
Antes de comenzar de esta guía
para configurar tu proyecto y tu app. En esa sección, también harás clic en un botón para el proveedor de la API de Gemini que elijas, Gemini API de modo que veas contenido específico del proveedor en esta página. |
Puedes lograr interacciones más rápidas si no esperas el resultado completo de la generación del modelo y, en su lugar, usas la transmisión para controlar los resultados parciales.
Para transmitir la respuesta, llama a generateContentStream.
Requisitos y recomendaciones para documentos de entrada
Ten en cuenta que un archivo proporcionado como datos intercalados se codifica en base64 en tránsito, lo que aumenta el tamaño de la solicitud. Recibirás un error HTTP 413 si una solicitud es demasiado grande.
Consulta la página "Archivos de entrada y requisitos admitidos" para obtener información detallada sobre lo siguiente:
- Diferentes opciones para proporcionar un archivo en una solicitud (ya sea intercalado o con la URL o el URI del archivo)
- Requisitos y prácticas recomendadas para archivos de documentos
Tipos de MIME de documentos admitidos
Gemini modelos multimodales admiten los siguientes tipos de MIME de documento:
- PDF -
application/pdf - Texto -
text/plain
Límites por solicitud
Los PDFs se tratan como imágenes, por lo que una sola página de un PDF se considera una sola imagen. La cantidad de páginas permitidas en una instrucción se limita a la cantidad de imágenes que pueden admitir los Gemini modelos multimodales.
- Cantidad máxima de archivos por solicitud: 3,000 archivos
- Cantidad máxima de páginas por archivo: 1,000 páginas por archivo
- Tamaño máximo por archivo: 50 MB por archivo
¿Qué más puedes hacer?
- Obtén información para contar tokens antes de enviar instrucciones largas al modelo.
- Configura Cloud Storage for Firebase para poder incluir archivos grandes en tus solicitudes multimodales y tener una solución más administrada para proporcionar archivos en instrucciones. Los archivos pueden incluir imágenes, PDFs, videos y audio.
-
Comienza a pensar en prepararte para la producción (consulta la
lista de tareas de producción):
- Configura Firebase App Check lo antes posible para ayudar a proteger Gemini API contra el abuso de clientes no autorizados.
- Integrate Firebase Remote Config para actualizar valores en tu app (como el nombre del modelo) sin lanzar una versión nueva de la app version.
Prueba otras capacidades
- Crea conversaciones de varios turnos (chat).
- Genera texto a partir de instrucciones solo de texto.
- Genera resultados estructurados (como JSON) a partir de instrucciones de texto y multimodales.
- Genera y edita imágenes a partir de instrucciones de texto y multimodales.
- Usa herramientas (como la llamada a función y la fundamentación con la Búsqueda de Google) para conectar un modelo Gemini a otras partes de tu app y a sistemas e información externos.
Obtén información para controlar la generación de contenido
- Comprende el diseño de instrucciones, incluidas las prácticas recomendadas, las estrategias y los ejemplos de instrucciones.
- Configura parámetros del modelo como la temperatura y la cantidad máxima de tokens de salida.
- Usa la configuración de seguridad para ajustar la probabilidad de obtener respuestas que puedan considerarse dañinas.
Obtén más información sobre los modelos admitidos
Obtén información sobre los modelos disponibles para varios casos de uso y sus cuotas y precios.Envía comentarios sobre tu experiencia con Firebase AI Logic