Analizar documentos (como archivos PDF) con la API de Gemini

Puedes pedirle a un Gemini modelo que analice archivos de documentos (como PDFs y archivos de texto sin formato) que proporciones de forma intercalada (codificados en base64) o a través de una URL. Cuando usas Firebase AI Logic, puedes realizar esta solicitud directamente desde tu app.

Con esta capacidad, puedes hacer lo siguiente:

  • Analizar diagramas, gráficos y tablas dentro de los documentos
  • Extraer información en formatos de salida estructurados
  • Responder preguntas sobre el contenido visual y de texto en los documentos
  • Resumir documentos
  • Transcribir contenido de documentos (por ejemplo, a HTML), preservar diseños y formatos para usar en aplicaciones posteriores (como en canalizaciones de RAG)

Ir a ejemplos de código Ir al código de respuestas transmitidas


Consulta otras guías para obtener opciones adicionales para trabajar con documentos (como PDFs)
Generar resultados estructurados Chat de varios turnos

Antes de comenzar

Haz clic en tu proveedor de Gemini API para ver el contenido específico del proveedor y el código en esta página.

Si aún no lo hiciste, completa la guía de introducción, en la que se describe cómo configurar tu proyecto de Firebase, conectar tu app a Firebase, agregar el SDK, inicializar el servicio de backend para el proveedor de Gemini API que elijas y crear una instancia de GenerativeModel.

Para probar y, luego, iterar tus instrucciones, te recomendamos usar Google AI Studio.

Genera texto a partir de archivos PDF (codificados en base64)

Antes de probar esta muestra, completa la sección Antes de comenzar de esta guía para configurar tu proyecto y tu app.
En esa sección, también harás clic en un botón para el proveedor de la API de Gemini que elijas, Gemini API de modo que veas contenido específico del proveedor en esta página.

Puedes pedirle a un Gemini modelo que genere texto con instrucciones de texto y PDFs, proporcionando el archivo de entrada de cada mimeType y el archivo en sí. Encontrarás los requisitos y las recomendaciones para los archivos de entrada más adelante en esta página.

Swift

Puedes llamar a generateContent() para generar texto a partir de la entrada multimodal de texto y PDFs.


import FirebaseAILogic

// Initialize the Gemini Developer API backend service
let ai = FirebaseAI.firebaseAI(backend: .googleAI())

// Create a `GenerativeModel` instance with a model that supports your use case
let model = ai.generativeModel(modelName: "gemini-3-flash-preview")


// Provide the PDF as `Data` with the appropriate MIME type
let pdf = try InlineDataPart(data: Data(contentsOf: pdfURL), mimeType: "application/pdf")

// Provide a text prompt to include with the PDF file
let prompt = "Summarize the important results in this report."

// To generate text output, call `generateContent` with the PDF file and text prompt
let response = try await model.generateContent(pdf, prompt)

// Print the generated text, handling the case where it might be nil
print(response.text ?? "No text in response.")

Kotlin

Puedes llamar a generateContent() para generar texto a partir de la entrada multimodal de texto y PDFs.

En el caso de Kotlin, los métodos de este SDK son funciones de suspensión y deben llamarse desde un alcance deCoroutine.

// Initialize the Gemini Developer API backend service
// Create a `GenerativeModel` instance with a model that supports your use case
val model = Firebase.ai(backend = GenerativeBackend.googleAI())
                        .generativeModel("gemini-3-flash-preview")


val contentResolver = applicationContext.contentResolver

// Provide the URI for the PDF file you want to send to the model
val inputStream = contentResolver.openInputStream(pdfUri)

if (inputStream != null) {  // Check if the PDF file loaded successfully
    inputStream.use { stream ->
        // Provide a prompt that includes the PDF file specified above and text
        val prompt = content {
            inlineData(
                bytes = stream.readBytes(),
                mimeType = "application/pdf" // Specify the appropriate PDF file MIME type
            )
            text("Summarize the important results in this report.")
        }

        // To generate text output, call `generateContent` with the prompt
        val response = model.generateContent(prompt)

        // Log the generated text, handling the case where it might be null
        Log.d(TAG, response.text ?: "")
    }
} else {
    Log.e(TAG, "Error getting input stream for file.")
    // Handle the error appropriately
}

Java

Puedes llamar a generateContent() para generar texto a partir de la entrada multimodal de texto y PDFs.

En el caso de Java, los métodos de este SDK muestran un ListenableFuture.

// Initialize the Gemini Developer API backend service
// Create a `GenerativeModel` instance with a model that supports your use case
GenerativeModel ai = FirebaseAI.getInstance(GenerativeBackend.googleAI())
        .generativeModel("gemini-3-flash-preview");

// Use the GenerativeModelFutures Java compatibility layer which offers
// support for ListenableFuture and Publisher APIs
GenerativeModelFutures model = GenerativeModelFutures.from(ai);


ContentResolver resolver = getApplicationContext().getContentResolver();

// Provide the URI for the PDF file you want to send to the model
try (InputStream stream = resolver.openInputStream(pdfUri)) {
    if (stream != null) {
        byte[] audioBytes = stream.readAllBytes();
        stream.close();

        // Provide a prompt that includes the PDF file specified above and text
        Content prompt = new Content.Builder()
              .addInlineData(audioBytes, "application/pdf")  // Specify the appropriate PDF file MIME type
              .addText("Summarize the important results in this report.")
              .build();

        // To generate text output, call `generateContent` with the prompt
        ListenableFuture<GenerateContentResponse> response = model.generateContent(prompt);
        Futures.addCallback(response, new FutureCallback<GenerateContentResponse>() {
            @Override
            public void onSuccess(GenerateContentResponse result) {
                String text = result.getText();
                Log.d(TAG, (text == null) ? "" : text);
            }
            @Override
            public void onFailure(Throwable t) {
                Log.e(TAG, "Failed to generate a response", t);
            }
        }, executor);
    } else {
        Log.e(TAG, "Error getting input stream for file.");
        // Handle the error appropriately
    }
} catch (IOException e) {
    Log.e(TAG, "Failed to read the pdf file", e);
} catch (URISyntaxException e) {
    Log.e(TAG, "Invalid pdf file", e);
}

Web

Puedes llamar a generateContent() para generar texto a partir de la entrada multimodal de texto y PDFs.


import { initializeApp } from "firebase/app";
import { getAI, getGenerativeModel, GoogleAIBackend } from "firebase/ai";

// TODO(developer) Replace the following with your app's Firebase configuration
// See: https://firebase.google.com/docs/web/learn-more#config-object
const firebaseConfig = {
  // ...
};

// Initialize FirebaseApp
const firebaseApp = initializeApp(firebaseConfig);

// Initialize the Gemini Developer API backend service
const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });

// Create a `GenerativeModel` instance with a model that supports your use case
const model = getGenerativeModel(ai, { model: "gemini-3-flash-preview" });


// Converts a File object to a Part object.
async function fileToGenerativePart(file) {
  const base64EncodedDataPromise = new Promise((resolve) => {
    const reader = new FileReader();
    reader.onloadend = () => resolve(reader.result.split(','));
    reader.readAsDataURL(file);
  });
  return {
    inlineData: { data: await base64EncodedDataPromise, mimeType: file.type },
  };
}

async function run() {
  // Provide a text prompt to include with the PDF file
  const prompt = "Summarize the important results in this report.";

  // Prepare PDF file for input
  const fileInputEl = document.querySelector("input[type=file]");
  const pdfPart = await fileToGenerativePart(fileInputEl.files);

  // To generate text output, call `generateContent` with the text and PDF file
  const result = await model.generateContent([prompt, pdfPart]);

  // Log the generated text, handling the case where it might be undefined
  console.log(result.response.text() ?? "No text in response.");
}

run();

Dart

Puedes llamar a generateContent() para generar texto a partir de la entrada multimodal de texto y PDFs.


import 'package:firebase_ai/firebase_ai.dart';
import 'package:firebase_core/firebase_core.dart';
import 'firebase_options.dart';

// Initialize FirebaseApp
await Firebase.initializeApp(
  options: DefaultFirebaseOptions.currentPlatform,
);

// Initialize the Gemini Developer API backend service
// Create a `GenerativeModel` instance with a model that supports your use case
final model =
      FirebaseAI.googleAI().generativeModel(model: 'gemini-3-flash-preview');


// Provide a text prompt to include with the PDF file
final prompt = TextPart("Summarize the important results in this report.");

// Prepare the PDF file for input
final doc = await File('document0.pdf').readAsBytes();

// Provide the PDF file as `Data` with the appropriate PDF file MIME type
final docPart = InlineDataPart('application/pdf', doc);

// To generate text output, call `generateContent` with the text and PDF file
final response = await model.generateContent([
  Content.multi([prompt,docPart])
]);

// Print the generated text
print(response.text);

Unity

Puedes llamar a GenerateContentAsync() para generar texto a partir de la entrada multimodal de texto y PDFs.


using Firebase;
using Firebase.AI;

// Initialize the Gemini Developer API backend service
var ai = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI());

// Create a `GenerativeModel` instance with a model that supports your use case
var model = ai.GetGenerativeModel(modelName: "gemini-3-flash-preview");


// Provide a text prompt to include with the PDF file
var prompt = ModelContent.Text("Summarize the important results in this report.");

// Provide the PDF file as `data` with the appropriate PDF file MIME type
var doc = ModelContent.InlineData("application/pdf",
      System.IO.File.ReadAllBytes(System.IO.Path.Combine(
        UnityEngine.Application.streamingAssetsPath, "document0.pdf")));

// To generate text output, call `GenerateContentAsync` with the text and PDF file
var response = await model.GenerateContentAsync(new [] { prompt, doc });

// Print the generated text
UnityEngine.Debug.Log(response.Text ?? "No text in response.");

Obtén información para elegir un modelo adecuada para tu caso de uso y tu app.

Transmite la respuesta

Antes de probar esta muestra, completa la sección Antes de comenzar de esta guía para configurar tu proyecto y tu app.
En esa sección, también harás clic en un botón para el proveedor de la API de Gemini que elijas, Gemini API de modo que veas contenido específico del proveedor en esta página.

Puedes lograr interacciones más rápidas si no esperas el resultado completo de la generación del modelo y, en su lugar, usas la transmisión para controlar los resultados parciales. Para transmitir la respuesta, llama a generateContentStream.



Requisitos y recomendaciones para documentos de entrada

Ten en cuenta que un archivo proporcionado como datos intercalados se codifica en base64 en tránsito, lo que aumenta el tamaño de la solicitud. Recibirás un error HTTP 413 si una solicitud es demasiado grande.

Consulta la página "Archivos de entrada y requisitos admitidos" para obtener información detallada sobre lo siguiente:

Tipos de MIME de documentos admitidos

Gemini modelos multimodales admiten los siguientes tipos de MIME de documento:

  • PDF - application/pdf
  • Texto - text/plain

Límites por solicitud

Los PDFs se tratan como imágenes, por lo que una sola página de un PDF se considera una sola imagen. La cantidad de páginas permitidas en una instrucción se limita a la cantidad de imágenes que pueden admitir los Gemini modelos multimodales.

  • Cantidad máxima de archivos por solicitud: 3,000 archivos
  • Cantidad máxima de páginas por archivo: 1,000 páginas por archivo
  • Tamaño máximo por archivo: 50 MB por archivo



¿Qué más puedes hacer?

  • Obtén información para contar tokens antes de enviar instrucciones largas al modelo.
  • Configura Cloud Storage for Firebase para poder incluir archivos grandes en tus solicitudes multimodales y tener una solución más administrada para proporcionar archivos en instrucciones. Los archivos pueden incluir imágenes, PDFs, videos y audio.
  • Comienza a pensar en prepararte para la producción (consulta la lista de tareas de producción):

Prueba otras capacidades

Obtén información para controlar la generación de contenido

También puedes experimentar con instrucciones y configuraciones de modelos, e incluso obtener un fragmento de código generado con Google AI Studio.

Obtén más información sobre los modelos admitidos

Obtén información sobre los modelos disponibles para varios casos de uso y sus cuotas y precios.


Envía comentarios sobre tu experiencia con Firebase AI Logic