En el caso de las apps para dispositivos móviles y la Web, los SDKs de Firebase AI Logic te permiten interactuar con los modelos de Gemini y los modelos de Imagen compatibles directamente desde tu app.
Los modelos Gemini se consideran multimodales porque son capaces de procesar y hasta generar múltiples modalidades, como texto, código, PDFs, imágenes, video y audio. Se puede solicitar a los modelos Imagen que generen imágenes a partir de texto.
Además, consulta nuestras preguntas frecuentes sobre todos los modelos que Firebase AI Logic admite y no admite.
Modelos destacados
Ir a las comparaciones de modelos
Gemini 3 Pro
gemini-3-pro-preview
Nuestro mejor modelo para la comprensión multimodal y nuestro modelo de agente y codificación de ambiente más potente hasta la fecha, que ofrece imágenes más enriquecidas y una interactividad más profunda, todo ello basado en una base de razonamiento de vanguardia. (se requiere facturación)
Gemini 2.5 Pro
gemini-2.5-pro
Nuestro modelo de pensamiento de vanguardia, capaz de razonar sobre problemas complejos en código, matemáticas y STEM, así como analizar grandes conjuntos de datos, bases de código y documentos con un contexto extenso.
Gemini 2.5 Flash
gemini-2.5-flash
Nuestro mejor modelo en términos de relación precio-rendimiento, que ofrece capacidades integrales. 2.5 Flash es ideal para el procesamiento a gran escala, las tareas de baja latencia y gran volumen que requieren pensamiento, y los casos de uso de agentes.
Gemini 2.5 Flash-Lite
gemini-2.5-flash-lite
Nuestro modelo flash más rápido, optimizado para la rentabilidad y la alta capacidad de procesamiento.
Modelos de generación de imágenes
Puedes generar imágenes con los modelos de Gemini o Imagen.
Ir a las comparaciones de modelos
Gemini
Gemini 2.5 Flash Image (también conocido como nano banana)
gemini-2.5-flash-image
Nuestro modelo Flash estándar se actualizó para ofrecer flujos de trabajo creativos rápidos con capacidades de generación de imágenes y edición conversacional de varios turnos. (se requiere facturación)
Imagen
Imagen 4
imagen-4.0-generate-001
Genera imágenes realistas y de alta calidad a partir de instrucciones de texto en lenguaje natural. (se requiere facturación)
Imagen 4 Fast
imagen-4.0-fast-generate-001
Genera imágenes para prototipos o casos de uso de baja latencia. (se requiere facturación)
Imagen 4, Ultra
imagen-4.0-ultra-generate-001
Genera imágenes realistas y de alta calidad a partir de instrucciones de texto en lenguaje natural. (se requiere facturación)
Modelos de generaciones anteriores
Los siguientes son modelos activos, pero de generaciones anteriores. Te recomendamos que uses uno de los modelos más recientes cuando sea posible.
Ir a las comparaciones de modelos
Modelos de Gemini
Gemini 2.0 Flash
gemini-2.0-flash-001
Nuestro modelo de segunda generación más confiable, con una ventana de contexto de 1 millón de tokens. Ofrece funciones de nueva generación y capacidades mejoradas, como velocidad superior y uso de herramientas nativas.
Gemini 2.0 Flash-Lite
gemini-2.0-flash-lite-001
Nuestro modelo de segunda generación, pequeño y confiable, con una ventana de contexto de 1 millón de tokens. Se optimizó para ser rentable y tener una baja latencia.
En el resto de esta página, se proporciona información detallada sobre los modelos compatibles con Firebase AI Logic.
-
- Entrada y salida admitidas
- Comparación general de las capacidades admitidas
- Especificaciones y limitaciones, por ejemplo, la cantidad máxima de tokens de entrada o la longitud máxima del video de entrada
Descripción de cómo se versionan los modelos, específicamente sus versiones estable, actualizada automáticamente, preliminar y experimental
Listas de nombres de modelos disponibles para incluir en tu código durante la inicialización
Listas de idiomas admitidos para los modelos
En la parte inferior de esta página, puedes ver información detallada sobre los modelos de generación anteriores.
Comparar modelos
Cada modelo tiene diferentes capacidades para admitir varios casos de uso. Ten en cuenta que cada una de las tablas de esta sección describe cada modelo cuando se usa con Firebase AI Logic. Cada modelo puede tener capacidades adicionales que no están disponibles cuando se usan nuestros SDKs.
Si no encuentras la información que buscas en las siguientes subsecciones, puedes encontrar aún más información en la documentación del proveedor de la API que elijas:
Gemini Developer API: Modelos Gemini y modelos Imagen
Vertex AI Gemini API: Modelos Gemini y modelos Imagen
Entrada y salida admitidas
Estos son los tipos de entrada y salida compatibles cuando se usa cada modelo con Firebase AI Logic:
|
<span="notranslate">Gemini 3 Pro </span="notranslate"> |
<span="notranslate">Gemini 2.5 Pro, Flash y Flash-Lite </span="notranslate"> |
<span="notranslate">Gemini 2.5 Flash Image </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Live </span="notranslate"> |
Imagen (generar) | Imagen (capacidad) | |
|---|---|---|---|---|---|---|
| Tipos de entrada | ||||||
| Texto | ||||||
| Texto (transmisión) | ||||||
| Código | ||||||
| Documentos (PDF o texto sin formato) |
||||||
| Imágenes | ||||||
| Video | ||||||
| Audio | ||||||
| Audio (transmisión) | ||||||
| Tipos de salida | ||||||
| Texto | ||||||
| Texto (transmisión) | ||||||
| Código | ||||||
| Salida estructurada (como JSON) |
||||||
| Imágenes | ||||||
| Audio | ||||||
| Audio (transmisión) | ||||||
Para obtener información sobre los tipos de archivos admitidos, consulta Archivos de entrada y requisitos admitidos.
Funciones y capacidades admitidas
Estas son las funciones y capacidades compatibles cuando se usa cada modelo con Firebase AI Logic:
|
<span="notranslate">Gemini 3 Pro </span="notranslate"> |
<span="notranslate">Gemini 2.5 Pro, Flash y Flash-Lite </span="notranslate"> |
<span="notranslate">Gemini 2.5 Flash Image </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Live </span="notranslate"> |
Imagen (generar) | Imagen (capacidad) | |
|---|---|---|---|---|---|---|
| Pensamiento | ||||||
| Generar texto a partir de entradas de solo texto o multimodales | Intercalada o como parte de la imagen | Solo transmisión | ||||
|
Generar imágenes (Gemini o Imagen) |
||||||
|
Edita imágenes (Gemini o Imagen) |
||||||
| Generar audio | Solo transmisión | |||||
|
Genera
resultados estructurados
(como JSON) |
||||||
|
Analizar documentos
(archivos PDF o texto sin formato) |
||||||
| Analiza imágenes (visión) | ||||||
| Analiza videos (visión) | ||||||
| Analiza el audio | Solo transmisión | |||||
| Chat de varios turnos | ||||||
| Transmisión multimodal bidireccional | ||||||
| Llamada a función | ||||||
| Ejecución de código | ||||||
| Grounding with Google Search | ||||||
| Instrucciones del sistema | ||||||
| Contar tokens |
Especificaciones y limitaciones
Estas son las especificaciones y limitaciones cuando se usa cada modelo con Firebase AI Logic:
| Propiedad |
<span="notranslate">Gemini 3 Pro </span="notranslate"> |
<span="notranslate">Gemini 2.5 Pro, Flash y Flash-Lite </span="notranslate"> |
<span="notranslate">Gemini 2.5 Flash Image </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Live </span="notranslate"> |
Imagen (generar) | Imagen (capacidad) |
|---|---|---|---|---|---|---|
| Ventana de contexto * Límite total de tokens (entrada y salida combinadas) |
1 millón de tokens | 1,048,576 tokens | 32,768 tokens | 32,768 tokens | 480 tokens | 480 tokens |
| Límite de tokens de salida * | 64,000 tokens | 65,536 tokens | 8,192 tokens | 8,192 tokens | --- | --- |
| Fecha límite de conocimiento | Enero de 2025 | Enero de 2025 | Junio de 2025 | Agosto de 2024 | --- | --- |
| PDFs (por solicitud) | ||||||
| Cantidad máxima de archivos PDF de entrada ** |
900 archivos | 3,000 archivos | 3 archivos | --- | --- | --- |
| Cantidad máxima de páginas por archivo PDF de entrada ** |
900 páginas | 1,000 páginas | 3 páginas | --- | --- | --- |
| Tamaño máximo por archivo PDF de entrada |
50 MB | 50 MB | 50 MB | --- | --- | --- |
| Imágenes (por solicitud) | ||||||
| Cantidad máxima de imágenes de entrada |
1,000 imágenes | 3,000 imágenes | 3 imágenes | --- | --- | 4 imágenes |
| Cantidad máxima de imágenes de salida |
--- | --- | 10 imágenes | --- | 4 imágenes | 4 imágenes |
| Tamaño máximo por imagen de entrada codificada en Base64 |
7 MB | 7 MB | 7 MB | --- | --- | --- |
| Video (por solicitud) | ||||||
| Cantidad máxima de archivos de video de entrada |
10 archivos | 10 archivos | --- | --- | --- | --- |
| Duración máxima de todo el video de entrada (solo fotogramas) |
60 minutos aprox. | 60 minutos aprox. | --- | --- | --- | --- |
| Longitud máxima de todo el video de entrada (fotogramas y audio) |
45 minutos aprox. | 45 minutos aprox. | --- | --- | --- | --- |
| Audio (por solicitud) | ||||||
| Cantidad máxima de archivos de audio de entrada |
1 archivo | 1 archivo | --- | --- | --- | --- |
| Cantidad máxima de archivos de audio de salida |
--- | --- | --- | --- | --- | --- |
| Longitud máxima de todo el audio de entrada |
Aprox. 8.4 horas | Aprox. 8.4 horas | Aprox. 8.4 horas | --- | --- | --- |
| Longitud máxima de todo el audio de salida |
--- | --- | --- | --- | --- | --- |
*
Para todos los modelos Gemini, un token equivale a alrededor de 4 caracteres,
por lo que 100 tokens equivalen a entre 60 y 80 palabras en inglés. En el caso de los modelos Gemini, puedes determinar el recuento total de tokens en tus solicitudes con countTokens.
** Los PDFs se tratan como imágenes, por lo que una sola página de un PDF se considera una imagen. La cantidad de páginas permitidas en una solicitud se limita a la cantidad de imágenes que el modelo puede admitir.
Encuentra información detallada adicional
Las cuotas y los precios son diferentes para cada modelo. Los precios también dependen de la entrada y la salida.
Obtén información sobre los tipos de archivos de entrada admitidos, cómo especificar el tipo de MIME y cómo asegurarte de que tus archivos de entrada y solicitudes multimodales cumplan con los requisitos y sigan las prácticas recomendadas que se indican en Requisitos y tipos de archivos de entrada admitidos.
Patrones de nomenclatura y control de versiones de modelos
Los modelos se ofrecen en versiones estables, de vista previa y experimentales. Para mayor comodidad, se admiten alias sin valores de versión explícitos.
Para encontrar nombres de modelos específicos que puedes usar en tu código, consulta la sección "nombres de modelos disponibles" más adelante en esta página.
Gemini 2.5| Tipo de versión / Etapa de lanzamiento |
Descripción | Patrón del nombre del modelo | |
|---|---|---|---|
| Estable |
Las versiones estables están disponibles y se admiten para el uso en producción a partir de la fecha de lanzamiento.
|
|
|
| Alias estable actualizado automáticamente (solo para modelos de Gemini 2.0) |
Los alias estables actualizados automáticamente siempre apuntan a la versión estable más reciente de ese modelo.
|
Solo modelos Gemini 2.0
Ejemplo: |
|
| Vista previa |
Las versiones de vista previa tienen nuevas capacidades y se consideran inestables.
|
Los nombres de los modelos de las versiones preliminares se complementan con
Ejemplos: |
|
| Experimental |
Las versiones experimentales tienen nuevas capacidades y se consideran inestables.
|
Los nombres de los modelos de las versiones experimentales se agregan con
Ejemplo: |
|
| Jubilado |
Las versiones retiradas ya pasaron su fecha de retiro y se desactivaron de forma permanente.
|
--- |
|
Nombres de modelos disponibles
Los nombres de los modelos son los valores explícitos que incluyes en tu código durante la inicialización del modelo.
Ir a los nombres de los modelos Gemini Ir a los nombres de los modelos Imagen
Enumera todos los modelos disponibles de forma programática
Puedes enumerar todos los nombres de los modelos disponibles con la API de REST:
Gemini Developer API: Llama al extremo
models.list.Vertex AI Gemini API: Llama al extremo
publishers.models.list.
Ten en cuenta que esta lista devuelta incluirá todos los modelos compatibles con los proveedores de la API, pero Firebase AI Logic solo admite los modelos Gemini y Imagen que se describen en esta página.
También ten en cuenta que los alias actualizados automáticamente (por ejemplo, gemini-2.0-flash) no se incluyen en la lista porque son alias convenientes para el modelo base.
Nombres de modelos Gemini
Para ver ejemplos de inicialización para tu plataforma, consulta la guía de introducción.
Para obtener detalles sobre las etapas de lanzamiento (especialmente para los casos de uso, la facturación y la baja), consulta los patrones de nomenclatura y versiones de modelos.
Además, si usas Vertex AI Gemini API, todos los modelos de Gemini 3 y Gemini 2.5 en versión preliminar lanzados después de junio de 2025 solo estarán disponibles en la ubicación
global.
Nombres de modelos Gemini 3 Pro
| Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento | Fecha de baja |
|---|---|---|---|---|
gemini-3-pro-preview |
Versión preliminar de Gemini 3 Pro | Vista previa | 2025-11-18 | Sin establecer |
Nombres de modelos Gemini 2.5 Pro
| Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento | Fecha de baja |
|---|---|---|---|---|
gemini-2.5-pro |
Versión estable de Gemini 2.5 Pro | Estable | 2025-06-17 | A partir del 2026-06-17 |
Nombres de modelos Gemini 2.5 Flash
| Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento | Fecha de baja |
|---|---|---|---|---|
gemini-2.5-flash |
Versión estable de Gemini 2.5 Flash | Estable | 2025-06-17 | A partir del 2026-06-17 |
Nombres de modelos Gemini 2.5 Flash‑Lite
| Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento | Fecha de baja |
|---|---|---|---|---|
gemini-2.5-flash-lite |
Versión estable de Gemini 2.5 Flash‑Lite | Estable | 2025-07-22 | A partir del 2026-07-22 |
Nombres de los modelos de Gemini 2.5 Flash Image (también conocidos como "nano banana")
| Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento | Fecha de baja |
|---|---|---|---|---|
gemini-2.5-flash-image |
Versión estable para Gemini 2.5 Flash Image (también conocida como "nano banana") | Estable | 2025-10-02 | No anterior a 2026-10-02 |
Nombres de modelos Gemini 2.5 Flash Live
| Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento | Fecha de baja |
|---|---|---|---|---|
gemini-live-2.5-flash |
Versión estable de Gemini 2.5 Flash Live | Estable (DG privada) 1 |
2025-06-01 | A partir del 1/6/2026 |
gemini-live-2.5-flash-preview 2 |
Versión preliminar de Gemini 2.5 Flash Live | Vista previa | 2025-06-01 | Sin establecer |
Firebase AI Logic aún no admite los modelos de audio nativos (como gemini-2.5-flash-native-audio-preview-09-2025).
1 Comunícate con el representante de tu equipo de cuentas de Google Cloud para solicitar acceso. 2 No es compatible con Vertex AI Gemini API, sin importar cómo accedas a él.
Nombres de modelos Gemini 2.0 Flash Live
| Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento | Fecha de baja |
|---|---|---|---|---|
gemini-2.0-flash-live-001 2 |
Versión estable de Gemini 2.0 Flash Live | Estable | 2025-04-01 | A partir del 2026-04-01 |
gemini-2.0-flash-live-preview-04-09 |
Versión preliminar de Gemini 2.0 Flash Live | Vista previa | 2025-04-09 | Sin establecer |
2 No es compatible con Vertex AI Gemini API, sin importar cómo accedas a él.
Nombres de modelos Imagen
Para ver ejemplos de inicialización para tu plataforma, consulta la guía para generar imágenes con Imagen.
Para obtener detalles sobre las etapas de lanzamiento (especialmente para los casos de uso, la facturación y la baja), consulta los patrones de nomenclatura y versiones de modelos.
Nombres de modelos Imagen 4
| Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento | Fecha de baja |
|---|---|---|---|---|
imagen-4.0-generate-001 |
Versión estable de Imagen 4 | Estable | 2025-08-14 | A partir del 14 de agosto de 2026 |
Nombres de modelos Imagen 4 Fast
| Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento | Fecha de baja |
|---|---|---|---|---|
imagen-4.0-fast-generate-001 |
Versión estable de Imagen 4 Fast | Estable | 2025-08-14 | A partir del 14 de agosto de 2026 |
Nombres de modelos Imagen 4 Ultra
| Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento | Fecha de baja |
|---|---|---|---|---|
imagen-4.0-ultra-generate-001 |
Versión estable de Imagen 4 Ultra | Estable | 2025-08-14 | A partir del 14 de agosto de 2026 |
Nombres de modelos Imagen 3 Capability
| Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento | Fecha de baja |
|---|---|---|---|---|
imagen-3.0-capability-001 3 |
Versión estable inicial de Imagen 3 Capability | Estable | 2024-12-10 | A partir del 2025-12-10 |
3 No es compatible con Gemini Developer API, sin importar cómo accedas a él.
Idiomas compatibles
Gemini
Todos los modelos de Gemini pueden comprender y responder en los siguientes idiomas:
Árabe (ar), bengalí (bn), búlgaro (bg), chino (simplificado y tradicional; zh), croata (hr), checo (cs), danés (da), neerlandés (nl), inglés (en), estonio (et), finlandés (fi), francés (fr), alemán (de), griego (el), hebreo (iw), hindi (hi), húngaro (hu), indonesio (id), italiano (it), japonés (ja), coreano (ko), letón (lv), lituano (lt), noruego (no), polaco (pl), portugués (pt), rumano (ro), ruso (ru), serbio (sr), eslovaco (sk), esloveno (sl), español (es), suajili (sw), sueco (sv), tailandés (th), turco (tr), ucraniano (uk) y vietnamita (vi)
Los modelos Gemini 2.0 Flash, Gemini 1.5 Pro y Gemini 1.5 Flash pueden comprender y responder en los siguientes idiomas adicionales:
Afrikaans (af), amhárico (am), asamés (as), azerí (az), bielorruso (be), bosnio (bs), catalán (ca), cebuano (ceb), corso (co), galés (cy), dhivehi (dv), esperanto (eo), euskera (eu), persa (fa), filipino (tagalo) (fil), frisio (fy), irlandés (ga), gaélico escocés (gd), gallego (gl), guyaratí (gu), hausa (ha), hawaiano (haw), hmong (hmn), criollo haitiano (ht), armenio (hy), igbo (ig), islandés (is), javanés (jv), georgiano (ka), kazajo (kk), jemer (km), kannada (kn), krio (kri), kurdo (ku), kirguís (ky), latín (la), luxemburgués (lb), laosiano (lo), malgache (mg), maorí (mi), macedonio (mk), malayalam (ml), mongol (mn), meiteilon (manipuri) (mni-Mtei), maratí (mr), malayo (ms), maltés (mt), birmano (my), nepalí (ne), nyanja (chichewa) (ny), odia (oriya) (or), panyabí (pa), pastún (ps), sindhi (sd), cingalés (si), samoano (sm), shona (sn), somalí (so), albanés (sq), sesotho (st), sundanés (su), tamil (ta), telugu (te), tayiko (tg), uigur (ug), urdu (ur), uzbeko (uz), xhosa (xh), yidis (yi), yoruba (yo), zulú (zu)
Imagen
Disponibilidad general: Inglés
Vista previa: Chino (simplificado), chino (tradicional), hindi, japonés, coreano, portugués y español
Información sobre modelos anteriores
Los siguientes son modelos activos, pero de generaciones anteriores. Te recomendamos que uses uno de los modelos más recientes cuando sea posible.
Gemini modelos
| Modelo | Entrada | Salida | Descripción |
|---|---|---|---|
Gemini 2.0 Flashgemini-2.0-flash-001
|
texto, código, PDFs, imágenes, video y audio | Texto, código y JSON | Nuestro modelo multimodal con funciones de nueva generación y capacidades mejoradas, como velocidad superior, uso de herramientas integrado y una ventana de contexto de 1 millón de tokens |
Gemini 2.0 Flash‑Litegemini-2.0-flash-lite-001
|
texto, código, PDFs, imágenes, video y audio | Texto, código y JSON | Nuestro modelo Flash más rápido y rentable. Es una ruta de actualización para los usuarios de 1.5 Flash que desean una mejor calidad por el mismo precio y velocidad. |
Imagen modelos
| Modelo | Entrada | Salida | Descripción |
|---|---|---|---|
Imagen 3imagen-3.0-generate-002 |
texto | imágenes | Genera imágenes realistas y de alta calidad a partir de instrucciones de texto en lenguaje natural. |
Imagen 3 Fast 2imagen-3.0-fast-generate-001
|
texto | imágenes | Genera imágenes para prototipos o casos de uso de baja latencia |
2 No es compatible con Gemini Developer API, sin importar cómo accedas a él.
Próximos pasos
Prueba las capacidades de Gemini API
- Crea conversaciones de varios turnos (chat).
- Generar texto a partir de instrucciones solo de texto
- Genera texto a partir de instrucciones con varios tipos de archivos, como imágenes, PDFs, videos y audios.
- Genera resultados estructurados (como JSON) a partir de instrucciones tanto de texto como multimodales.
- Generar imágenes a partir de instrucciones de texto (Gemini o Imagen).
- Transmite entrada y salida (incluido el audio) con Gemini Live API.
- Usa herramientas (como llamadas a funciones y fundamentación con la Búsqueda de Google) para conectar un modelo Gemini a otras partes de tu app y a sistemas e información externos.