La familia de modelos Gemini se considera multimodal porque tiene de procesar información de múltiples modalidades, como imágenes, videos, y texto. Por ejemplo, puedes enviarle a un modelo de Gemini una foto de un plato de galletas y le pide que le dé una receta para esas galletas.
Instrucción | Respuesta |
Dame una receta para estas cookies. |
**INGREDIENTES** - 1 c. (2 barras) mantequilla sin sal, ablandada - 3/4 t. azúcar granulado - 3/4 t. azúcar morena, compacta - 1 cdta. extracto de vainilla - 2 huevos grandes - 2 1/4 t. harina multipropósito - 1 cdta. polvos de hornear - 1 cdta. sal |
Puedes interactuar con la familia de modelos Gemini a través de la Gemini API proporcionado por Vertex AI el Google Cloud. En el caso de las apps web y para dispositivos móviles, puedes usar la SDK de Vertex AI in Firebase para llamar a la API de Gemini e interactuar con la los modelos de Gemini directamente desde tu app.
En esta página, se proporciona la siguiente información sobre los modelos de Gemini:
Comparación general de los casos de uso de los distintos Gemini sus propios modelos, incluidos sus tipos de entrada compatibles.
Por ejemplo, la comparación de los detalles de cada modelo la cantidad máxima de tokens de entrada o la duración máxima del video.
Descripción de cómo se controlan las versiones de los modelos de Gemini, específicamente sus versiones estable, actualizada automáticamente y de vista previa
Las listas de nombres de modelos disponibles para incluir en tu código durante la inicialización.
Lista de idiomas compatibles con los modelos de Gemini.
Modelos disponibles
Puedes usar cualquiera de los siguientes modelos de Gemini con Vertex AI in Firebase:
Gemini 1.5
Un modelo multimodal que admite la misma entrada y salida tipos como 1.5 Pro, pero con una comprensión de contexto a largo plazo de 1 millón de tokens. Gemini 1.5 Flash se diseñó específicamente para aplicaciones de alto volumen aplicaciones.Gemini 1.5 Pro
Un modelo multimodal que permite agregar imágenes, audios, videos y archivos PDF en instrucciones de texto o chat para una respuesta de texto o código. Además, admite la comprensión del contexto a largo plazo con 2 millones de tokens.Gemini 1.0 Pro Vision
Modelo multimodal diseñado para manejar texto y imágenes y videos para una respuesta de texto o código. No se puede usar para el chat.Gemini 1.0 Pro
Modelo diseñado para manejar tareas de lenguaje natural, con múltiples turnos chatear con texto y código, y generar código.
Ve a los nombres de los modelos para incluirlos en tu código
Casos de uso y capacidades para cada modelo
Cada modelo de Gemini tiene diferentes capacidades para admitir varios casos de uso. Puedes obtener más información en la documentación de Google Cloud sobre cada una de las Modelos de Gemini
Entrada y salida admitidas para cada modelo
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
Tipos de entrada | ||||
Texto | ||||
Código | ||||
Imagen | ||||
Video (solo fotogramas) | ||||
Video (fotogramas y audio) | ||||
Audio | ||||
Tipos de salida | ||||
Texto | ||||
Código |
Para obtener más información sobre los tipos de archivos admitidos, consulta Archivos de entrada admitidos y requisitos para Vertex AI Gemini API.
Capacidades admitidas y funciones generales para cada modelo
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
Generación de texto a partir de instrucciones solo de texto | |||||
Generación de texto a partir de instrucciones multimodales | |||||
Salida de JSON (modo de esquema restringido) (próximamente en los SDKs de Vertex AI in Firebase) |
|||||
Chat de varios turnos | |||||
Llamada a función | |||||
Llamadas a funciones básicas | |||||
Llamadas a funciones paralelas | |||||
Modo de llamada a función | |||||
Contar tokens y caracteres facturables | |||||
Instrucciones del sistema |
Información detallada sobre cada modelo
Propiedad | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
Límite total de tokens (entrada y salida combinadas) * | 1,048,576 tokens | 2,097,152 tokens | 16,384 tokens | 32,760 tokens |
Límite de tokens de salida * | 8,192 tokens | 8,192 tokens | 2,048 tokens | 8,192 tokens |
Cantidad máxima de imágenes por solicitud | 3,000 imágenes | 3,000 imágenes | 16 imágenes | N/A |
Tamaño máximo de la imagen codificada en base64 | 7 MB | 7 MB | 7 MB | N/A |
Tamaño máximo del PDF | 30 MB | 30 MB | 30 MB | N/A |
Cantidad máxima de archivos de video por solicitud | 10 archivos de video | 10 archivos de video | 1 archivo de video | N/A |
Duración máxima del video (solo fotogramas) | ~60 minutos de video | ~60 minutos de video | 2 minutos | N/A |
Duración máxima del video (marcos y audio) | ~45 minutos de video | ~45 minutos de video | N/A | N/A |
Cantidad máxima de archivos de audio por solicitud | 1 archivo de audio | 1 archivo de audio | N/A | N/A |
Duración máxima del audio | ~8.4 horas de audio | ~8.4 horas de audio | N/A | N/A |
* Para todos los modelos de Gemini, un token equivale a unos 4 caracteres.
por lo que 100 tokens son entre 60 y 80 palabras en inglés. Puedes determinar el recuento total
de tokens en tus solicitudes con
countTokens
Aquí es donde encontrarás información aún más detallada sobre los modelos y Archivos de entrada:
Obtén más información acerca de la diferencias entre los modelos multimodales en la documentación de Google Cloud.
Obtén información sobre los tipos de archivos compatibles, cómo especificar el tipo de MIME y cómo hacer asegúrate de que tus archivos y solicitudes multimodales cumplan con los requisitos y sigan las prácticas recomendadas Archivos de entrada admitidos y requisitos para Vertex AI Gemini API.
Control de versiones de los modelos
Los modelos de Gemini están disponibles en versión estable, con actualización automática y de vista previa versiones.
Las versiones estables se consideran con disponibilidad general.
- Las versiones estables tienen nombres de modelos agregados con un
número de versión específico de tres dígitos, por ejemplo,
gemini-1.0-pro-001
- Las versiones estables tienen nombres de modelos agregados con un
número de versión específico de tres dígitos, por ejemplo,
Las versiones actualizadas automáticamente siempre apuntan a la versión más reciente estable de ese modelo; Si se lanza una nueva versión estable, la versión actualizada automáticamente comienza a apuntar automáticamente a esa nueva versión estable.
- Las versiones actualizadas automáticamente tienen nombres de modelos sin
apéndice, por ejemplo
gemini-1.0-pro
- Las versiones actualizadas automáticamente tienen nombres de modelos sin
apéndice, por ejemplo
Las versiones de versión preliminar tienen funciones nuevas y se consideran no estables. Ten en cuenta que las versiones preliminares siempre apuntan a la versión más reciente de la vista previa de ese modelo; Si se lanza una nueva versión preliminar, cualquier versión existente comienza a apuntar automáticamente a esa nueva versión de vista previa.
- Las versiones de vista previa tienen nombres de modelos agregados
junto con la versión inicial del modelo fecha (-preview
), por ejemplo-MMDD
(lanzada el 9 de abril de 2024).gemini-1.5-pro-preview-0409
- Las versiones de vista previa tienen nombres de modelos agregados
Obtén más información sobre la versiones disponibles de los modelos de Gemini y su ciclo de vida en la documentación de Google Cloud.
Nombres de modelos disponibles
Los nombres de los modelos son los valores explícitos que incluyes en tu código durante del modelo generativo (un paso necesario para llamar al Gemini API). Para obtener ejemplos de inicialización para tu lenguaje, consulta el guía de introducción.
Nombres de modelos de Gemini 1.5 Flash
Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha del lanzamiento inicial | Fecha de descontinuación |
---|---|---|---|---|
Versiones estables | ||||
gemini-1.5-flash-001 |
La versión estable más reciente de Gemini 1.5 Flash | Disponibilidad general | 2024-05-24 | No antes del 24/05/2025 |
Versión actualizada automáticamente | ||||
gemini-1.5-flash |
Apunta a la versión estable más reciente de Flash 1.5 (actualmente, gemini-1.5-flash-001 |
Disponibilidad general | 2024-05-24 | --- |
Versiones preliminares | ||||
gemini-1.5-flash-preview-0514 |
Versión preliminar más reciente de Gemini 1.5 Flash | Versión preliminar pública | 2024-05-14 | 2024-06-24 |
Nombres de modelos de Gemini 1.5 Pro
Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha del lanzamiento inicial | Fecha de descontinuación |
---|---|---|---|---|
Versiones estables | ||||
gemini-1.5-pro-001 |
La versión estable más reciente de Gemini 1.5 Pro | Disponibilidad general | 2024-05-24 | No antes del 24/05/2025 |
Versión actualizada automáticamente | ||||
gemini-1.5-pro |
Apunta a la versión estable más reciente de 1.5 Pro (actualmente, gemini-1.5-pro-001 |
Disponibilidad general | 2024-05-24 | --- |
Versiones preliminares | ||||
gemini-1.5-pro-preview-0514 |
Versión preliminar más reciente de Gemini 1.5 Pro | Versión preliminar pública | 2024-05-14 | 2024-06-24 |
gemini-1.5-pro-preview-0409 |
Apunta a gemini-1.5-pro-preview-0514 (que es la versión preliminar más reciente) |
Versión preliminar pública | 2024-04-09 | 2024-06-14 |
Nombres de modelos de Gemini 1.0 Pro Vision
Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha del lanzamiento inicial | Fecha de descontinuación |
---|---|---|---|---|
Versiones estables | ||||
gemini-1.0-pro-vision-001 |
La versión estable más reciente de Gemini 1.0 Pro Vision | Disponibilidad general | 2024-02-15 | No antes del 15-02-2025 |
Versión actualizada automáticamente | ||||
gemini-1.0-pro-vision |
Apunta a la versión estable más reciente de 1.5 Pro Vision (actualmente, gemini-1.5-pro-vision-001 |
Disponibilidad general | 2024-01-04 | --- |
Nombres de modelos de Gemini 1.0 Pro
Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha del lanzamiento inicial | Fecha de descontinuación |
---|---|---|---|---|
Versiones estables | ||||
gemini-1.0-pro-002 |
La versión estable más reciente de Gemini 1.0 Pro | Disponibilidad general | 2024-04-09 | No antes del 9/4/2025 |
gemini-1.0-pro-001 |
Versión estable de Gemini 1.0 Pro | Disponibilidad general | 2024-02-15 | No antes del 15-02-2025 |
Versión actualizada automáticamente | ||||
gemini-1.0-pro |
Apunta a la versión estable más reciente de 1.0 Pro (actualmente, gemini-1.0-pro-002 |
Disponibilidad general | 2024-02-15 | --- |
Lenguajes compatibles
Todos los modelos de Gemini pueden comprender y responder en la los siguientes idiomas:
árabe (ar), bengalí (bn), búlgaro (bg), Chino simplificado y tradicional (zh), croata (hr), checo (cs), danés (da), neerlandés (nl), inglés (en), estonio (et), finés (fi), Alemán (de), francés (fr), griego (el), hebreo (iw), hindi (hi), húngaro (hu) indonesio (id), italiano (it), japonés (ja), coreano (ko), letón (lv), Lituano (lt), noruego (no), polaco (pl), portugués (pt), rumano (ro), ruso (ru), serbio (sr), eslovaco (sk), esloveno (sl), español (es) suajili (sw), sueco (sv), tailandés (th), turco (tr), ucraniano (Reino Unido), Vietnamita (vi)
Gemini 1.5 Pro y Gemini 1.5 Flash los modelos pueden entender y responder en los siguientes idiomas adicionales:
afrikáans (af), amárico (am), asamés (as), azerí (az), Bielorruso (be), bosnio (bs), catalán (ca), cebuano (ceb), corso (co), Galés (cy), dhivehi (dv), esperanto (eo), vasco (UE), persa (fa), filipino (tagalo) (fil), frisón (fy), irlandés (ga), gaélico escocés (gd) Gallego (gl), guyaratí (gu), hala (ha), hawaiano (haw), hmong (hmn), Criollo haitiano (ht), armenio (hy), igbo (ig), islandés (is), javanés (jv), Georgiano (ka), kazajo (kk), jemer (km), canarés (kn), krio (kri), Kurdo (ku), Kirguís (ky), Latín (la), Luxemburgués (lb), Laosiano (lo) Malgache (mg), maorí (mi), macedonio (mk), malabar (ml), mongol (mn), Meiteilon (manipuri) (mni-Mtei), maratí (mr), malayo (ms), maltés (mt), Birmano (mi), nepalí (ne), nyanja (Chichewa) (ny), Oriya (oriya) (o), punjabí (pa), pasto (ps), sindhi (sd), Cingalés (singalés) (si), samoano (sm), shona (sn), somalí (so), albanés (sq), sesoto (st), sondanés (su), tamil (ta), telugu (te), tayiko (tg) Uigur (ug), urdu (ur), uzbeco (uz), xhosa (xh), yidis (yi), yoruba (yo), Zulú (zu)
Próximos pasos
Prueba las funciones de Gemini API
- Crear conversaciones de varios turnos (chat)
- Generar texto desde instrucciones de solo texto.
- Generar texto desde instrucciones multimodales (incluidos texto, imágenes, archivos PDF, videos y audio).
- Usa la llamada a función para conectarte los modelos generativos a la información y los sistemas externos.