Se usó la API de Cloud Translation para traducir esta página.

Genera texto desde instrucciones multimodales con la API de Gemini

Cuando llames a la API de Gemini desde tu app con un SDK de Vertex AI para Firebase, puedes indicarle al modelo de Gemini que genere texto basado en una entrada multimodal. Las instrucciones multimodales pueden incluir varias modalidades (o tipos de entrada), como texto junto con imágenes, PDF, video y audio.

Para probar y también iterar instrucciones multimodales, recomendamos usar Vertex AI Studio.

Otras opciones para trabajar con la API de Gemini

De forma opcional, puedes llamar al servidor de la API de Vertex AI Gemini con los SDK de Vertex AI del servidor o las Extensiones de Firebase para la API de Gemini.

De manera opcional, puedes probar una versión alternativa de “IA de Google” de la API de Gemini que proporciona acceso sin costo (dentro de los límites y cuando esté disponible) con Google AI Studio y los SDKs de IA de Google.

Si decides usar las herramientas y los servicios de IA de Google además de Firebase, te recomendamos lo siguiente:

No uses Google AI Studio ni los SDK de IA de Google con un proyecto de Firebase que use tu app de producción.

Una vez que conozcas el funcionamiento de la API de Gemini, migra a los SDK de Vertex AI para Firebase, que tienen muchas funciones adicionales importantes en las apps web y para dispositivos móviles, como proteger la API de abusos con la Verificación de aplicaciones de Firebase.

Antes de comenzar

Si aún no lo has hecho, consulta la guía de introducción de los SDK de Vertex AI para Firebase. Asegúrate de haber realizado todo lo siguiente:

Configura un proyecto de Firebase nuevo o existente, incluido el uso del plan de precios Blaze y la habilitación de las APIs necesarias.
Conecta tu app a Firebase, lo que incluye registrar la app y agregar la configuración de Firebase a la app.
Agrega el SDK y, luego, inicializa el servicio de Vertex AI y el modelo generativo en tu app.

Después de conectar la app a Firebase, agregar el SDK e inicializar el servicio de Vertex AI y el modelo generativo, podrás llamar a la API de Gemini.

Genera texto a partir de texto y una sola imagen
Genera texto a partir de texto y varias imágenes
Genera texto a partir de texto y un video

Genera texto a partir de texto y una sola imagen

Asegúrate de completar la sección Antes de comenzar de esta guía antes de probar esta muestra.

Puedes llamar a la API de Gemini con instrucciones multimodales que incluyan tanto texto como un solo archivo (como una imagen, como se muestra en este ejemplo). Para estas llamadas, debes usar un modelo que admita instrucciones multimodales (como Gemini 1.5 Pro).

Los archivos compatibles incluyen imágenes, PDF, video, audio y mucho más. Asegúrate de revisar los requisitos y recomendaciones para los archivos de entrada.

Elige si deseas transmitir la respuesta (generateContentStream) o esperar hasta que se genere el resultado completo (generateContent).

de transmisión

Puedes lograr interacciones más rápidas si no esperas el resultado completo de la generación del modelo y, en su lugar, usa la transmisión para manejar los resultados parciales.

En este ejemplo, se muestra cómo usar generateContentStream() para transmitir texto generado a partir de una solicitud de instrucción multimodal que incluye texto y una sola imagen:

Sin reproducción

Como alternativa, puedes esperar el resultado completo en lugar de la transmisión; el resultado solo se muestra después de que el modelo completa todo el proceso de generación.

En este ejemplo, se muestra cómo usar generateContent() para generar texto a partir de una solicitud de instrucción multimodal que incluye texto y una sola imagen:

Obtén información para elegir un modelo de Gemini y, opcionalmente, una ubicación adecuada para tu caso de uso y app.

Genera texto a partir de texto y de varias imágenes

Asegúrate de completar la sección Antes de comenzar de esta guía antes de probar esta muestra.

Puedes llamar a la API de Gemini con instrucciones multimodales que incluyan tanto texto como varios archivos (como imágenes, como se muestra en este ejemplo). Para estas llamadas, debes usar un modelo que admita instrucciones multimodales (como Gemini 1.5 Pro).

Los archivos compatibles incluyen imágenes, PDF, video, audio y mucho más. Asegúrate de revisar los requisitos y recomendaciones para los archivos de entrada.

Elige si deseas transmitir la respuesta (generateContentStream) o esperar hasta que se genere el resultado completo (generateContent).

de transmisión

Puedes lograr interacciones más rápidas si no esperas el resultado completo de la generación del modelo y, en su lugar, usa la transmisión para manejar los resultados parciales.

En este ejemplo, se muestra cómo usar generateContentStream() para transmitir el texto generado a partir de una solicitud de instrucción multimodal que incluye texto y varias imágenes:

Sin reproducción

Como alternativa, también puedes esperar el resultado completo en lugar de la transmisión; el resultado solo se muestra después de que el modelo completa todo el proceso de generación.

En este ejemplo, se muestra cómo usar generateContent() para generar texto a partir de una solicitud de instrucción multimodal que incluye texto y varias imágenes:

Obtén información para elegir un modelo de Gemini y, opcionalmente, una ubicación adecuada para tu caso de uso y app.

Generar texto a partir de texto y un video

Asegúrate de completar la sección Antes de comenzar de esta guía antes de probar esta muestra.

Puedes llamar a la API de Gemini con instrucciones multimodales que incluyan tanto texto como un solo video (como se muestra en este ejemplo). Para estas llamadas, debes usar un modelo que admita instrucciones multimodales (como Gemini 1.5 Pro).

Asegúrate de revisar los requisitos y recomendaciones para los archivos de entrada.

Elige si deseas transmitir la respuesta (generateContentStream) o esperar hasta que se genere el resultado completo (generateContent).

de transmisión

Puedes lograr interacciones más rápidas si no esperas el resultado completo de la generación del modelo y, en su lugar, usa la transmisión para manejar los resultados parciales.

En este ejemplo, se muestra cómo usar generateContentStream() para transmitir texto generado a partir de una solicitud de instrucción multimodal que incluye texto y un solo video:

Sin reproducción

Como alternativa, puedes esperar el resultado completo en lugar de la transmisión; el resultado solo se muestra después de que el modelo completa todo el proceso de generación.

En este ejemplo, se muestra cómo usar generateContent() para generar texto a partir de una solicitud de instrucción multimodal que incluye texto y un solo video:

Obtén información para elegir un modelo de Gemini y, opcionalmente, una ubicación adecuada para tu caso de uso y app.

Requisitos y recomendaciones para los archivos de entrada

Para obtener información sobre los tipos de archivos admitidos, cómo especificar el tipo de MIME y cómo asegurarte de que tus archivos y solicitudes multimodales cumplan con los requisitos y sigan las prácticas recomendadas, consulta Archivos de entrada compatibles y requisitos para la API de Vertex AI Gemini.

¿Qué más puedes hacer?

Aprende a contar tokens antes de enviar mensajes largos al modelo.
Configura Cloud Storage para Firebase para poder incluir archivos grandes en tus solicitudes multimodales mediante URLs de Cloud Storage. Los archivos pueden incluir imágenes, PDF, videos y audio.
Comienza a pensar en prepararte para la producción, incluida la configuración de la Verificación de aplicaciones de Firebase para proteger la API de Gemini contra los abusos de clientes no autorizados.

Prueba otras funciones de la API de Gemini

Crear conversaciones de varios turnos (chat)
Generar texto a partir de instrucciones solo de texto.
Usa las llamadas a funciones para conectar modelos generativos a información y sistemas externos.

Aprende a controlar la generación de contenido

Comprende el diseño de instrucciones, incluidas las prácticas recomendadas, las estrategias y los ejemplos de instrucciones.
Configura los parámetros del modelo, como la temperatura y la cantidad máxima de tokens de salida.
Usa la configuración de seguridad para ajustar la probabilidad de recibir respuestas que puedan considerarse dañinas.

También puedes experimentar con instrucciones y parámetros de configuración de modelos con Vertex AI Studio.

Más información sobre los modelos de Gemini

Obtén información sobre los modelos disponibles para varios casos de uso y sus cuotas y precios.

Envía comentarios sobre tu experiencia con Vertex AI para Firebase