Cuando llames a Gemini API desde tu app con un SDK de Vertex AI in Firebase, sucederá lo siguiente: puedes indicarle al modelo de Gemini que genere texto basado en una entrada multimodal. Las instrucciones multimodales pueden incluir múltiples modalidades (o tipos de entrada), como texto, imágenes, archivos PDF, videos y audio.
Para probar e iterar instrucciones multimodales, recomendamos usar Vertex AI Studio
Antes de comenzar
Si aún no lo hiciste, completa el guía de introducción para los SDK de Vertex AI in Firebase. Asegúrate de haber realizado todo lo siguiente:
Configurar un proyecto de Firebase nuevo o existente, incluido el uso de Plan de precios Blaze y habilitación de las APIs necesarias.
Conecta tu app a Firebase, incluido el registro y la adición de tu app la configuración de Firebase en tu app.
Agrega el SDK y, luego, inicializa el servicio Vertex AI y el modelo generativo. en tu app.
Después de conectar la app a Firebase, agregar el SDK e inicializar la el servicio de Vertex AI y el modelo generativo, ya puedes llamar a Gemini API.
- Genera texto a partir de texto y una sola imagen
- Genera texto a partir de texto y varias imágenes
- Genera texto a partir de texto y un video
Genera texto a partir de texto y una sola imagen
Asegúrate de haber completado el lab Antes de comenzar de esta guía antes de probar esta muestra.
Puedes llamar a Gemini API con instrucciones multimodales que incluyan lo siguiente: texto y un solo archivo (como una imagen, como se muestra en este ejemplo). Para estos llamadas, debes usar un modelo que admita instrucciones multimodales (como Gemini 1.5 Pro).
Los archivos compatibles incluyen imágenes, PDF, video, audio y mucho más. Asegúrate de revisar el requisitos y recomendaciones para los archivos de entrada
Elige si quieres transmitir la respuesta (generateContentStream
) o esperar.
para la respuesta hasta que se genere el resultado completo (generateContent
).
Transmisión
Puede lograr interacciones más rápidas si no espera el resultado completo de la generación del modelo y, en su lugar, usar la transmisión para manejar resultados parciales.
Sin reproducción
También puedes esperar el resultado completo en lugar de transmitirlo. el resultado solo se muestra después de que el modelo completa toda la generación el proceso de administración de recursos.
Descubre cómo elegir un modelo de Gemini y, opcionalmente, una ubicación adecuados para tu caso de uso y app.
Genera texto a partir de texto y de varias imágenes
Asegúrate de haber completado el lab Antes de comenzar de esta guía antes de probar esta muestra.
Puedes llamar a Gemini API con instrucciones multimodales que incluyan lo siguiente: texto y varios archivos (como imágenes, como se muestra en este ejemplo). Para estos llamadas, debes usar un modelo que admita instrucciones multimodales (como Gemini 1.5 Pro).
Los archivos compatibles incluyen imágenes, PDF, video, audio y mucho más. Asegúrate de revisar el requisitos y recomendaciones para los archivos de entrada
Elige si quieres transmitir la respuesta (generateContentStream
) o esperar.
para la respuesta hasta que se genere el resultado completo (generateContent
).
Transmisión
Puede lograr interacciones más rápidas si no espera el resultado completo de la generación del modelo y, en su lugar, usar la transmisión para manejar resultados parciales.
Sin reproducción
También puedes esperar el resultado completo la transmisión; el resultado solo se devuelve después de que el modelo completa todo de generación de demanda.
Descubre cómo elegir un modelo de Gemini y, opcionalmente, una ubicación adecuados para tu caso de uso y app.
Generar texto a partir de texto y un video
Asegúrate de haber completado el lab Antes de comenzar de esta guía antes de probar esta muestra.
Puedes llamar a Gemini API con instrucciones multimodales que incluyan lo siguiente: texto y un solo video (como se muestra en este ejemplo). Para estos llamadas, debes usar un modelo que admita instrucciones multimodales (como Gemini 1.5 Pro).
Asegúrate de revisar el requisitos y recomendaciones para los archivos de entrada
Elige si quieres transmitir la respuesta (generateContentStream
) o esperar.
para la respuesta hasta que se genere el resultado completo (generateContent
).
Transmisión
Puede lograr interacciones más rápidas si no espera el resultado completo de la generación del modelo y, en su lugar, usar la transmisión para manejar resultados parciales.
Sin reproducción
También puedes esperar el resultado completo en lugar de transmitirlo. el resultado solo se muestra después de que el modelo completa toda la generación el proceso de administración de recursos.
Descubre cómo elegir un modelo de Gemini y, opcionalmente, una ubicación adecuados para tu caso de uso y app.
Requisitos y recomendaciones para los archivos de entrada
Para obtener información sobre los tipos de archivos compatibles, cómo especificar el tipo de MIME y cómo hacer asegúrate de que tus archivos y solicitudes multimodales cumplan con los requisitos y sigan prácticas recomendadas, consulta Archivos de entrada admitidos y requisitos para Vertex AI Gemini API.
¿Qué más puedes hacer?
- Más información para contar tokens antes de enviar instrucciones largas al modelo.
- Configura Cloud Storage for Firebase para que puedas incluir archivos grandes en tus solicitudes multimodales mediante Cloud Storage de URLs. Los archivos pueden incluir imágenes, archivos PDF, videos y audio.
- Comienza a pensar en prepararte para la producción, incluidas configura Firebase App Check para proteger Gemini API del abuso de clientes no autorizados.
Prueba otras funciones de Gemini API
- Crear conversaciones de varios turnos (chat)
- Generar texto desde instrucciones de solo texto.
- Usa la llamada a función para conectarte los modelos generativos a la información y los sistemas externos.
Aprende a controlar la generación de contenido
- Comprender el diseño de mensajes, por ejemplo: prácticas recomendadas, estrategias y ejemplos de instrucciones.
- Configura los parámetros del modelo, como temperatura y máximo de tokens de salida.
- Usa la configuración de seguridad para ajustar la más probabilidades de recibir respuestas que se consideren perjudiciales.
Más información sobre los modelos de Gemini
Obtén más información acerca de la modelos disponibles para varios casos de uso y sus cuotas y precios.Enviar comentarios sobre tu experiencia con Vertex AI in Firebase