The latest Gemini models, like Gemini 3.5 Flash, are available to use with Firebase AI Logic! Learn more.

All Imagen models will shut down as early as June 30, 2026. Learn about migrating your apps to use Nano Banana.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Cómo analizar archivos de video con la API de Gemini

Puedes pedirle a un Gemini modelo que analice los archivos de video que proporcionas de forma intercalada (codificados en base64) o a través de una URL. Cuando usas Firebase AI Logic, puedes realizar esta solicitud directamente desde tu app.

Con esta capacidad, puedes hacer lo siguiente:

Subtitular videos y responder preguntas sobre ellos
Analizar segmentos específicos de un video con marcas de tiempo
Transcribir contenido de video procesando la pista de audio y los fotogramas visuales
Describir, segmentar y extraer información de videos, incluida la pista de audio y los fotogramas visuales

Esta guía trata sobre cómo generar texto a partir de la entrada de video, pero también puedes generar imágenes a partir de la entrada de video.

Ir a ejemplos de código Ir al código de respuestas transmitidas

Consulta otras guías para obtener opciones adicionales para trabajar con videos
Generar resultados estructurados Chat de varias turnos Generar imágenes

Antes de comenzar

Haz clic en tu proveedor de Gemini API para ver el contenido específico del proveedor y el código en esta página.

Si aún no lo hiciste, completa la guía de introducción, en la que se describe cómo configurar tu proyecto de Firebase, conectar tu app a Firebase, agregar el SDK, inicializar el servicio de backend para el proveedor de Gemini API que elijas y crear una instancia de GenerativeModel.

Para probar y, luego, iterar tus instrucciones, te recomendamos que uses Google AI Studio.

¿Necesitas un archivo de video de muestra?

Puedes usar este archivo disponible públicamente con un tipo de MIME de video/mp4 (ver o descargar el archivo). https://storage.googleapis.com/cloud-samples-data/video/animals.mp4

Modelos que admiten esta capacidad

Esta guía trata sobre cómo generar texto a partir de la entrada de video y se aplica a los siguientes Gemini modelos:

gemini-3.1-pro-preview
gemini-3.5-flash
gemini-3.1-flash-lite
gemini-2.5-pro
gemini-2.5-flash
gemini-2.5-flash-lite

Genera texto a partir de archivos de video (codificados en base64)

Antes de probar este ejemplo, completa la sección Antes de comenzar de esta guía para configurar tu proyecto y tu app.
En esa sección, también harás clic en un botón para el Gemini API proveedor que elijas, de modo que veas contenido específico del proveedor en esta página.

Puedes pedirle a un Gemini modelo que genere texto con instrucciones de texto y video, proporcionando el archivo de entrada de cada mimeType y el archivo en sí. Encontrarás los requisitos y las recomendaciones para los archivos de entrada más adelante en esta página.

Ten en cuenta que este ejemplo muestra cómo proporcionar el archivo intercalado, pero los SDKs también admiten proporcionar una URL de YouTube.