Анализируйте видеофайлы с помощью Gemini API.

Вы можете попросить модель Gemini проанализировать видеофайлы, предоставленные вами либо непосредственно (в кодировке base64), либо по URL-адресу. При использовании Firebase AI Logic вы можете отправить этот запрос непосредственно из своего приложения.

Благодаря этой возможности вы можете делать, например, следующее:

Добавьте субтитры и ответьте на вопросы о видео.
Анализ отдельных фрагментов видео с использованием временных меток.
Расшифровка видеоконтента путем обработки как звуковой дорожки, так и видеокадров.
Описывать, сегментировать и извлекать информацию из видео, включая звуковую дорожку и кадры видео.

Это руководство посвящено генерации текста из видеовхода, но вы также можете генерировать изображения из видеовхода .

Перейти к примерам кода Перейти к коду для потоковых ответов

Дополнительные возможности работы с видео см. в других руководствах.
Создание структурированного вывода Многоходовой чат Создание изображений

Прежде чем начать

Чтобы просмотреть контент и код, относящиеся к вашему поставщику API Gemini , нажмите на него.

Если вы еще этого не сделали, пройдите руководство по началу работы , в котором описывается, как настроить проект Firebase, подключить приложение к Firebase, добавить SDK, инициализировать бэкэнд-сервис для выбранного вами поставщика API Gemini и создать экземпляр GenerativeModel .

Для тестирования и доработки ваших подсказок мы рекомендуем использовать Google AI Studio .

Нужен образец видеофайла?

Вы можете использовать этот общедоступный файл с MIME-типом video/mp4 ( просмотреть или скачать файл ). https://storage.googleapis.com/cloud-samples-data/video/animals.mp4

Модели, поддерживающие эту возможность

Данное руководство посвящено генерации текста из видеовхода и применимо к следующим моделям Gemini :

gemini-3.1-pro-preview
gemini-3.6-flash (и более старая версия gemini-3.5-flash )
gemini-3.5-flash-lite (и более старая модель gemini-3.1-flash-lite )
gemini-2.5-pro
gemini-2.5-flash
gemini-2.5-flash-lite

Генерация текста из видеофайлов (закодированных в base64).

Прежде чем опробовать этот пример, выполните раздел «Перед началом работы » этого руководства, чтобы настроить свой проект и приложение.
В этом разделе вам также нужно будет нажать кнопку для выбранного вами поставщика API Gemini , чтобы увидеть на этой странице контент, относящийся к данному поставщику .

Вы можете попросить модель Gemini сгенерировать текст, предоставив текст и видео — указав mimeType каждого входного файла и сам файл. Требования и рекомендации к входным файлам вы найдете далее на этой странице.

Обратите внимание, что в этом примере показано, как указать файл непосредственно в видео, но SDK также поддерживают указание URL-адреса YouTube .