При вызове API Vertex AI Gemini из вашего приложения с помощью Vertex AI for Firebase SDK вы можете предложить модели Gemini сгенерировать текст на основе мультимодального ввода. Мультимодальные подсказки могут включать в себя несколько модальностей (или типов ввода), например текст, изображения, PDF-файлы, видео и аудио.
Для нетекстовых частей входных данных (например, медиафайлов) вам необходимо использовать поддерживаемые типы файлов, указать поддерживаемый тип MIME и убедиться, что ваши файлы и мультимодальные запросы соответствуют требованиям и следуют передовым практикам.
Поддерживаемые входные файлы зависят от модели и могут включать изображения, PDF-файлы, видео и аудио.
- Обратите внимание, что поддерживаемый видеовход также зависит от модели и может включать только кадры или кадры со звуком.
Требования и рекомендации для входных файлов и мультимодальных запросов:
В разделе «Знакомство с моделями Gemini» вы можете найти краткий обзор требований к поддерживаемым файлам в зависимости от модели (например, максимальное количество файлов и максимальный размер файла).
В документации Google Cloud вы можете узнать подробную информацию о требованиях и рекомендациях для входных файлов и мультимодальных запросов (например, поддерживаемые типы MIME и когда предоставлять входной файл в запросе).
Требования, специфичные для Vertex AI для Firebase SDK
Для Vertex AI for Firebase SDK максимальный размер запроса составляет 20 МБ . Вы получаете ошибку HTTP 413, если запрос слишком велик.
Если из-за размера файла общий размер запроса превышает 20 МБ, используйте URL-адрес Cloud Storage for Firebase, чтобы включить файл в свой мультимодальный запрос .
Если файл небольшой, вы часто можете передать его напрямую как встроенные данные. Однако обратите внимание, что файл, предоставленный как встроенные данные, при передаче кодируется в base64, что увеличивает размер запроса. Примеры включения файлов в качестве встроенных данных см. в разделе Создание текста из мультимодальных подсказок с помощью Gemini API .