При вызове Vertex AI Gemini API из вашего приложения с помощью Vertex AI in Firebase SDK вы можете предложить модели Gemini сгенерировать текст на основе мультимодального ввода. Мультимодальные подсказки могут включать в себя несколько модальностей (или типов ввода), например текст, изображения, PDF-файлы, видео и аудио.
Для нетекстовых частей входных данных (например, мультимедийных файлов) вам необходимо использовать поддерживаемые типы файлов, указать поддерживаемый тип MIME и убедиться, что ваши файлы и мультимодальные запросы соответствуют требованиям и следуют передовым практикам.
На этой странице описано следующее:
Подробная информация о поддерживаемых типах MIME, рекомендациях и ограничениях для следующих входных файлов:
Изображения | Видео | Аудио | Документы (например, PDF-файлы) .
Варианты предоставления файлов в мультимодальных запросах
В каждом мультимодальном запросе вы всегда должны предоставлять следующее:
mimeType
файла. См. поддерживаемые типы MIME каждого входного файла в соответствующем разделе этой страницы.Файл. Вы можете либо предоставить файл, используя его URL/URI , либо предоставить файл как встроенные данные .
Размер и количество файлов, которые вы можете предоставить в запросе, определяются типом входного файла, тем, как вы предоставляете файл, и используемой моделью (более подробную информацию см. в разделе каждого типа входного файла на этой странице).
Вариант 1. Укажите файл, используя URL-адрес или URI.
Ниже приведены допустимые типы URL-адресов или URI:
URL-адрес сегмента Cloud Storage for Firebase : URL-адрес файла должен быть общедоступным , либо вошедший в систему пользователь или клиент должен иметь достаточный доступ к файлу. Узнайте больше о преимуществах Cloud Storage for Firebase , требованиях к URL-адресам и примерах кода .
URL-адрес сегмента Google Cloud Storage . URL-адрес файла должен быть общедоступным .
URL-адреса браузера/HTTP : URL-адрес файла должен быть общедоступным. Примеры включают URL-адреса с сайтов размещения мультимедиа, URL-адреса, на которых непосредственно отображаются медиафайлы (а не веб-страница, на которой размещены медиафайлы), или опубликованный файл Google Диска или Google Workspace.
URL-адрес видео YouTube . Видео YouTube должно быть общедоступным или не внесенным в список .
Узнайте больше о требованиях к URL-адресам и URI в документации Google Cloud .
Вариант 2. Предоставьте файл как встроенные данные.
Обратите внимание на следующее о файлах, представленных в виде встроенных данных:
В виде встроенных данных можно отправлять только небольшие файлы, поскольку общий предел размера запроса составляет 20 МБ.
При передаче файл кодируется в base64 (что увеличивает размер файла).
Примеры включения файлов в качестве встроенных данных см. в разделе Создание текста из мультимодальных подсказок с помощью Gemini API .
Изображения : требования, рекомендации и ограничения.
Изображения: Требования
В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на запрос изображений.
Поддерживаемые типы MIME
Мультимодальные модели Gemini поддерживают следующие типы MIME изображений:
MIME-тип изображения | Близнецы 1.5 Флэш | Близнецы 1.5 Про | Близнецы 1.0 Про Видение |
---|---|---|---|
PNG - image/png | |||
JPEG — image/jpeg | |||
WebP — image/webp |
Ограничения на запрос
Конкретного ограничения на количество пикселей в изображении не существует. Однако изображения большего размера уменьшаются и дополняются до максимального разрешения 3072 x 3072, сохраняя при этом исходное соотношение сторон.
Вот максимальное количество файлов изображений, разрешенное в быстром запросе:
- Gemini 1.0 Pro Vision : 16 изображений
- Gemini 1.5 Flash и Gemini 1.5 Pro : 3000 изображений.
Изображения: токенизация
Вот как рассчитываются токены для изображений:
- Gemini 1.0 Pro Vision : каждое изображение содержит 258 токенов.
- Gemini 1.5 Flash и Gemini 1.5 Pro :
- Если оба размера изображения меньше или равны 384 пикселям, то используется 258 токенов.
- Если одно измерение изображения превышает 384 пикселя, изображение обрезается на фрагменты. По умолчанию каждый размер плитки равен наименьшему размеру (ширине или высоте), разделенному на 1,5. При необходимости каждый тайл корректируется так, чтобы он был не меньше 256 пикселей и не больше 768 пикселей. Затем размер каждой плитки изменяется до 768x768 и используется 258 жетонов.
Изображения: лучшие практики
При использовании изображений для достижения наилучших результатов используйте следующие рекомендации и информацию:
- Если вы хотите обнаружить текст на изображении, используйте подсказки с одним изображением, чтобы получить лучшие результаты, чем подсказки с несколькими изображениями.
- Если ваше приглашение содержит одно изображение, поместите его перед текстовым приглашением в вашем запросе.
- Если ваше приглашение содержит несколько изображений и вы хотите сослаться на них позже в приглашении или чтобы модель ссылалась на них в ответе модели, это может помочь дать каждому изображению индекс перед изображением. Использовать
a
b
c
илиimage 1
image 2
image 3
для вашего индекса. Ниже приведен пример использования индексированных изображений в приглашении:image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Используйте изображения с более высоким разрешением; они дают лучшие результаты.
- Включите в подсказку несколько примеров.
- Поверните изображения в правильную ориентацию, прежде чем добавлять их в подсказку.
- Избегайте размытых изображений.
Изображения: ограничения
Хотя мультимодальные модели Gemini эффективны во многих случаях мультимодального использования, важно понимать ограничения моделей:
- Модерация контента : модели отказываются отвечать на изображения, которые нарушают нашу политику безопасности.
- Пространственное мышление . Модели неточно определяют местоположение текста или объектов на изображениях. Они могут возвращать только приблизительное количество объектов.
- Использование в медицинских целях . Модели не подходят для интерпретации медицинских изображений (например, рентгеновских снимков и компьютерной томографии) или предоставления медицинских консультаций.
- Распознавание людей . Модели не предназначены для идентификации людей, не являющихся знаменитостями на изображениях.
- Точность : модели могут галлюцинировать или допускать ошибки при интерпретации изображений низкого качества, повёрнутых изображений или изображений с очень низким разрешением. Модели также могут галлюцинировать при интерпретации рукописного текста в документах с изображениями.
Видео : Требования, рекомендации и ограничения
Видео: Требования
В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на запрос видео.
Поддерживаемые типы MIME
Мультимодальные модели Gemini поддерживают следующие типы MIME видео:
MIME-тип видео | Близнецы 1.5 Флэш | Близнецы 1.5 Про | Близнецы 1.0 Про Видение |
---|---|---|---|
FLV – video/x-flv | |||
MOV – video/quicktime | |||
MPEG — video/mpeg | |||
MPEGPS — video/mpegps | |||
MPG - video/mpg | |||
MP4 - video/mp4 | |||
WEBM - video/webm | |||
WMV – video/wmv | |||
3GPP — video/3gpp |
Ограничения на запрос
Вот максимальное количество видеофайлов, разрешенное в быстром запросе:
- Gemini 1.0 Pro Vision : 1 видеофайл
- Gemini 1.5 Flash и Gemini 1.5 Pro : 10 видеофайлов
Видео: Токенизация
Вот как рассчитываются токены за видео:
- Все мультимодальные модели Gemini : видео сэмплируется с частотой
1 кадр в секунду (fps) . На каждый видеокадр приходится 258 токенов. - Gemini 1.5 Flash и Gemini 1.5 Pro : звуковая дорожка кодируется видеокадрами. Звуковая дорожка также разбита на
1-секундные фрагменты , каждый из которых содержит 32 токена. Видеокадр и аудиомаркеры чередуются вместе со своими временными метками. Временные метки представлены в виде 7 токенов.
Видео: лучшие практики
При использовании видео для достижения наилучших результатов используйте следующие рекомендации и информацию:
- Если ваше приглашение содержит одно видео, поместите его перед текстовым приглашением.
- Если вам нужна локализация временных меток в видео со звуком, попросите модель сгенерировать временные метки в формате
MM:SS
, где первые две цифры обозначают минуты, а последние две цифры — секунды. Используйте тот же формат для вопросов о временной метке. Обратите внимание на следующее, если вы используете Gemini 1.0 Pro Vision:
- Используйте не более одного видеоролика на одну подсказку.
- Модель обрабатывает информацию только в первые две минуты видео.
- Модель обрабатывает видео как несмежные кадры изображения из видео. Аудио не включено. Если вы заметили, что модели не хватает некоторого контента в видео, попробуйте сделать видео короче, чтобы модель захватывала большую часть видеоконтента.
- Модель не обрабатывает никакой аудиоинформации или метаданных временных меток. Из-за этого модель может не работать должным образом в случаях использования, требующих аудиовхода, например субтитров, или информации, связанной со временем, например скорости или ритма.
Видео: ограничения
Хотя мультимодальные модели Gemini эффективны во многих случаях мультимодального использования, важно понимать ограничения моделей:
- Модерация контента : модели отказываются отвечать на видео, которые нарушают нашу политику безопасности.
- Распознавание неречевого звука . Модели, поддерживающие звук, могут ошибаться при распознавании звука, не являющегося речью.
- Высокоскоростное движение . Модели могут ошибаться в понимании высокоскоростного движения в видео из-за фиксированной частоты дискретизации
1 кадр в секунду (кадр/с) . - Пунктуация транскрипции : (при использовании Gemini 1.5 Flash). Модели могут возвращать транскрипции, не содержащие знаков препинания.
Аудио : требования и ограничения
Аудио: Требования
В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на запрос аудио.
Поддерживаемые типы MIME
Мультимодальные модели Gemini поддерживают следующие типы MIME аудио:
MIME-тип аудио | Близнецы 1.5 Флэш | Близнецы 1.5 Про |
---|---|---|
AAC — audio/aac | ||
FLAC — audio/flac | ||
MP3 - audio/mp3 | ||
МПА — audio/m4a | ||
MPEG — audio/mpeg | ||
MPGA — audio/mpga | ||
MP4 – audio/mp4 | ||
ОПУС — audio/opus | ||
PCM – audio/pcm | ||
WAV — audio/wav | ||
WEBM – audio/webm |
Ограничения на запрос
В запрос на подсказку можно включить максимумАудио: ограничения
Хотя мультимодальные модели Gemini эффективны во многих случаях мультимодального использования, важно понимать ограничения моделей:
- Распознавание неречевого звука . Модели, поддерживающие звук, могут ошибаться при распознавании звука, не являющегося речью.
- Временные метки только для аудио . Чтобы точно генерировать временные метки для файлов, содержащих только аудио, необходимо настроить параметр
audio_timestamp
вgeneration_config
. - Пунктуация транскрипции : (при использовании Gemini 1.5 Flash). Модели могут возвращать транскрипции, не содержащие знаков препинания.
Документы (например, PDF-файлы) : требования, рекомендации и ограничения.
Документы: Требования
В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на запрос документов (например, PDF-файлов).
Поддерживаемые типы MIME
Мультимодальные модели Gemini поддерживают следующие типы MIME документов:
MIME-тип документа | Близнецы 1.5 Флэш | Близнецы 1.5 Про | Близнецы 1.0 Про Видение |
---|---|---|---|
PDF - application/pdf | |||
Текст – text/plain |
Ограничения на запрос
PDF-файлы обрабатываются как изображения, поэтому одна страница PDF-файла рассматривается как одно изображение. Количество страниц, разрешенное в приглашении, ограничено количеством изображений, которые может поддерживать модель:
- Gemini 1.0 Pro Vision : 16 страниц
- Gemini 1.5 Pro и Gemini 1.5 Flash : 1000 страниц.
Документы: Токенизация
Токенизация PDF-файлов
PDF-файлы обрабатываются как изображения, поэтому каждая страница PDF-файла маркируется так же, как и изображение.
Кроме того, стоимость PDF-файлов соответствует ценам на изображения Gemini . Например, если вы включаете двухстраничный PDF-файл в вызов Gemini API, вы несете плату за обработку двух изображений.
Токенизация обычного текста
Обычные текстовые документы маркируются как текст. Например, если вы включаете простой текстовый документ из 100 слов в вызов Gemini API, вы взимаете плату за обработку 100 слов.
Документы: лучшие практики
При использовании PDF-файлов для достижения наилучших результатов используйте следующие рекомендации и информацию:
- Если ваше приглашение содержит один PDF-файл, поместите его перед текстовым приглашением в вашем запросе.
- Если у вас длинный документ, рассмотрите возможность разделения его на несколько PDF-файлов для его обработки.
- Используйте PDF-файлы, созданные с текстом, отображаемым в виде текста, вместо использования текста в отсканированных изображениях. Этот формат обеспечивает машиночитаемость текста, поэтому модели легче редактировать, искать и манипулировать ею по сравнению с PDF-файлами со сканированными изображениями. Эта практика обеспечивает оптимальные результаты при работе с текстовыми документами, такими как контракты.
Документы: ограничения
Хотя мультимодальные модели Gemini эффективны во многих случаях мультимодального использования, важно понимать ограничения моделей:
- Пространственное мышление . Модели неточно определяют местоположение текста или объектов в PDF-файлах. Они могут возвращать только приблизительное количество объектов.
- Точность : модели могут испытывать галлюцинации при интерпретации рукописного текста в документах PDF.