При вызове Vertex AI Gemini API из вашего приложения с помощью Vertex AI in Firebase SDK вы можете предложить модели Gemini сгенерировать текст на основе мультимодального ввода. Мультимодальные подсказки могут включать в себя несколько модальностей (или типов ввода), например текст, изображения, PDF-файлы, видео и аудио.
Для нетекстовых частей входных данных (например, медиафайлов) вам необходимо использовать поддерживаемые типы файлов, указать поддерживаемый тип MIME и убедиться, что ваши файлы и мультимодальные запросы соответствуют требованиям и следуют передовым практикам.
На этой странице описаны поддерживаемые типы MIME, рекомендации и ограничения для следующего:
Требования, специфичные для Vertex AI in Firebase SDK
Для Vertex AI in Firebase SDK максимальный общий размер запроса составляет 20 МБ . Вы получаете ошибку HTTP 413, если запрос слишком велик.
Если из-за размера файла общий размер запроса превышает 20 МБ, используйте URL-адрес Cloud Storage for Firebase чтобы включить файл в свой мультимодальный запрос .
Если файл небольшой, вы часто можете передать его напрямую как встроенные данные. Однако обратите внимание, что файл, предоставленный как встроенные данные, при передаче кодируется в base64, что увеличивает размер запроса. Примеры включения файлов в качестве встроенных данных см. в разделе Создание текста из мультимодальных подсказок с помощью Gemini API .
Изображения : требования, рекомендации и ограничения.
Изображения: Требования
В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на запрос изображений.
Поддерживаемые типы MIME
Мультимодальные модели Gemini поддерживают следующие типы MIME изображений:
MIME-тип изображения | Близнецы 1.5 Флэш | Близнецы 1.5 Про | Близнецы 1.0 Про Видение |
---|---|---|---|
PNG - image/png | |||
JPEG — image/jpeg | |||
WebP — image/webp |
Ограничения на запрос
Конкретного ограничения на количество пикселей в изображении не существует. Однако изображения большего размера уменьшаются и дополняются до максимального разрешения 3072 x 3072, сохраняя при этом исходное соотношение сторон.
Вот максимальное количество файлов изображений, разрешенное в быстром запросе:
- Gemini 1.0 Pro Vision : 16 изображений
- Gemini 1.5 Flash и Gemini 1.5 Pro : 3000 изображений.
Изображения: токенизация
Вот как рассчитываются токены для изображений:
- Gemini 1.0 Pro Vision : каждое изображение содержит 258 токенов.
- Gemini 1.5 Flash и Gemini 1.5 Pro :
- Если оба размера изображения меньше или равны 384 пикселям, то используется 258 токенов.
- Если одно измерение изображения превышает 384 пикселя, изображение обрезается на фрагменты. По умолчанию каждый размер плитки равен наименьшему размеру (ширине или высоте), разделенному на 1,5. При необходимости каждый тайл корректируется так, чтобы он был не меньше 256 пикселей и не больше 768 пикселей. Затем размер каждой плитки изменяется до 768x768 и используется 258 жетонов.
Изображения: лучшие практики
При использовании изображений для достижения наилучших результатов используйте следующие рекомендации и информацию:
- Если вы хотите обнаружить текст на изображении, используйте подсказки с одним изображением, чтобы получить лучшие результаты, чем подсказки с несколькими изображениями.
- Если ваше приглашение содержит одно изображение, поместите его перед текстовым приглашением в вашем запросе.
- Если ваше приглашение содержит несколько изображений и вы хотите сослаться на них позже в приглашении или чтобы модель ссылалась на них в ответе модели, это может помочь дать каждому изображению индекс перед изображением. Использовать
a
b
c
илиimage 1
image 2
image 3
для вашего индекса. Ниже приведен пример использования индексированных изображений в приглашении:image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Используйте изображения с более высоким разрешением; они дают лучшие результаты.
- Включите в подсказку несколько примеров.
- Поверните изображения в правильную ориентацию, прежде чем добавлять их в подсказку.
- Избегайте размытых изображений.
Изображения: ограничения
Хотя мультимодальные модели Gemini эффективны во многих случаях мультимодального использования, важно понимать ограничения моделей:
- Модерация контента : модели отказываются отвечать на изображения, которые нарушают нашу политику безопасности.
- Пространственное мышление . Модели неточно определяют местоположение текста или объектов на изображениях. Они могут возвращать только приблизительное количество объектов.
- Использование в медицинских целях . Модели не подходят для интерпретации медицинских изображений (например, рентгеновских снимков и компьютерной томографии) или предоставления медицинских консультаций.
- Распознавание людей . Модели не предназначены для идентификации людей, не являющихся знаменитостями на изображениях.
- Точность : модели могут галлюцинировать или допускать ошибки при интерпретации изображений низкого качества, повёрнутых изображений или изображений с очень низким разрешением. Модели также могут галлюцинировать при интерпретации рукописного текста в документах с изображениями.
Видео : Требования, рекомендации и ограничения
Видео: Требования
В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на запрос видео.
Поддерживаемые типы MIME
Мультимодальные модели Gemini поддерживают следующие типы MIME видео:
MIME-тип видео | Близнецы 1.5 Флэш | Близнецы 1.5 Про | Близнецы 1.0 Про Видение |
---|---|---|---|
FLV – video/x-flv | |||
MOV – video/quicktime | |||
MPEG — video/mpeg | |||
MPEGPS — video/mpegps | |||
MPG - video/mpg | |||
MP4 - video/mp4 | |||
WEBM - video/webm | |||
WMV – video/wmv | |||
3GPP — video/3gpp |
Ограничения на запрос
Вот максимальное количество видеофайлов, разрешенное в быстром запросе:
- Gemini 1.0 Pro Vision : 1 видеофайл
- Gemini 1.5 Flash и Gemini 1.5 Pro : 10 видеофайлов
Видео: Токенизация
Вот как рассчитываются токены за видео:
- Все мультимодальные модели Gemini : видео сэмплируется с частотой
1 кадр в секунду (fps) . На каждый видеокадр приходится 258 токенов. - Gemini 1.5 Flash и Gemini 1.5 Pro : звуковая дорожка кодируется видеокадрами. Звуковая дорожка также разбита на
1-секундные фрагменты , каждый из которых содержит 32 токена. Видеокадр и аудиомаркеры чередуются вместе со своими временными метками. Временные метки представлены в виде 7 токенов.
Видео: лучшие практики
При использовании видео для достижения наилучших результатов используйте следующие рекомендации и информацию:
- Если ваше приглашение содержит одно видео, поместите его перед текстовым приглашением.
- Если вам нужна локализация меток времени в видео со звуком, попросите модель сгенерировать метки времени в формате
MM:SS
, где первые две цифры обозначают минуты, а последние две цифры — секунды. Используйте тот же формат для вопросов о временной метке. Обратите внимание на следующее, если вы используете Gemini 1.0 Pro Vision:
- Используйте не более одного видеоролика на одну подсказку.
- Модель обрабатывает информацию только в первые две минуты видео.
- Модель обрабатывает видео как несмежные кадры изображения из видео. Аудио не включено. Если вы заметили, что модели не хватает некоторого контента в видео, попробуйте сделать видео короче, чтобы модель захватывала большую часть видеоконтента.
- Модель не обрабатывает никакой аудиоинформации или метаданных временных меток. Из-за этого модель может не работать должным образом в случаях использования, требующих аудиовхода, например субтитров, или информации, связанной со временем, например скорости или ритма.
Видео: ограничения
Хотя мультимодальные модели Gemini эффективны во многих случаях мультимодального использования, важно понимать ограничения моделей:
- Модерация контента : модели отказываются отвечать на видео, которые нарушают нашу политику безопасности.
- Распознавание неречевого звука . Модели, поддерживающие звук, могут ошибаться при распознавании звука, не являющегося речью.
- Высокоскоростное движение . Модели могут ошибаться в понимании высокоскоростного движения в видео из-за фиксированной частоты дискретизации
1 кадр в секунду (кадр/с) . - Пунктуация транскрипции : (при использовании Gemini 1.5 Flash). Модели могут возвращать транскрипции, не содержащие знаков препинания.
Аудио : требования и ограничения
Аудио: Требования
В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на запрос аудио.
Поддерживаемые типы MIME
Мультимодальные модели Gemini поддерживают следующие типы MIME аудио:
MIME-тип аудио | Близнецы 1.5 Флэш | Близнецы 1.5 Про |
---|---|---|
AAC — audio/aac | ||
FLAC — audio/flac | ||
MP3 - audio/mp3 | ||
МПА — audio/m4a | ||
MPEG — audio/mpeg | ||
MPGA — audio/mpga | ||
MP4 – audio/mp4 | ||
ОПУС — audio/opus | ||
PCM – audio/pcm | ||
WAV — audio/wav | ||
WEBM – audio/webm |
Ограничения на запрос
В запрос на подсказку можно включить максимумАудио: ограничения
Хотя мультимодальные модели Gemini эффективны во многих случаях мультимодального использования, важно понимать ограничения моделей:
- Распознавание неречевого звука . Модели, поддерживающие звук, могут ошибаться при распознавании звука, не являющегося речью.
- Временные метки только для аудио . Чтобы точно генерировать временные метки для файлов, содержащих только аудио, необходимо настроить параметр
audio_timestamp
вgeneration_config
. - Пунктуация транскрипции : (при использовании Gemini 1.5 Flash). Модели могут возвращать транскрипции, не содержащие знаков препинания.
Документы (например, PDF-файлы) : требования, рекомендации и ограничения.
Документы: Требования
В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на запрос документов (например, PDF-файлов).
Поддерживаемые типы MIME
Мультимодальные модели Gemini поддерживают следующие типы MIME документов:
MIME-тип документа | Близнецы 1.5 Флэш | Близнецы 1.5 Про | Близнецы 1.0 Про Видение |
---|---|---|---|
PDF - application/pdf | |||
Текст – text/plain |
Ограничения на запрос
PDF-файлы обрабатываются как изображения, поэтому одна страница PDF-файла рассматривается как одно изображение. Количество страниц, разрешенное в приглашении, ограничено количеством изображений, которые может поддерживать модель:
- Gemini 1.0 Pro Vision : 16 страниц
- Gemini 1.5 Pro и Gemini 1.5 Flash : 1000 страниц.
Документы: Токенизация
Токенизация PDF-файлов
PDF-файлы обрабатываются как изображения, поэтому каждая страница PDF-файла маркируется так же, как и изображение.
Кроме того, стоимость PDF-файлов соответствует ценам на изображения Gemini . Например, если вы включаете двухстраничный PDF-файл в вызов Gemini API, вы несете плату за обработку двух изображений.
Токенизация обычного текста
Обычные текстовые документы маркируются как текст. Например, если вы включаете простой текстовый документ из 100 слов в вызов Gemini API, вы взимаете плату за обработку 100 слов.
Документы: лучшие практики
При использовании PDF-файлов для достижения наилучших результатов используйте следующие рекомендации и информацию:
- Если ваше приглашение содержит один PDF-файл, поместите его перед текстовым приглашением в вашем запросе.
- Если у вас длинный документ, рассмотрите возможность разделения его на несколько PDF-файлов для его обработки.
- Используйте PDF-файлы, созданные с текстом, отображаемым в виде текста, вместо использования текста в отсканированных изображениях. Этот формат обеспечивает машиночитаемость текста, поэтому модели легче редактировать, искать и манипулировать ею по сравнению с PDF-файлами со сканированными изображениями. Эта практика обеспечивает оптимальные результаты при работе с текстовыми документами, такими как контракты.
Документы: ограничения
Хотя мультимодальные модели Gemini эффективны во многих случаях мультимодального использования, важно понимать ограничения моделей:
- Пространственное мышление . Модели неточно определяют местоположение текста или объектов в PDF-файлах. Они могут возвращать только приблизительное количество объектов.
- Точность : модели могут испытывать галлюцинации при интерпретации рукописного текста в документах PDF.