При вызове API Gemini из вашего приложения с использованием SDK Firebase AI Logic вы можете поручить модели Gemini генерировать текст на основе мультимодальных входных данных, таких как изображения, видео и аудио, а также документов (например, PDF-файлов).
Необходимо использовать поддерживаемые типы файлов, указать поддерживаемый MIME-тип и убедиться, что ваши файлы и мультимодальные запросы соответствуют требованиям и передовым практикам.
Эта страница посвящена использованию GenerativeModel и описывает следующее:
Подробная информация о поддерживаемых типах MIME, рекомендациях и ограничениях для следующих типов входных файлов:
Изображения | Видео | Аудио | Документы (например, PDF)
Варианты предоставления файлов в многомодальных запросах
Выберите своего поставщика API Gemini, чтобы просмотреть контент, относящийся к данному поставщику, на этой странице. |
В каждом мультимодальном запросе необходимо всегда указывать следующее:
mimeTypeфайла. Список поддерживаемых MIME-типов для каждого входного файла см. в соответствующем разделе этой страницы.Файл. Вы можете указать файл либо в виде встроенных данных , либо используя его URL-адрес .
Размер и количество файлов, которые вы можете предоставить в запросе, определяются типом входного файла, способом его предоставления и используемой моделью (подробности см. в разделе, посвященном каждому типу входного файла на этой странице).
Вариант 1 : Предоставить файл в виде встроенных данных.
Обратите внимание на следующее относительно файлов, предоставляемых в виде встроенных данных:
В качестве встроенных данных можно отправлять только небольшие файлы, поскольку общий размер запроса ограничен 20 МБ.
В процессе передачи файл кодируется в base64 (что увеличивает его размер).
Пример того, как включить файл в качестве встроенных данных, см. в разделе «Генерация текста из текстового и файлового (мультимодального) ввода» . Обратите внимание, что SDK для платформ Android и Apple могут обрабатывать встроенные изображения в запросах без необходимости указывать MIME-тип. Подробнее.
Вариант 2 : Укажите файл, используя URL-адрес.
Ниже перечислены допустимые типы URL-адресов при использовании API разработчика Gemini :
URL видео на YouTube : Видео на YouTube должно быть общедоступным или не включенным в список .
В каждом запросе можно указать только один URL-адрес видео с YouTube.
Изображения : требования, лучшие практики и ограничения
Изображения: Требования
В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на количество запросов изображений.
Поддерживаемые типы MIME
Мультимодальные модели Gemini поддерживают следующие MIME-типы изображений:
- PNG -
image/png - JPEG -
image/jpeg - WebP -
image/webp
Ограничения на один запрос
Конкретного ограничения на количество пикселей в изображении нет. Однако изображения большего размера масштабируются и дополняются, чтобы соответствовать максимальному разрешению 3072 x 3072, сохраняя при этом исходное соотношение сторон.
Максимальное количество файлов на один запрос: 3000 файлов изображений.
Изображения: Токенизация
Вот как вычисляются токены для изображений:
- Если оба параметра изображения меньше или равны 384 пикселям, то используется 258 токенов.
- Если один из параметров изображения превышает 384 пикселя, изображение разрезается на фрагменты. Размер каждого фрагмента по умолчанию равен наименьшему параметру (ширине или высоте), деленному на 1,5. При необходимости каждый фрагмент корректируется таким образом, чтобы его размер не был меньше 256 пикселей и не больше 768 пикселей. Затем размер каждого фрагмента изменяется до 768x768, и для его обработки используется 258 токенов.
Изображения: лучшие практики
При использовании изображений для достижения наилучших результатов следуйте приведенным ниже рекомендациям и рекомендациям:
- Если вы хотите обнаружить текст на изображении, используйте подсказки с одним изображением для получения лучших результатов, чем подсказки с несколькими изображениями.
- Если в вашем запросе содержится одно изображение, разместите его перед текстом запроса.
- Если ваш запрос содержит несколько изображений, и вы хотите ссылаться на них позже в запросе или чтобы модель ссылалась на них в ответе модели, может быть полезно присвоить каждому изображению индекс перед самим изображением. Используйте
abcилиimage 1image 2image 3для вашего индекса. Ниже приведен пример использования индексированных изображений в подсказке:image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Используйте изображения с более высоким разрешением; они дают лучшие результаты.
- Включите несколько примеров в задание.
- Перед добавлением изображений в запрос необходимо повернуть их в нужное положение.
- Избегайте размытых изображений.
Изображения: Ограничения
Хотя мультимодальные модели Gemini обладают высокой эффективностью во многих сценариях использования мультимодальных данных, важно понимать ограничения этих моделей:
- Модерация контента : Модели отказываются отвечать на вопросы об изображениях, нарушающих наши правила безопасности.
- Пространственное мышление : Модели не отличаются точностью в определении местоположения текста или объектов на изображениях. Они могут возвращать лишь приблизительное количество объектов.
- Применение в медицине : Данные модели не подходят для интерпретации медицинских изображений (например, рентгеновских снимков и компьютерной томографии) или предоставления медицинских консультаций.
- Распознавание людей : Модели не предназначены для идентификации людей на изображениях, не являющихся знаменитостями.
- Точность : Модели могут испытывать галлюцинации или допускать ошибки при интерпретации изображений низкого качества, повернутых или с крайне низким разрешением. Модели также могут испытывать галлюцинации при интерпретации рукописного текста в документах с изображениями.
Видео : Требования, лучшие практики и ограничения
Видео: Требования
В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на один запрос видео.
Поддерживаемые типы MIME
Мультимодальные модели Gemini поддерживают следующие MIME-типы видео:
- FLV -
video/x-flv - MOV -
video/quicktime - MPEG -
video/mpeg - MPEGPS -
video/mpegps - MPG -
video/mpg - MP4 -
video/mp4 - WebM -
video/webm - WMV -
video/wmv - 3GPP -
video/3gpp
Ограничения на один запрос
Максимальное количество файлов за один запрос: 10 видеофайлов.
Видео: Токенизация
Вот как рассчитываются токены для видео:
- Звуковая дорожка закодирована видеокадрами. Звуковая дорожка также разбита на
1-секундные фрагменты , каждый из которых содержит 32 токена. Видеокадры и аудиотокены чередуются с их временными метками. Временные метки представлены в виде 5 токенов. - Для видео, частота дискретизации которых составляет
1 кадр в секунду (fps) или ниже, временные метки за первый час видео представлены в виде 5 токенов на каждый видеокадр. Остальные временные метки представлены в виде 7 токенов на каждый видеокадр. - Для видео с частотой дискретизации выше
1 кадра в секунду (fps) временные метки за первый час видео представлены в виде 9 токенов на каждый видеокадр. Остальные временные метки представлены в виде 11 токенов на каждый видеокадр.
Видео: Передовые методы
При использовании видео для достижения наилучших результатов следуйте приведенным ниже рекомендациям и рекомендациям:
- Если в вашем задании содержится одно видео, разместите его перед текстовым заданием.
- Если вам требуется локализация временных меток в видео со звуком, попросите модель сгенерировать временные метки в формате, описанном в разделе «Формат временных меток».
Видео: Ограничения
Хотя мультимодальные модели Gemini обладают высокой эффективностью во многих сценариях использования мультимодальных данных, важно понимать ограничения этих моделей:
- Модерация контента : Модели отказываются отвечать на вопросы по видеороликам, нарушающим наши правила безопасности.
- Распознавание неречевых звуков : Модели, поддерживающие распознавание аудио, могут допускать ошибки при распознавании звуков, не являющихся речью.
Аудио : требования и ограничения
Аудио: Требования
В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на один запрос аудиоданных.
Поддерживаемые типы MIME
Мультимодальные модели Gemini поддерживают следующие MIME-типы аудио:
- AAC -
audio/aac - FLAC -
audio/flac - MP3 -
audio/mp3 - MPA -
audio/m4a - MPEG -
audio/mpeg - MPGA -
audio/mpga - MP4 -
audio/mp4 - OPUS -
audio/opus - PCM -
audio/pcm - WAV -
audio/wav - WEBM -
audio/webm
Ограничения на один запрос
Максимальное количество файлов на один запрос: 1 аудиофайлАудио: Ограничения
Хотя мультимодальные модели Gemini обладают высокой эффективностью во многих сценариях использования мультимодальных данных, важно понимать ограничения этих моделей:
- Распознавание неречевых звуков : Модели, поддерживающие распознавание аудио, могут допускать ошибки при распознавании звуков, не являющихся речью.
- Временные метки для аудиофайлов : Для точного создания временных меток для аудиофайлов необходимо настроить параметр
audio_timestampвgeneration_config.
Документы (например, PDF-файлы) : требования, лучшие практики и ограничения.
Документы: Требования
В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на один запрос для документов (например, PDF-файлов).
Поддерживаемые типы MIME
Мультимодальные модели Gemini поддерживают следующие MIME-типы документов:
- PDF -
application/pdf - Текст -
text/plain
Ограничения на один запрос
PDF-файлы обрабатываются как изображения, поэтому одна страница PDF-файла рассматривается как одно изображение. Количество страниц, разрешенных в запросе, ограничено количеством изображений, которые могут поддерживать мультимодальные модели Gemini .
- Максимальное количество файлов на один запрос: 3000 файлов.
- Максимальное количество страниц в файле: 1000 страниц в файле.
- Максимальный размер файла: 50 МБ.
Документы: Токенизация
токенизация PDF
PDF-файлы обрабатываются как изображения, поэтому каждая страница PDF-файла разбивается на токены так же, как и изображение.
Кроме того, стоимость обработки PDF-файлов соответствует ценообразованию Gemini для изображений . Например, если вы включаете двухстраничный PDF-файл в вызов API Gemini , вы несете плату за обработку двух изображений.
Документы: Передовые методы
При работе с PDF-файлами для достижения наилучших результатов используйте следующие рекомендации и информацию:
- Если ваш запрос содержит один PDF-файл, разместите его перед текстом запроса.
- Если у вас длинный документ, рассмотрите возможность его разделения на несколько PDF-файлов для последующей обработки.
- Используйте PDF-файлы, созданные с текстом, отображаемым как текст, вместо текста из отсканированных изображений. Этот формат гарантирует машинную читаемость текста, что упрощает редактирование, поиск и обработку данных моделью по сравнению с PDF-файлами, созданными на основе отсканированных изображений. Такая практика обеспечивает оптимальные результаты при работе с документами, содержащими много текста, такими как контракты.
Документы: Ограничения
Хотя мультимодальные модели Gemini обладают высокой эффективностью во многих сценариях использования мультимодальных данных, важно понимать ограничения этих моделей:
- Пространственное мышление : Модели не отличаются точностью в определении местоположения текста или объектов в PDF-файлах. Они могут возвращать лишь приблизительное количество объектов.
- Точность : Модели могут давать галлюцинации при интерпретации рукописного текста в PDF-документах.