Семейство моделей Gemini считается мультимодальным , поскольку они способны обрабатывать информацию из нескольких модальностей, включая изображения, видео и текст. Например, вы можете отправить модели Близнецов фотографию тарелки печенья и попросить ее дать вам рецепт этого печенья.
Быстрый | Ответ |
Подскажите рецепт этого печенья. | **ИНГРЕДИЕНТЫ** - 1 гр. (2 палочки) несоленого сливочного масла, размягченного - 3/4 гр. сахарный песок - 3/4 гр. коричневый сахар, фасованный - 1 ч. л. экстракт ванили - 2 больших яйца - 2 1/4 гр. универсальная мука - 1 ч. л. пищевая сода - 1 ч. л. соль ... |
Вы можете взаимодействовать с семейством моделей Gemini, используя Gemini API предоставляемый Vertex AI в Google Cloud . Для мобильных и веб-приложений вы можете использовать Vertex AI in Firebase SDK, чтобы вызывать API Gemini и взаимодействовать с моделями Gemini непосредственно из вашего приложения.
На этой странице представлена следующая информация о моделях Gemini:
Высокоуровневое сравнение вариантов использования различных моделей Gemini, включая поддерживаемые ими типы ввода.
Сравнение деталей для каждой модели , например максимального количества входных токенов или максимальной длины видео.
Описание того, как создаются версии моделей Gemini, в частности их стабильных , автоматически обновляемых и предварительных версий.
Списки доступных названий моделей для включения в ваш код во время инициализации.
Список поддерживаемых языков для моделей Gemini.
Доступные модели
Вы можете использовать любую из следующих моделей Gemini с Vertex AI in Firebase :
Близнецы 1.5 Флэш
Мультимодальная модель, которая поддерживает те же типы ввода и вывода, что и 1.5 Pro, но с долгосрочным пониманием 1 миллиона токенов. Gemini 1.5 Flash специально разработан для экономичных и больших объемов приложений.Близнецы 1.5 Про
Мультимодальная модель, поддерживающая добавление изображений, аудио, видео и PDF-файлов в текстовые или чат-подсказки для текстового или кодового ответа. Кроме того, он поддерживает понимание длительного контекста с помощью 2 миллионов токенов.Близнецы 1.0 Про Видение
Мультимодальная модель, предназначенная для обработки текста, изображений и видео для текстового или кодового ответа. Невозможно использовать для чата.Близнецы 1.0 Про
Модель предназначена для решения задач на естественном языке, многоповоротного чата с текстом и кодом, а также генерации кода.
Перейдите к названиям моделей, чтобы включить их в свой код.
Варианты использования и возможности для каждой модели
Каждая модель Gemini имеет разные возможности для поддержки различных вариантов использования. Подробнее о каждой из моделей Gemini можно узнать в документации Google Cloud .
Поддерживаемый ввод и вывод для каждой модели
Близнецы 1.5 Флэш | Близнецы 1.5 Про | Близнецы 1.0 Про Видение | Близнецы 1.0 Про | |
---|---|---|---|---|
Типы ввода | ||||
Текст | ||||
Код | ||||
Изображение | ||||
Видео (только кадры) | ||||
Видео (кадры и аудио) | ||||
Аудио | ||||
Типы вывода | ||||
Текст | ||||
Структурированный вывод (например, JSON) с использованием схемы ответа | ||||
Код |
Дополнительные сведения о поддерживаемых типах файлов см. в разделе Поддерживаемые входные файлы и требования для Vertex AI Gemini API .
Поддерживаемые возможности и общие функции для каждой модели
Близнецы 1.5 Флэш | Близнецы 1.5 Про | Близнецы 1.0 Про Видение | Близнецы 1.0 Про | ||
---|---|---|---|---|---|
Генерация текста из текстового ввода | |||||
Генерация текста из мультимодального ввода | |||||
Структурированный вывод (например, JSON) с использованием схемы ответа | |||||
Многоходовой чат | |||||
Вызов функции | |||||
Вызов основной функции | |||||
Параллельный вызов функций | |||||
Режим вызова функций | |||||
Подсчет токенов и оплачиваемых персонажей | |||||
Системные инструкции |
Подробная информация о каждой модели
Свойство | Близнецы 1.5 Флэш | Близнецы 1.5 Про | Близнецы 1.0 Про Видение | Близнецы 1.0 Про |
---|---|---|---|---|
Общий лимит токенов (комбинированный ввод и вывод) * | 1 048 576 токенов | 2 097 152 жетона | 16 384 жетона | 32 760 токенов |
Лимит выходных токенов * | 8 192 жетона | 8 192 жетона | 2048 токенов | 8 192 жетона |
Максимальное количество изображений на запрос | 3000 изображений | 3000 изображений | 16 изображений | Н/Д |
Максимальный размер изображения в кодировке Base64 | 7 МБ | 7 МБ | 7 МБ | Н/Д |
Максимальный размер PDF | 30 МБ | 30 МБ | 30 МБ | Н/Д |
Максимальное количество видеофайлов на запрос | 10 видеофайлов | 10 видеофайлов | 1 видеофайл | Н/Д |
Максимальная длина видео (только кадры) | ~60 минут видео | ~60 минут видео | 2 минуты | Н/Д |
Максимальная длина видео (кадры и звук) | ~45 минут видео | ~45 минут видео | Н/Д | Н/Д |
Максимальное количество аудиофайлов на запрос | 1 аудиофайл | 1 аудиофайл | Н/Д | Н/Д |
Максимальная длина звука | ~8,4 часа аудио | ~8,4 часа аудио | Н/Д | Н/Д |
* Для всех моделей Gemini токен эквивалентен примерно 4 символам, поэтому 100 токенов — это примерно 60–80 английских слов. Вы можете определить общее количество токенов в ваших запросах, используя countTokens
.
Узнайте о поддерживаемых типах файлов, о том, как указать тип MIME и как убедиться, что ваши файлы и мультимодальные запросы соответствуют требованиям, и следуйте рекомендациям в разделе Поддерживаемые входные файлы и требования для Vertex AI Gemini API .
Версионирование моделей
Модели Gemini предлагаются в стабильной , автоматически обновляемой и предварительной версиях.
Стабильные версии считаются общедоступными.
- В стабильных версиях к названиям моделей добавляется определенный трехзначный номер версии, например
gemini-1.5-pro-002
.
- В стабильных версиях к названиям моделей добавляется определенный трехзначный номер версии, например
Автоматически обновляемые версии всегда указывают на последнюю стабильную версию этой модели; если выпускается новая стабильная версия, автоматически обновляемая версия автоматически начинает указывать на эту новую стабильную версию.
- Автоматически обновляемые версии имеют названия моделей без придатков, например
gemini-1.5-pro
.
- Автоматически обновляемые версии имеют названия моделей без придатков, например
Предварительные версии имеют новые возможности и считаются нестабильными . Обратите внимание, что предварительные версии всегда указывают на последнюю предварительную версию этой модели; если выпускается новая предварительная версия, любая существующая предварительная версия автоматически начинает указывать на эту новую предварительную версию.
- В предварительных версиях к названиям моделей добавляется
-preview
вместе с первоначальной датой выпуска модели (-MMDD
), напримерgemini-1.5-pro-preview-0409
(выпущен 9 апреля 2024 г.).
- В предварительных версиях к названиям моделей добавляется
Узнайте больше о доступных версиях моделей Gemini и их жизненном цикле в документации Google Cloud .
Доступные названия моделей
Имена моделей — это явные значения, которые вы включаете в свой код во время инициализации генеративной модели (что является обязательным шагом для вызова Gemini API ). Примеры инициализации для вашего языка см. в руководстве по началу работы .
Названия моделей Gemini 1.5 Flash
Название модели | Описание | Стадия релиза | Дата первоначального выпуска | Дата прекращения |
---|---|---|---|---|
Стабильные версии | ||||
gemini-1.5-flash-002 | Последняя стабильная версия Gemini 1.5 Flash. | Общая доступность | 2024-09-24 | Не ранее 24 сентября 2025 г. |
gemini-1.5-flash-001 | Начальная стабильная версия Gemini 1.5 Flash | Общая доступность | 2024-05-24 | Не ранее 24 мая 2025 г. |
Автоматически обновляемая версия | ||||
gemini-1.5-flash | Указывает на последнюю стабильную версию 1.5 Flash. (в настоящее время gemini-1.5-flash-002 ) | Общая доступность | 2024-09-24 | --- |
Названия моделей Gemini 1.5 Pro
Название модели | Описание | Стадия релиза | Дата первоначального выпуска | Дата прекращения |
---|---|---|---|---|
Стабильные версии | ||||
gemini-1.5-pro-002 | Последняя стабильная версия Gemini 1.5 Pro | Общая доступность | 2024-09-24 | Не ранее 24 сентября 2025 г. |
gemini-1.5-pro-001 | Начальная стабильная версия Gemini 1.5 Pro | Общая доступность | 2024-05-24 | Не ранее 24 мая 2025 г. |
Автоматически обновляемая версия | ||||
gemini-1.5-pro | Указывает на последнюю стабильную версию 1.5 Pro. (в настоящее время gemini-1.5-pro-002 ) | Общая доступность | 2024-09-24 | --- |
Названия моделей Gemini 1.0 Pro Vision
Название модели | Описание | Стадия релиза | Дата первоначального выпуска | Дата прекращения |
---|---|---|---|---|
Стабильные версии | ||||
gemini-1.0-pro-vision-001 | Последняя стабильная версия Gemini 1.0 Pro Vision | Общая доступность | 15 февраля 2024 г. | Не ранее 15 февраля 2025 г. |
Автоматически обновляемая версия | ||||
gemini-1.0-pro-vision | Указывает на последнюю стабильную версию 1.5 Pro Vision. (в настоящее время gemini-1.5-pro-vision-001 ) | Общая доступность | 2024-01-04 | --- |
Названия моделей Gemini 1.0 Pro
Название модели | Описание | Стадия релиза | Дата первоначального выпуска | Дата прекращения |
---|---|---|---|---|
Стабильные версии | ||||
gemini-1.0-pro-002 | Последняя стабильная версия Gemini 1.0 Pro | Общая доступность | 09.04.2024 | Не ранее 09 апреля 2025 г. |
gemini-1.0-pro-001 | Стабильная версия Gemini 1.0 Pro | Общая доступность | 15 февраля 2024 г. | Не ранее 15 февраля 2025 г. |
Автоматически обновляемая версия | ||||
gemini-1.0-pro | Указывает на последнюю стабильную версию 1.0 Pro. (в настоящее время gemini-1.0-pro-002 ) | Общая доступность | 15 февраля 2024 г. | --- |
Поддерживаемые языки
Все модели Gemini понимают и отвечают на следующих языках:
арабский (ar), бенгальский (bn), болгарский (bg), китайский упрощенный и традиционный (zh), хорватский (hr), чешский (cs), датский (da), голландский (nl), английский (en), эстонский ( et), финский (fi), французский (fr), немецкий (de), греческий (el), иврит (iw), хинди (hi), венгерский (hu), индонезийский (id), итальянский (it), японский ( ja), корейский (ko), латышский (lv), литовский (lt), норвежский (no), польский (pl), португальский (pt), румынский (ro), русский (ru), сербский (sr), словацкий (sk), словенский (sl), испанский (es), суахили (sw), шведский (sv), тайский (th), турецкий (tr), украинский (uk), вьетнамский (vi)
Модели Gemini 1.5 Pro и Gemini 1.5 Flash могут понимать и отвечать на следующих дополнительных языках:
Африкаанс (af), амхарский (am), ассамский (as), азербайджанский (az), белорусский (be), боснийский (bs), каталанский (ca), кебуанский (ceb), корсиканский (co), валлийский (cy), Дивехи (dv), эсперанто (eo), баскский (eu), персидский (fa), филиппинский (тагальский) (fil), фризский (fy), ирландский (ga), шотландский гэльский (gd), галисийский (gl), гуджарати (gu), хауса (ha), гавайский (haw), хмонг (hmn), гаитянский креольский (ht), армянский (hy), игбо (ig), исландский (is), яванский (jv), грузинский (ka), казахский (kk), кхмерский (km), каннада (kn), крио (kri), курдский (ku), киргизский (ky), латинский (la), люксембургский (lb), лаосский (lo), малагасийский (mg), маори (mi), македонский (mk), малаялам (ml), монгольский (mn), мейтейлон (манипури) (mni-Mtei), маратхи (mr), малайский (ms), мальтийский (mt), Мьянма (бирманский) (мой), непальский (не), Ньянджа (Чичева) (нью), Одиа (Ория) (или), пенджабский (па), пушту (пс), Синдхи (sd), сингальский (сингальский) (si), самоанский (sm), шона (sn), сомалийский (so), албанский (sq), сесото (st), сунданский (su), тамильский (ta), телугу ( тэ), таджикский (tg), уйгурский (ug), урду (ur), узбекский (uz), коса (xh), идиш (yi), йоруба (yo), зулу (zu)
Следующие шаги
Опробуйте возможности Gemini API
- Стройте многоходовые беседы (чат) .
- Генерация текста из текстовых подсказок .
- Генерируйте текст из мультимодальных подсказок (включая текст, изображения, PDF-файлы, видео и аудио).
- Генерируйте структурированный вывод (например, JSON) как из текстовых, так и из мультимодальных подсказок.
- Используйте вызов функций для подключения генеративных моделей к внешним системам и информации.