Генерация текста из мультимодальных подсказок с помощью Gemini API,Создание текста из мультимодальных подсказок с помощью Gemini API


При вызове Gemini API из вашего приложения с помощью Vertex AI in Firebase SDK вы можете предложить модели Gemini сгенерировать текст на основе мультимодальных входных данных. Мультимодальные подсказки могут включать в себя несколько модальностей (или типов ввода), например текст, изображения, PDF-файлы, видео и аудио.

Для тестирования и итерации мультимодальных подсказок мы рекомендуем использовать Vertex AI Studio .

Прежде чем начать

Если вы еще этого не сделали, прочтите руководство по началу работы с Vertex AI in Firebase SDK . Убедитесь, что вы выполнили все следующее:

  1. Настройте новый или существующий проект Firebase, включая использование тарифного плана Blaze и включение необходимых API.

  2. Подключите свое приложение к Firebase, включая регистрацию вашего приложения и добавление конфигурации Firebase в ваше приложение.

  3. Добавьте SDK и инициализируйте службу Vertex AI и генеративную модель в своем приложении.

После того как вы подключили свое приложение к Firebase, добавили SDK и инициализировали службу Vertex AI и генеративную модель, вы готовы вызвать Gemini API .

Генерация текста из текста и одного изображения

Прежде чем приступать к работе с этим примером, убедитесь, что вы завершили раздел «Перед началом работы» данного руководства.

Вы можете вызвать Gemini API с помощью мультимодальных приглашений, которые включают как текст, так и один файл (например, изображение, как показано в этом примере). Для этих вызовов вам необходимо использовать модель, поддерживающую мультимодальные подсказки (например, Gemini 1.5 Pro).

Поддерживаемые файлы включают изображения, PDF-файлы, видео, аудио и многое другое. Обязательно ознакомьтесь с требованиями и рекомендациями для входных файлов .

Выберите, хотите ли вы передать ответ в потоковом режиме ( generateContentStream ) или дождаться ответа, пока не будет сгенерирован весь результат ( generateContent ).

Потоковое вещание

Вы можете добиться более быстрого взаимодействия, не дожидаясь получения всего результата от создания модели, а вместо этого используйте потоковую передачу для обработки частичных результатов.

Без потоковой передачи

Альтернативно, вы можете дождаться всего результата вместо потоковой передачи; результат возвращается только после того, как модель завершит весь процесс генерации.

Узнайте, как выбрать модель Gemini и, при необходимости, местоположение, подходящее для вашего варианта использования и приложения.

Генерация текста из текста и нескольких изображений

Прежде чем приступать к работе с этим примером, убедитесь, что вы завершили раздел «Перед началом работы» данного руководства.

Вы можете вызвать Gemini API с помощью мультимодальных приглашений, которые включают как текст, так и несколько файлов (например, изображений, как показано в этом примере). Для этих вызовов вам необходимо использовать модель, поддерживающую мультимодальные подсказки (например, Gemini 1.5 Pro).

Поддерживаемые файлы включают изображения, PDF-файлы, видео, аудио и многое другое. Обязательно ознакомьтесь с требованиями и рекомендациями для входных файлов .

Выберите, хотите ли вы передать ответ в потоковом режиме ( generateContentStream ) или дождаться ответа, пока не будет сгенерирован весь результат ( generateContent ).

Потоковое вещание

Вы можете добиться более быстрого взаимодействия, не дожидаясь получения всего результата от создания модели, а вместо этого используйте потоковую передачу для обработки частичных результатов.

Без потоковой передачи

В качестве альтернативы вы можете дождаться всего результата вместо потоковой передачи; результат возвращается только после того, как модель завершит весь процесс генерации.

Узнайте, как выбрать модель Gemini и, при необходимости, местоположение, подходящее для вашего варианта использования и приложения.

Генерация текста из текста и видео

Прежде чем приступать к работе с этим примером, убедитесь, что вы завершили раздел «Перед началом работы» данного руководства.

Вы можете вызвать Gemini API с помощью мультимодальных подсказок, включающих как текст, так и одно видео (как показано в этом примере). Для этих вызовов вам необходимо использовать модель, поддерживающую мультимодальные подсказки (например, Gemini 1.5 Pro).

Обязательно ознакомьтесь с требованиями и рекомендациями для входных файлов .

Выберите, хотите ли вы передать ответ в потоковом режиме ( generateContentStream ) или дождаться ответа, пока не будет сгенерирован весь результат ( generateContent ).

Потоковое вещание

Вы можете добиться более быстрого взаимодействия, не дожидаясь получения всего результата от создания модели, а вместо этого используйте потоковую передачу для обработки частичных результатов.

Без потоковой передачи

Альтернативно, вы можете дождаться всего результата вместо потоковой передачи; результат возвращается только после того, как модель завершит весь процесс генерации.

Узнайте, как выбрать модель Gemini и, при необходимости, местоположение, подходящее для вашего варианта использования и приложения.

Требования и рекомендации к входным файлам

Чтобы узнать о поддерживаемых типах файлов, о том, как указать тип MIME и как убедиться, что ваши файлы и мультимодальные запросы соответствуют требованиям и соответствуют передовым практикам, см. раздел Поддерживаемые входные файлы и требования для Vertex AI Gemini API .

Что еще вы можете сделать?

  • Узнайте, как подсчитывать токены , прежде чем отправлять модели длинные запросы.
  • Настройте Cloud Storage for Firebase , чтобы можно было включать большие файлы в мультимодальные запросы с помощью URL-адресов Cloud Storage . Файлы могут включать изображения, PDF-файлы, видео и аудио.
  • Начните думать о подготовке к работе, включая настройку Firebase App Check для защиты Gemini API от злоупотреблений со стороны неавторизованных клиентов.

Попробуйте другие возможности Gemini API

Узнайте, как контролировать создание контента

Вы также можете поэкспериментировать с подсказками и конфигурациями модели с помощью Vertex AI Studio .

Узнайте больше о моделях Gemini

Узнайте о моделях, доступных для различных вариантов использования , а также об их квотах и ​​ценах .


Оставьте отзыв о своем опыте использования Vertex AI in Firebase