Обзор редактирования изображений с помощью Imagen


Доступно только при использовании API Vertex AI Gemini в качестве поставщика API.


Пакеты Firebase AI Logic SDK предоставляют вам доступ к моделям Imagen (через API Imagen ), чтобы вы могли редактировать изображения, используя:

  • Редактирование на основе масок , например, вставка и удаление объектов, расширение содержимого изображения за пределы исходных границ и замена фона.

  • Возможности настройки на основе стиля (например, узор, текстура или стиль художника), предмета (например, продукт, человек или животное) или управления (например, нарисованный от руки эскиз).

На этой странице подробно описан каждый вариант редактирования. Для каждого варианта предусмотрена отдельная страница с более подробной информацией и примерами кода.

Модели, поддерживающие эту возможность

Imagen предлагает редактирование изображений с помощью своей модели capability :

  • imagen-3.0-capability-001

Обратите внимание, что для моделей Imagen global местоположение не поддерживается.

Редактирование на основе масок

Редактирование с использованием масок позволяет вносить локальные и точные изменения в изображение. Модель вносит изменения исключительно в пределах определённой замаскированной области изображения. Маска — это цифровое наложение, определяющее конкретную область, которую вы хотите отредактировать. Замаскированная область может быть автоматически обнаружена и создана моделью или задана на предоставленном вами замаскированном изображении. В зависимости от варианта использования, модели может потребоваться текстовая подсказка для определения необходимых изменений.

Вот распространенные варианты использования редактирования на основе масок:

Вставка объектов (инкартинирование)

Для вставки объектов в изображение можно использовать зарисовку.

Как это работает : вы предоставляете исходное изображение и соответствующее изображение-маску (сгенерированное автоматически или предоставленное вами), которое определяет маску над областью, куда вы хотите добавить новый контент. Вы также предоставляете текстовую подсказку с описанием того, что вы хотите добавить. Затем модель генерирует и добавляет новый контент в замаскированную область.

Например, вы можете замаскировать стол и предложить модели добавить вазу с цветами.

Удаление объектов (закрашивание)

Для удаления объектов с изображения можно использовать закрашивание.

Как это работает : вы предоставляете исходное изображение и соответствующее изображение с маской (сгенерированное автоматически или предоставленное вами), которое определяет маску над объектом или субъектом, который вы хотите удалить. Вы также можете предоставить текстовую подсказку с описанием того, что вы хотите удалить, или модель может автоматически определить, какой объект нужно удалить. Затем модель удаляет объект и заполняет область новым, соответствующим контексту содержимым.

Например, вы можете замаскировать мяч и заменить его пустой стеной или травяным полем.

Расширить изображение за пределы его исходных границ (закрашивание)

Вы можете использовать функцию закрашивания , чтобы расширить изображение за пределы его исходных границ .

Как это работает : вы предоставляете исходное изображение и соответствующее изображение с маской (сгенерированное автоматически или предоставленное вами), которое определяет маску новой расширенной области. Вы также можете предоставить текстовую подсказку с описанием того, что вы хотите видеть в расширенной области, или модель может самостоятельно определить, что будет логическим продолжением существующей сцены. Модель генерирует новый контент и заполняет замаскированную область.

Например, вы можете изменить соотношение сторон изображения или добавить дополнительный фоновый контекст.

Заменить фон

Вы можете заменить фон изображения.

Как это работает : вы предоставляете исходное изображение и соответствующее изображение с маской, которое определяет маску поверх фона — либо с помощью автоматического определения фона, либо самостоятельно. Вы также предоставляете текстовую подсказку с описанием того, что вы хотите изменить. Затем модель генерирует и применяет новый фон.

Например, вы можете изменить обстановку вокруг субъекта или объекта, не затрагивая передний план (например, на изображении продукта).

Настройка

Настройка позволяет редактировать или генерировать изображения с использованием текстовых подсказок и эталонных изображений, которые направляют модель для генерации нового изображения на основе указанного стиля , объекта (например, продукта, человека или животного) или элемента управления .

Настроить на основе стиля

Вы можете редактировать или генерировать изображения на основе указанного стиля .

Как это работает : вы предоставляете текстовую подсказку и как минимум одно эталонное изображение, демонстрирующее определённый стиль (например, узор, текстуру или стиль дизайна). Модель использует эти входные данные для генерации нового изображения на основе указанного стиля эталонных изображений.

Например, вы можете создать новое изображение кухни на основе предоставленного вами изображения из популярного розничного каталога.

Настроить на основе темы

Вы можете редактировать или создавать изображения на основе указанной темы .

Как это работает : вы предоставляете текстовую подсказку и как минимум одно эталонное изображение, демонстрирующее конкретный объект (например, продукт, человека или животное). Модель использует эти данные для генерации нового изображения на основе указанного объекта на эталонных изображениях.

Например, вы можете попросить модель применить мультяшный стиль к фотографии ребенка или изменить цвет велосипеда на снимке.

Настроить на основе элемента управления

Вы можете редактировать или генерировать изображения на основе указанного элемента управления .

Как это работает : вы вводите текстовую подсказку и как минимум одно контрольное изображение (например, рисунок или изображение контура Кэнни). Модель использует эти входные данные для генерации нового изображения на основе контрольных изображений.

Например, вы можете предоставить модели рисунок ракеты и Луны, а также текстовую подсказку по созданию акварельной картины на основе этого рисунка.


Оставьте отзыв о своем опыте работы с Firebase AI Logic