Visão geral da edição de imagens com o Imagen


Disponível apenas quando você usa o Vertex AI Gemini API como provedor de API.


Os SDKs do Firebase AI Logic dão acesso aos modelos do Imagen (pela API Imagen) para que você possa editar imagens usando:

  • Edição baseada em máscara, como inserir e remover objetos, expandir o conteúdo da imagem além das bordas originais e substituir fundos

  • Opções de personalização com base em estilo (como padrão, textura ou estilo de artista), assunto (como produto, pessoa ou animal) ou controle (como um esboço desenhado à mão).

Nesta página, descrevemos cada opção de edição em um nível geral. Cada opção tem uma página separada com mais detalhes e exemplos de código.

Modelos compatíveis com esse recurso

O Imagen oferece edição de imagens com o modelo capability:

  • imagen-3.0-capability-001

Para modelos Imagen, o local global não é compatível.

Edição baseada em máscara

Com a edição baseada em máscara, é possível fazer mudanças localizadas e precisas em uma imagem. O modelo faz mudanças exclusivamente em uma área mascarada definida da imagem. Uma máscara é uma sobreposição digital que define a área específica que você quer editar. A área mascarada pode ser detectada e criada automaticamente pelo modelo ou definida em uma imagem mascarada fornecida por você. Dependendo do caso de uso, o modelo pode exigir um comando de texto para saber quais mudanças fazer.

Confira os casos de uso comuns para edição baseada em máscara:

Inserir objetos (retoques)

É possível usar o retoque para inserir objetos em uma imagem.

Como funciona: você fornece uma imagem original e uma imagem mascarada correspondente, gerada automaticamente ou fornecida por você, que define uma máscara em uma área em que você quer adicionar novo conteúdo. Você também pode fornecer um comando de texto descrevendo o que quer adicionar. Em seguida, o modelo gera e adiciona novo conteúdo na área mascarada.

Por exemplo, você pode mascarar uma mesa e pedir ao modelo para adicionar um vaso de flores.

Remover objetos (recomposição)

Use o retoque para remover objetos de uma imagem.

Como funciona: você fornece uma imagem original e uma imagem mascarada correspondente, gerada automaticamente ou fornecida por você, que define uma máscara sobre o objeto ou assunto que você quer remover. Você também pode fornecer um comando de texto descrevendo o que quer remover ou deixar que o modelo detecte de forma inteligente qual objeto remover. Em seguida, o modelo remove o objeto e preenche a área com conteúdo novo e adequado ao contexto.

Por exemplo, você pode mascarar uma bola e substituí-la por uma parede em branco ou um campo gramado.

Expandir uma imagem além das bordas originais (outpainting)

Use a pintura externa para expandir uma imagem além das bordas originais.

Como funciona: você fornece uma imagem original e uma imagem mascarada correspondente, gerada automaticamente ou fornecida por você, que define uma máscara da nova área expandida. Você também pode fornecer um comando de texto descrevendo o que quer na área expandida. Caso contrário, o modelo vai decidir de forma inteligente o que vai continuar a cena atual. O modelo gera o novo conteúdo e preenche a área mascarada.

Por exemplo, você pode mudar a proporção de uma imagem ou adicionar mais contexto de segundo plano.

Substituir o plano de fundo

Você pode substituir o plano de fundo de uma imagem.

Como funciona: você fornece uma imagem original e uma imagem mascarada correspondente que define uma máscara sobre o plano de fundo, usando a detecção automática de plano de fundo ou fornecendo a máscara do plano de fundo por conta própria. Você também pode dar um comando de texto descrevendo o que quer mudar. Em seguida, o modelo gera e aplica um novo plano de fundo.

Por exemplo, é possível mudar a configuração ao redor de um assunto ou objeto sem afetar o primeiro plano (por exemplo, em uma imagem de produto).

Personalização

Com a personalização, é possível editar ou gerar imagens usando comandos de texto e imagens de referência que orientam o modelo a gerar uma nova imagem com base em um estilo, assunto (como um produto, uma pessoa ou um animal) ou um controle especificado.

Personalizar com base em um estilo

É possível editar ou gerar imagens com base em um estilo específico.

Como funciona: você fornece um comando de texto e pelo menos uma imagem de referência que mostre um estilo específico (como um padrão, uma textura ou um estilo de design). O modelo usa essas entradas para gerar uma nova imagem com base no estilo especificado nas imagens de referência.

Por exemplo, você pode gerar uma nova imagem de uma cozinha com base em uma imagem de um catálogo de varejo popular que você fornece.

Personalizar com base em um assunto

É possível editar ou gerar imagens com base em um assunto específico.

Como funciona: você fornece um comando de texto e pelo menos uma imagem de referência que mostre um assunto específico (como um produto, uma pessoa ou um animal de estimação). O modelo usa essas entradas para gerar uma nova imagem com base no objeto especificado nas imagens de referência.

Por exemplo, você pode pedir para o modelo aplicar um estilo de desenho animado a uma foto de uma criança ou mudar a cor de uma bicicleta em uma imagem.

Personalizar com base em um controle

É possível editar ou gerar imagens com base em um controle especificado.

Como funciona: você fornece um comando de texto e pelo menos uma imagem de referência de controle (como um desenho ou uma imagem de borda nítida). O modelo usa essas entradas para gerar uma nova imagem com base nas imagens de controle.

Por exemplo, você pode fornecer ao modelo um desenho de uma nave espacial e da lua, além de um comando de texto para criar uma pintura em aquarela com base no desenho.


Enviar feedback sobre sua experiência com Firebase AI Logic