Visão geral da edição de imagens com o Imagen


Disponível apenas ao usar Vertex AI Gemini API como provedor de API.


Os Firebase AI Logic SDKs oferecem acesso aos Imagen modelos (pela Imagen API) para que você possa editar imagens usando:

  • Edição baseada em máscara, como inserir e remover objetos, expandir o conteúdo da imagem além das bordas originais e substituir planos de fundo

  • Opções de personalização com base no estilo (como padrão, textura ou estilo de artista), tema (como produto, pessoa ou animal) ou controle (como um esboço desenhado à mão).

Esta página descreve cada opção de edição em um nível alto. Cada opção tem uma página separada com mais detalhes e exemplos de código.

Modelos que oferecem suporte a esse recurso

Imagen oferece edição de imagens pelo modelo capability:

  • imagen-3.0-capability-001

Para os modelos Imagen, o local global não tem suporte.

Edição baseada em máscara

A edição baseada em máscara permite fazer mudanças localizadas e precisas em uma imagem. O modelo faz mudanças exclusivamente em uma área mascarada definida da imagem. Uma máscara é uma sobreposição digital que define a área específica que você quer editar. A área mascarada pode ser detectada e criada automaticamente pelo modelo ou definida em uma imagem mascarada fornecida por você. Dependendo do caso de uso, o modelo pode exigir um comando de texto para saber quais mudanças fazer.

Confira os casos de uso comuns para edição baseada em máscara:

Inserir objetos (retoque)

Você pode usar o retoque para inserir objetos em uma imagem.

Como funciona: você fornece uma imagem original e uma imagem mascarada correspondente, gerada automaticamente ou fornecida por você, que define uma máscara sobre uma área em que você quer adicionar novo conteúdo. Você também fornece um comando de texto descrevendo o que quer adicionar. Em seguida, o modelo gera e adiciona novo conteúdo na área mascarada.

Por exemplo, você pode mascarar uma mesa e pedir ao modelo para adicionar um vaso de flores.

Remover objetos (retoque)

Você pode usar o retoque para remover objetos de uma imagem.

Como funciona: você fornece uma imagem original e uma imagem mascarada correspondente, gerada automaticamente ou fornecida por você, que define uma máscara sobre o objeto ou tema que você quer remover. Você também pode fornecer um comando de texto descrevendo o que quer remover, ou o modelo pode detectar de forma inteligente qual objeto remover. Em seguida, o modelo remove o objeto e preenche a área com conteúdo novo e contextual.

Por exemplo, você pode mascarar uma bola e substituí-la por uma parede em branco ou um campo gramado

Expandir uma imagem além das bordas originais (pintura externa)

Você pode usar pintura externa para expandir uma imagem além das bordas originais.

Como funciona: você fornece uma imagem original e uma imagem mascarada correspondente, gerada automaticamente ou fornecida por você, que define uma máscara da nova área expandida. Você também pode fornecer um comando de texto descrevendo o que quer na área expandida, ou o modelo pode decidir de forma inteligente o que vai continuar logicamente a cena atual. O modelo gera o novo conteúdo e preenche a área mascarada.

Por exemplo, você pode mudar a proporção de uma imagem ou adicionar mais contexto de plano de fundo.

Substituir o plano de fundo

Você pode substituir o plano de fundo de uma imagem.

Como funciona: você fornece uma imagem original e uma imagem mascarada correspondente que define uma máscara sobre o plano de fundo, usando a detecção automática de plano de fundo ou fornecendo a máscara do plano de fundo. Você também fornece um comando de texto descrevendo o que quer mudar. Em seguida, o modelo gera e aplica um novo plano de fundo.

Por exemplo, você pode mudar a configuração em torno de um tema ou objeto sem afetar o primeiro plano (por exemplo, em uma imagem de produto).

Personalização

A personalização permite editar ou gerar imagens usando comandos de texto e imagens de referência que orientam o modelo a gerar uma nova imagem com base em um estilo, tema (como um produto, pessoa ou animal) ou um controle especificado.

Personalizar com base em um estilo

Você pode editar ou gerar imagens com base em um estilo especificado.

Como funciona: você fornece um comando de texto e pelo menos uma imagem de referência que mostra um estilo específico (como um padrão, textura ou estilo de design). O modelo usa essas entradas para gerar uma nova imagem com base em no estilo especificado nas imagens de referência.

Por exemplo, você pode gerar uma nova imagem de uma cozinha com base em uma imagem de um catálogo de varejo popular que você fornece.

Personalizar com base em um tema

Você pode editar ou gerar imagens com base em um tema especificado.

Como funciona: você fornece um comando de texto e pelo menos uma imagem de referência que mostra um tema específico (como um produto, pessoa ou animal de estimação). O modelo usa essas entradas para gerar uma nova imagem com base no tema especificado nas imagens de referência.

Por exemplo, você pode pedir ao modelo para aplicar um estilo de desenho animado a uma foto de uma criança ou mudar a cor de uma bicicleta em uma imagem.

Personalizar com base em um controle

Você pode editar ou gerar imagens com base em um controle especificado.

Como funciona: você fornece um comando de texto e pelo menos uma controle imagem de referência (como um desenho ou uma imagem de borda nítida). O modelo usa essas entradas para gerar uma nova imagem com base nas imagens de controle.

Por exemplo, você pode fornecer ao modelo um desenho de um foguete e da lua, além de um comando de texto para criar uma pintura em aquarela com base no desenho.


Enviar feedback sobre sua experiência com Firebase AI Logic