Imagen으로 이미지 수정 개요


Vertex AI Gemini API을 API 제공자로 사용하는 경우에만 사용할 수 있습니다.


Firebase AI Logic SDK를 사용하면 Imagen 모델 (Imagen API를 통해)에 액세스할 수 있으므로 다음 중 하나를 사용하여 이미지를 수정할 수 있습니다.

  • 마스크 기반 수정(예: 객체 삽입 및 삭제, 원본 테두리 너머로 이미지 콘텐츠 확장, 배경 교체)

  • 스타일 (예: 패턴, 질감, 아티스트 스타일), 피사체 (예: 제품, 사람, 동물), 제어 (예: 손으로 그린 스케치)에 기반한 맞춤설정 옵션

이 페이지에서는 각 수정 옵션을 개략적으로 설명합니다. 각 옵션에는 자세한 내용과 코드 샘플이 포함된 별도의 페이지가 있습니다.

이 기능을 지원하는 모델

Imagencapability 모델을 통해 이미지 편집을 제공합니다.

  • imagen-3.0-capability-001

Imagen 모델의 경우 global 위치는 지원되지 않습니다.

마스크 기반 수정

마스크 기반 수정을 사용하면 이미지의 특정 부분을 정확하게 수정할 수 있습니다. 모델은 이미지의 정의된 마스크 영역 내에서만 변경합니다. 마스크는 수정할 특정 영역을 정의하는 디지털 오버레이입니다. 마스크 처리된 영역은 모델에서 자동으로 감지하고 만들거나 사용자가 제공하는 마스크 처리된 이미지에서 정의할 수 있습니다. 사용 사례에 따라 모델에서 변경할 사항을 알기 위해 텍스트 프롬프트가 필요할 수 있습니다.

다음은 마스크 기반 편집의 일반적인 사용 사례입니다.

객체 삽입 (인페인팅)

인페인팅을 사용하여 이미지에 객체를 삽입할 수 있습니다.

작동 방식: 원본 이미지와 해당 마스크 이미지(자동 생성 또는 사용자가 제공)를 제공합니다. 이 이미지는 새 콘텐츠를 추가할 영역의 마스크를 정의합니다. 추가하려는 항목을 설명하는 텍스트 프롬프트를 제공할 수도 있습니다. 그런 다음 모델은 마스크 처리된 영역 내에 새 콘텐츠를 생성하고 추가합니다.

예를 들어 테이블을 마스크 처리하고 모델에 꽃병을 추가하라는 메시지를 표시할 수 있습니다.

객체 삭제 (인페인팅)

인페인팅을 사용하여 이미지에서 객체를 삭제할 수 있습니다.

작동 방식: 원본 이미지와 해당 마스크 이미지(자동 생성 또는 사용자가 제공)를 제공합니다. 이 이미지는 삭제하려는 객체 또는 주체에 대한 마스크를 정의합니다. 삭제하려는 항목을 설명하는 텍스트 프롬프트를 선택적으로 제공할 수도 있고, 모델이 삭제할 객체를 지능적으로 감지할 수도 있습니다. 그런 다음 모델이 객체를 삭제하고 맥락에 적합한 새 콘텐츠로 영역을 채웁니다.

예를 들어 공을 마스크 처리하고 빈 벽이나 잔디밭으로 바꿀 수 있습니다.

이미지를 원래 테두리 너머로 확장하기 (아웃페인팅)

아웃페인팅을 사용하여 이미지를 원래 테두리 너머로 확장할 수 있습니다.

작동 방식: 원본 이미지와 해당 마스크 이미지(자동 생성 또는 사용자가 제공)를 제공합니다. 이 이미지는 새로 확장된 영역의 마스크를 정의합니다. 확장된 영역에 원하는 내용을 설명하는 텍스트 프롬프트를 선택적으로 제공할 수도 있고, 모델이 기존 장면을 논리적으로 이어갈 내용을 지능적으로 결정할 수도 있습니다. 모델이 새 콘텐츠를 생성하고 마스크 처리된 영역을 채웁니다.

예를 들어 이미지의 가로세로 비율을 변경하거나 배경 컨텍스트를 추가할 수 있습니다.

배경 바꾸기

이미지의 배경을 바꿀 수 있습니다.

작동 방식: 원본 이미지와 배경에 마스크를 정의하는 해당 마스크 이미지를 제공합니다. 자동 배경 감지를 사용하거나 배경 마스크를 직접 제공합니다. 변경하려는 내용을 설명하는 텍스트 프롬프트도 제공합니다. 그러면 모델이 새 배경을 생성하고 적용합니다.

예를 들어 전경 (예: 제품 이미지)에 영향을 주지 않고 피사체 또는 객체 주변의 설정을 변경할 수 있습니다.

맞춤설정

맞춤설정을 사용하면 모델이 지정된 스타일, 주제 (예: 제품, 사람, 동물) 또는 제어에 따라 새 이미지를 생성하도록 안내하는 텍스트 프롬프트와 참조 이미지를 사용하여 이미지를 편집하거나 생성할 수 있습니다.

스타일을 기반으로 맞춤설정

지정된 스타일에 따라 이미지를 수정하거나 생성할 수 있습니다.

작동 방식: 텍스트 프롬프트와 특정 스타일 (예: 패턴, 텍스처, 디자인 스타일)을 보여주는 참조 이미지를 하나 이상 제공합니다. 모델은 이러한 입력을 사용하여 참조 이미지에 지정된 스타일을 기반으로 새 이미지를 생성합니다.

예를 들어 인기 있는 소매업체 카탈로그의 이미지를 기반으로 주방의 새 이미지를 생성할 수 있습니다.

주제에 따라 맞춤설정

지정된 주제를 기반으로 이미지를 수정하거나 생성할 수 있습니다.

작동 방식: 텍스트 프롬프트와 특정 주제 (예: 제품, 사람, 반려동물)를 보여주는 하나 이상의 참조 이미지를 제공합니다. 모델은 이러한 입력을 사용하여 참조 이미지에 지정된 주체를 기반으로 새 이미지를 생성합니다.

예를 들어 모델에 아이 사진에 만화 스타일을 적용하거나 사진 속 자전거의 색상을 변경해 달라고 요청할 수 있습니다.

컨트롤을 기반으로 맞춤설정

지정된 제어를 기반으로 이미지를 수정하거나 생성할 수 있습니다.

작동 방식: 텍스트 프롬프트와 하나 이상의 제어 참조 이미지 (예: 그림 또는 Canny 윤곽선 이미지)를 제공합니다. 모델은 이러한 입력을 사용하여 제어 이미지를 기반으로 새 이미지를 생성합니다.

예를 들어 로켓과 달 그림을 텍스트 프롬프트와 함께 모델에 제공하여 그림을 기반으로 수채화 그림을 만들 수 있습니다.


Firebase AI Logic 사용 경험에 관한 의견 보내기