Imagen으로 이미지 수정 개요


Vertex AI Gemini API를 API 제공업체로 사용하는 경우에만 사용할 수 있습니다.


Firebase AI Logic SDK를 사용하면 Imagen 모델 (Imagen API)에 액세스하여 다음 중 하나를 사용하여 이미지를 수정할 수 있습니다.

  • 객체 삽입 및 삭제, 원래 테두리 너머로 이미지 콘텐츠 확장, 배경 바꾸기와 같은 마스크 기반 수정

  • 맞춤설정 옵션: 스타일 (예: 패턴, 텍스처 또는 아티스트 스타일), 피사체 (예: 제품, 사람 또는 동물) 또는 제어 (예: 손으로 그린 스케치) 기반

이 페이지에서는 각 수정 옵션을 개략적으로 설명합니다. 각 옵션에는 세부정보와 코드 샘플이 포함된 별도의 페이지가 있습니다.

이 기능을 지원하는 모델

Imagencapability 모델을 통해 이미지 수정을 제공합니다.

  • imagen-3.0-capability-001

Imagen 모델의 경우 global 위치는 지원되지 않습니다.

마스크 기반 수정

마스크 기반 수정 을 사용하면 이미지에 로컬화된 정밀한 변경사항을 적용할 수 있습니다. 모델은 이미지의 정의된 마스크 영역 내에서만 변경합니다. 마스크 는 수정하려는 특정 영역을 정의하는 디지털 오버레이입니다. 마스크 영역은 모델에서 자동으로 감지하고 만들거나 사용자가 제공하는 마스크 이미지에서 정의할 수 있습니다. 사용 사례에 따라 모델에서 어떤 변경사항을 적용해야 하는지 알기 위해 텍스트 프롬프트가 필요할 수 있습니다.

다음은 마스크 기반 수정의 일반적인 사용 사례입니다.

객체 삽입 (인페인팅)

인페인팅을 사용하여 이미지에 객체를 삽입할 수 있습니다.

작동 방식: 새 콘텐츠를 추가하려는 영역에 마스크를 정의하는 원본 이미지와 해당 마스크 이미지(자동 생성 또는 사용자가 제공)를 제공합니다. 추가하려는 항목을 설명하는 텍스트 프롬프트도 제공합니다. 그러면 모델이 마스크 영역 내에 새 콘텐츠를 생성하고 추가합니다.

예를 들어 테이블을 마스크 처리하고 모델에 꽃병을 추가하도록 프롬프트를 표시할 수 있습니다.

객체 삭제 (인페인팅)

인페인팅을 사용하여 이미지에서 객체를 삭제할 수 있습니다.

작동 방식: 삭제하려는 객체 또는 피사체에 마스크를 정의하는 원본 이미지와 해당 마스크 이미지(자동 생성 또는 사용자가 제공)를 제공합니다. 삭제하려는 항목을 설명하는 텍스트 프롬프트를 선택적으로 제공할 수도 있고 모델에서 삭제할 객체를 지능적으로 감지할 수도 있습니다. 그러면 모델이 객체를 삭제하고 영역을 새로운 상황에 맞는 콘텐츠로 채웁니다.

예를 들어 공을 마스크 처리하고 빈 벽이나 잔디밭으로 바꿀 수 있습니다.

이미지를 원래 테두리 너머로 확장 (아웃페인팅)

아웃페인팅을 사용하여 이미지를 원래 테두리 너머로 확장할 수 있습니다.

작동 방식: 원본 이미지와 해당 마스크 이미지(자동 생성 또는 사용자가 제공)를 제공하여 새 확장 영역의 마스크를 정의합니다. 확장 영역에 원하는 항목을 설명하는 텍스트 프롬프트를 선택적으로 제공할 수도 있고 모델에서 기존 장면을 논리적으로 계속할 항목을 지능적으로 결정할 수도 있습니다. 모델은 새 콘텐츠를 생성하고 마스크 영역을 채웁니다.

예를 들어 이미지의 가로세로 비율을 변경하거나 배경 컨텍스트를 추가할 수 있습니다.

배경 바꾸기

이미지의 배경을 바꿀 수 있습니다.

작동 방식: 원본 이미지와 배경에 마스크를 정의하는 해당 마스크 이미지(자동 배경 감지 사용 또는 배경 마스크 직접 제공)를 제공합니다. 변경하려는 항목을 설명하는 텍스트 프롬프트도 제공합니다. 그러면 모델이 새 배경을 생성하고 적용합니다.

예를 들어 전경에 영향을 주지 않고 피사체 또는 객체 주변의 설정을 변경할 수 있습니다 (예: 제품 이미지).

맞춤설정

맞춤설정을 사용하면 모델이 지정된 스타일, 피사체 (예: 제품, 사람 또는 동물) 또는 컨트롤을 기반으로 새 이미지를 생성하도록 안내하는 텍스트 프롬프트와 참조 이미지를 사용하여 이미지를 수정하거나 생성할 수 있습니다.

스타일을 기반으로 맞춤설정

지정된 스타일을 기반으로 이미지를 수정하거나 생성할 수 있습니다.

작동 방식: 텍스트 프롬프트와 특정 스타일 (예: 패턴, 텍스처 또는 디자인 스타일)을 보여주는 참조 이미지를 하나 이상 제공합니다. 모델은 이러한 입력을 사용하여 참조 이미지의 지정된 스타일을 기반으로 새 이미지를 생성합니다.

예를 들어 제공하는 인기 소매 카탈로그의 이미지 를 기반으로 새 주방 이미지를 생성할 수 있습니다.

피사체를 기반으로 맞춤설정

지정된 피사체를 기반으로 이미지를 수정하거나 생성할 수 있습니다.

작동 방식: 텍스트 프롬프트와 특정 피사체 (예: 제품, 사람 또는 반려동물)를 보여주는 참조 이미지를 하나 이상 제공합니다. 모델은 이러한 입력을 사용하여 참조 이미지의 지정된 피사체를 기반으로 새 이미지를 생성합니다.

예를 들어 모델에 어린이 사진에 만화 스타일을 적용하거나 그림에서 자전거의 색상을 변경하도록 요청할 수 있습니다.

컨트롤을 기반으로 맞춤설정

지정된 컨트롤을 기반으로 이미지를 수정하거나 생성할 수 있습니다.

작동 방식: 텍스트 프롬프트와 컨트롤 참조 이미지 (예: 그림 또는 캐니 윤곽선 이미지)를 하나 이상 제공합니다. 모델은 이러한 입력을 사용하여 컨트롤 이미지를 기반으로 새 이미지를 생성합니다.

예를 들어 모델에 로켓과 달 그림을 텍스트 프롬프트와 함께 제공하여 그림을 기반으로 수채화를 만들 수 있습니다.


의견 보내기 Firebase AI Logic 사용 경험에 관한