Imagen을 사용하여 지정된 스타일에 따라 이미지 맞춤설정


이 페이지에서는 Imagen맞춤설정 기능을 사용하여 Firebase AI Logic SDK를 통해 스타일을 지정하여 이미지를 수정하거나 생성하는 방법을 설명합니다.

작동 방식: 텍스트 프롬프트와 특정 스타일 (예: 패턴, 텍스처, 디자인 스타일)을 보여주는 하나 이상의 참조 이미지를 제공합니다. 모델은 이러한 입력을 사용하여 참조 이미지에 지정된 스타일을 기반으로 새 이미지를 생성합니다.

예를 들어 인기 있는 소매업체 카탈로그의 이미지를 기반으로 주방의 새 이미지를 생성할 수 있습니다.

코드로 이동



시작하기 전에

Vertex AI Gemini API를 API 제공업체로 사용하는 경우에만 사용할 수 있습니다.

아직 완료하지 않았다면 Firebase 프로젝트를 설정하고, 앱을 Firebase에 연결하고, SDK를 추가하고, 선택한 API 제공업체의 백엔드 서비스를 초기화하고, ImagenModel 인스턴스를 만드는 방법을 설명하는 시작 가이드를 완료합니다.

이 기능을 지원하는 모델

Imagencapability 모델을 통해 이미지 편집을 제공합니다.

  • imagen-3.0-capability-001

Imagen 모델의 경우 global 위치는 지원되지 않습니다.

스타일 맞춤설정 요청 전송

다음 샘플은 제공된 참조 이미지(이 예에서는 반 고흐의 '별이 빛나는 밤')의 스타일로 새 이미지를 생성하도록 모델에 요청하는 스타일 맞춤설정 요청을 보여줍니다.

이 페이지의 뒷부분에 있는 프롬프트 템플릿을 검토하여 프롬프트를 작성하는 방법과 프롬프트 내에서 참조 이미지를 사용하는 방법을 알아보세요.

Swift

Swift에서는 Imagen 모델을 사용한 이미지 수정이 지원되지 않습니다. 올해 다시 확인해 주세요.

Kotlin

// Using this SDK to access Imagen models is a Preview release and requires opt-in
@OptIn(PublicPreviewAPI::class)
suspend fun customizeImage() {
    // Initialize the Vertex AI Gemini API backend service
    // Optionally specify the location to access the model (for example, `us-central1`)
    val ai = Firebase.ai(backend = GenerativeBackend.vertexAI(location = "us-central1"))

    // Create an `ImagenModel` instance with an Imagen "capability" model
    val model = ai.imagenModel("imagen-3.0-capability-001")

    // This example assumes 'referenceImage' is a pre-loaded Bitmap.
    // In a real app, this might come from the user's device or a URL.
    val referenceImage: Bitmap = TODO("Load your reference image Bitmap here")

    // Define the style reference using the reference image.
    val styleReference = ImagenStyleReference(
        image = referenceImage,
        referenceID = 1,
        description = "Van Gogh style"
    )

    // Provide a prompt that describes the final image.
    // The "[1]" links the prompt to the style reference with ID 1.
    val prompt = "A cat flying through outer space, in the Van Gogh style[1]"

    // Use the editImage API to perform the style customization.
    // Pass the list of references, the prompt, and an editing configuration.
    val editedImage = model.editImage(
        referenceImages = listOf(styleReference),
        prompt = prompt,
        config = ImagenEditingConfig(
            editSteps = 50 // Number of editing steps, a higher value can improve quality
        )
    )

    // Process the result
}

Java

// Initialize the Vertex AI Gemini API backend service
// Optionally specify the location to access the model (for example, `us-central1`)
// Create an `ImagenModel` instance with an Imagen "capability" model
ImagenModel imagenModel = FirebaseAI.getInstance(GenerativeBackend.vertexAI("us-central1"))
        .imagenModel(
                /* modelName */ "imagen-3.0-capability-001");

ImagenModelFutures model = ImagenModelFutures.from(imagenModel);

// This example assumes 'referenceImage' is a pre-loaded Bitmap.
// In a real app, this might come from the user's device or a URL.
Bitmap referenceImage = null; // TODO("Load your image Bitmap here");

// Define the style reference using the reference image.
ImagenStyleReference subjectReference = new ImagenStyleReference.Builder()
        .setImage(referenceImage)
        .setReferenceID(1)
        .setDescription("Van Gogh style")
        .build();

// Provide a prompt that describes the final image.
// The "[1]" links the prompt to the style reference with ID 1.
String prompt = "A cat flying through outer space, in the Van Gogh style[1]";

// Define the editing configuration.
ImagenEditingConfig imagenEditingConfig = new ImagenEditingConfig.Builder()
        .setEditSteps(50) // Number of editing steps, a higher value can improve quality
        .build();

// Use the editImage API to perform the style customization.
// Pass the list of references, the prompt, and the editing configuration.
Futures.addCallback(model.editImage(Collections.singletonList(styleReference), prompt, imagenEditingConfig), new FutureCallback<ImagenGenerationResponse>() {
    @Override
    public void onSuccess(ImagenGenerationResponse result) {
        if (result.getImages().isEmpty()) {
            Log.d("TAG", "No images generated");
        }
        Bitmap bitmap = ((ImagenInlineImage) result.getImages().get(0)).asBitmap();
        // Use the bitmap to display the image in your UI
    }

    @Override
    public void onFailure(Throwable t) {
        // ...
    }
}, Executors.newSingleThreadExecutor());

Web

Imagen 모델을 사용한 이미지 편집은 웹 앱에서 지원되지 않습니다. 올해 다시 확인해 주세요.

Dart

import 'dart:typed_data';
import 'package:firebase_ai/firebase_ai.dart';
import 'package:firebase_core/firebase_core.dart';
import 'firebase_options.dart';

// Initialize FirebaseApp
await Firebase.initializeApp(
  options: DefaultFirebaseOptions.currentPlatform,
);

// Initialize the Vertex AI Gemini API backend service
// Optionally specify a location to access the model (for example, `us-central1`)
final ai = FirebaseAI.vertexAI(location: 'us-central1');

// Create an `ImagenModel` instance with an Imagen "capability" model
final model = ai.imagenModel(model: 'imagen-3.0-capability-001');

// This example assumes 'referenceImage' is a pre-loaded Uint8List.
// In a real app, this might come from the user's device or a URL.
final Uint8List referenceImage = Uint8List(0); // TODO: Load your reference image data here

// Define the style reference using the reference image.
final styleReference = ImagenStyleReference(
  image: referenceImage,
  referenceId: 1,
  description: 'Van Gogh style',
);

// Provide a prompt that describes the final image.
// The "[1]" links the prompt to the style reference with ID 1.
final prompt = "A cat flying through outer space, in the Van Gogh style[1]";

try {
  // Use the editImage API to perform the style customization.
  // Pass the list of references, the prompt, and an editing configuration.
  final response = await model.editImage(
    [styleReference],
    prompt,
    config: ImagenEditingConfig(
      editSteps: 50, // Number of editing steps, a higher value can improve quality
    ),
  );

  // Process the result.
  if (response.images.isNotEmpty) {
    final editedImage = response.images.first.bytes;
    // Use the editedImage (a Uint8List) to display the image, save it, etc.
    print('Image successfully generated!');
  } else {
    // Handle the case where no images were generated.
    print('Error: No images were generated.');
  }
} catch (e) {
  // Handle any potential errors during the API call.
  print('An error occurred: $e');
}

Unity

Imagen 모델을 사용한 이미지 수정은 Unity에서 지원되지 않습니다. 올해 다시 확인해 주세요.

프롬프트 템플릿

요청에서 이미지의 참조 ID (선택적으로 스타일 설명도)를 지정하는 ImagenStyleReference를 정의하여 참조 이미지(최대 4개 이미지)를 제공합니다. 여러 이미지가 동일한 참조 ID를 가질 수 있습니다 (예: 동일한 패턴의 여러 사진).

그런 다음 프롬프트를 작성할 때 이러한 ID를 참조합니다. 예를 들어 프롬프트에서 [1]를 사용하여 참조 ID가 1인 이미지를 참조합니다. 주제 설명을 제공하는 경우 프롬프트에 포함하여 사람이 프롬프트를 더 쉽게 읽을 수 있도록 할 수도 있습니다.

다음 표에는 스타일을 기반으로 맞춤설정을 위한 프롬프트를 작성할 때 시작점으로 사용할 수 있는 프롬프트 템플릿이 나와 있습니다.

사용 사례 참조 이미지 프롬프트 템플릿
객체 스타일 피사체 이미지(1-4) 다음 캡션을 바탕으로 STYLE_DESCRIPTION [1]의 이미지를 생성해 줘: IMAGE_DESCRIPTION. 다음 캡션을 바탕으로 neon sign style [1]의 이미지를 생성해 줘: a sign saying have a great day.
얼굴 메시 입력을 사용하지 않은 사람 이미지 스타일 지정 피사체 이미지(1-4) 다음 설명과 일치하는 SUBJECT_DESCRIPTION [1] 이미지를 만들어 줘: SUBJECT_DESCRIPTION [1]의 초상화 ${PROMPT} 다음 설명과 일치하는 a woman with short hair[1] 이미지를 만들어 줘: a woman with short hair[1]의 초상화, 배경이 흐리게 처리된 3D 만화 스타일. 카메라를 향하고 미소 짓는 얼굴을 한 귀엽고 사랑스러운 캐릭터, 파스텔 색조 ...
얼굴 메시 입력을 통한 사람 이미지 스타일 지정 피사체 이미지(1-3)

얼굴 메시 대조 이미지(1)
설명과 일치하는 CONTROL_IMAGE [2]의 포즈로 SUBJECT_DESCRIPTION [1]에 관한 이미지를 만들어 줘: SUBJECT_DESCRIPTION [1]의 초상화 ${PROMPT} 다음 설명과 일치하는 a woman with short hair [1] 이미지를 만들어 줘: control image [2]의 포즈를 취한 a woman with short hair [1]의 초상화로 배경이 흐리게 처리된 3D 만화 스타일. 카메라를 향하고 있으며, 미소 짓는 얼굴을 가진 귀엽고 사랑스러운 캐릭터, 파스텔 색조 ...



권장사항 및 제한사항

사용 사례

맞춤설정 기능은 자유 형식의 프롬프트를 제공하므로 모델이 학습된 것보다 더 많은 작업을 할 수 있다는 인상을 줄 수 있습니다. 다음 섹션에서는 맞춤설정의 의도된 사용 사례의도하지 않은 사용 사례의 예시를 설명합니다.

의도한 사용 사례에 이 기능을 사용하는 것이 좋습니다. 이러한 사용 사례에 대해 모델을 학습시켰으므로 좋은 결과를 기대할 수 있기 때문입니다. 반대로 의도한 사용 사례를 벗어나는 작업을 모델에 푸시하면 결과가 좋지 않을 수 있습니다.

의도된 사용 사례

다음은 의도된 스타일 기반 맞춤설정의 사용 사례입니다.

  • 참조 이미지에서 제공하는 특정 스타일을 따르는 텍스트 입력에서 이미지를 생성합니다.

  • 사람 사진을 변경합니다.

  • 사람의 사진을 변경하고 얼굴 표정을 유지합니다.

의도하지 않은 사용 사례의 예시

다음은 스타일을 기반으로 한 맞춤설정의 의도하지 않은 사용 사례의 일부 목록입니다. 이러한 사용 사례에 대해 모델이 학습되지 않았으므로 좋지 않은 결과가 나올 수 있습니다.

  • 텍스트와 참조 이미지를 사용하여 이미지를 생성하고 참조 이미지에서 생성된 구성을 어느 정도 제어합니다.

  • 특정 표정을 짓고 있는 사람이 있는 참조 이미지에서 사람의 이미지를 생성합니다.

  • 두 사람을 서로 다른 장면에 배치하고, 신원을 보존하면서 참조 이미지를 사용하여 출력 이미지의 스타일(예: 유화)을 지정합니다.

  • 반려동물의 사진에 스타일을 지정하고 그림으로 변환하면서 이미지의 구성을 유지하거나 지정합니다.

  • 쿠키나 소파와 같은 제품을 다양한 제품 각도와 특정 이미지 스타일(예: 특정 색상, 조명 스타일 또는 애니메이션이 있는 사실적인 이미지)에 따라 다양한 장면에 배치합니다.