Vertex AI Gemini API を API プロバイダとして使用している場合にのみ使用できます。 |
Firebase AI Logic SDK を使用すると、Imagen モデル(Imagen API 経由)にアクセスして、次のいずれかの方法で画像を編集できます。
マスクベースの編集(オブジェクトの挿入と削除、元の枠を超えた画像コンテンツの拡大、背景の置き換えなど)
スタイル(パターン、テクスチャ、アーティストのスタイルなど)、被写体(商品、人物、動物など)、制御(手描きのスケッチなど)に基づくカスタマイズ オプション。
このページでは、各編集オプションの概要について説明します。各オプションには、詳細とコードサンプルが記載された独自のページがあります。
この機能をサポートするモデル
Imagen は、capability
モデルを通じて画像編集を提供します。
imagen-3.0-capability-001
Imagen モデルの場合、global
のロケーションはサポートされていません。
マスクベースの編集
マスクベースの編集では、画像に局所的で正確な変更を加えることができます。モデルは、画像の定義されたマスク領域内でのみ変更を行います。マスクは、編集する特定の領域を定義するデジタル オーバーレイです。マスク領域は、モデルによって自動的に検出されて作成されるか、ユーザーが提供するマスクされた画像で定義されます。ユースケースによっては、モデルが変更内容を把握するためにテキスト プロンプトを必要とする場合があります。
マスクベースの編集の一般的なユースケースは次のとおりです。
オブジェクトを挿入する(インペイント)
インペインティングを使用して、画像にオブジェクトを挿入できます。
仕組み: 元の画像と、対応するマスク画像(自動生成またはユーザー指定)を指定します。このマスク画像では、新しいコンテンツを追加する領域のマスクが定義されます。追加したい内容を説明するテキスト プロンプトも指定します。モデルは、マスクされた領域内に新しいコンテンツを生成して追加します。
たとえば、テーブルをマスクして、花瓶を追加するようにモデルに指示できます。
オブジェクトを削除する(インペインティング)
インペインティングを使用すると、画像からオブジェクトを削除できます。
仕組み: 元の画像と、対応するマスク画像(自動生成されたもの、またはユーザーが指定したもの)を指定します。このマスク画像では、削除するオブジェクトまたは被写体の上にマスクが定義されています。削除する内容を説明するテキスト プロンプトを指定することもできます。また、モデルが削除するオブジェクトをインテリジェントに検出することもできます。モデルは、オブジェクトを削除し、新しいコンテキストに適切なコンテンツで領域を塗りつぶします。
たとえば、ボールをマスクして、空白の壁や草の生えたフィールドに置き換えることができます。
元の枠を超えて画像を拡大する(アウトペイント)
アウトペイントを使用すると、画像の元の境界線を越えて画像を拡大できます。
仕組み: 元の画像と、対応するマスク画像(自動生成またはユーザー指定)を指定します。このマスク画像では、新しい拡張領域のマスクが定義されます。拡大された領域に、生成する内容を説明するテキスト プロンプトを入力することもできます。また、モデルが既存のシーンの論理的な続きをインテリジェントに判断することもできます。モデルは新しいコンテンツを生成し、マスクされた領域を塗りつぶします。
たとえば、画像のアスペクト比を変更したり、背景のコンテキストを追加したりできます。
背景を置き換える
画像の背景を置き換えることができます。
仕組み: 元の画像と、背景のマスクを定義する対応するマスクされた画像を指定します。背景の自動検出を使用するか、背景のマスクを自分で指定します。変更したい内容を説明するテキスト プロンプトも指定します。モデルは新しい背景を生成して適用します。
たとえば、前景(商品画像など)に影響を与えずに、被写体やオブジェクトの周囲の設定を変更できます。
カスタマイズ
カスタマイズでは、テキスト プロンプトと参照画像を使用して画像を編集または生成できます。これらのプロンプトと画像は、指定されたスタイル、被写体(商品、人物、動物など)、コントロールに基づいて新しい画像を生成するようにモデルをガイドします。
スタイルに基づいてカスタマイズする
仕組み: テキスト プロンプトと、特定のスタイル(パターン、テクスチャ、デザイン スタイルなど)を示す参照画像を 1 つ以上指定します。モデルはこれらの入力を使用して、参照画像の指定されたスタイルに基づいて新しい画像を生成します。
たとえば、提供した人気のある小売カタログの画像に基づいて、キッチンの新しい画像を生成できます。
件名に基づいてカスタマイズする
仕組み: テキスト プロンプトと、特定の被写体(商品、人物、ペットなど)を示す参照画像を 1 つ以上指定します。モデルはこれらの入力を使用して、参照画像の指定された被写体に基づいて新しい画像を生成します。
たとえば、子供の写真に漫画風のスタイルを適用したり、写真に写っている自転車の色を変更したりできます。
コントロールに基づいてカスタマイズする
指定したコントロールに基づいて画像を編集または生成できます。
仕組み: テキスト プロンプトと、少なくとも 1 つのコントロール参照画像(描画や Canny エッジ画像など)を指定します。モデルはこれらの入力を使用して、制御画像に基づいて新しい画像を生成します。
たとえば、ロケットと月を描いた絵とテキスト プロンプトをモデルに提供して、その絵に基づいて水彩画を作成できます。
Firebase AI Logic の使用感についてフィードバックを送信する