Tổng quan về cách chỉnh sửa hình ảnh bằng Imagen


Chỉ dùng được khi bạn sử dụng Vertex AI Gemini API làm nhà cung cấp API.


Các SDK Firebase AI Logic cho phép bạn truy cập vào các mô hình Imagen (thông qua API Imagen) để bạn có thể chỉnh sửa hình ảnh bằng:

  • Tính năng chỉnh sửa dựa trên mặt nạ, chẳng hạn như chèn và xoá đối tượng, mở rộng nội dung hình ảnh vượt ra ngoài đường viền ban đầu và thay thế phông nền

  • Tuỳ chỉnh dựa trên kiểu (chẳng hạn như hoa văn, hoạ tiết hoặc phong cách của nghệ sĩ), chủ đề (chẳng hạn như sản phẩm, người hoặc động vật) hoặc kiểm soát (chẳng hạn như bản phác thảo vẽ tay).

Trang này mô tả từng lựa chọn chỉnh sửa ở cấp độ tổng quát. Mỗi lựa chọn đều có một trang riêng biệt với thông tin chi tiết và mẫu mã.

Các mô hình hỗ trợ tính năng này

Imagen cung cấp tính năng chỉnh sửa hình ảnh thông qua mô hình capability:

  • imagen-3.0-capability-001

Xin lưu ý rằng đối với các mô hình Imagen, hệ thống không hỗ trợ vị trí global.

Tính năng chỉnh sửa dựa trên mặt nạ

Tính năng chỉnh sửa dựa trên mặt nạ cho phép bạn thực hiện các thay đổi chính xác, cục bộ đối với một hình ảnh. Mô hình này chỉ thực hiện các thay đổi trong vùng bị che khuất đã xác định của hình ảnh. Mặt nạ là một lớp phủ kỹ thuật số xác định vùng cụ thể mà bạn muốn chỉnh sửa. Mô hình có thể tự động phát hiện và tạo vùng bị che khuất hoặc bạn có thể xác định vùng này trong hình ảnh bị che khuất mà bạn cung cấp. Tuỳ thuộc vào trường hợp sử dụng, mô hình có thể yêu cầu một câu lệnh dạng văn bản để biết những thay đổi cần thực hiện.

Dưới đây là các trường hợp sử dụng phổ biến cho tính năng chỉnh sửa dựa trên mặt nạ:

Chèn đối tượng (tô màu)

Bạn có thể sử dụng tính năng tô màu để chèn đối tượng vào hình ảnh.

Cách hoạt động: Bạn cung cấp một hình ảnh gốc và một hình ảnh bị che khuất tương ứng (do hệ thống tự động tạo hoặc do bạn cung cấp) xác định một mặt nạ trên vùng mà bạn muốn thêm nội dung mới. Bạn cũng cung cấp một câu lệnh dạng văn bản mô tả nội dung bạn muốn thêm. Sau đó, mô hình sẽ tạo và thêm nội dung mới trong vùng bị che khuất.

Ví dụ: bạn có thể che khuất một chiếc bàn và yêu cầu mô hình thêm một bình hoa.

Xoá đối tượng (tô màu)

Bạn có thể sử dụng tính năng tô màu để xoá đối tượng khỏi hình ảnh.

Cách hoạt động: Bạn cung cấp một hình ảnh gốc và một hình ảnh bị che khuất tương ứng (do hệ thống tự động tạo hoặc do bạn cung cấp) xác định một mặt nạ trên đối tượng hoặc chủ thể mà bạn muốn xoá. Bạn cũng có thể tuỳ ý cung cấp một câu lệnh dạng văn bản mô tả nội dung bạn muốn xoá hoặc mô hình có thể tự động phát hiện đối tượng cần xoá. Sau đó, mô hình sẽ xoá đối tượng và điền nội dung mới, phù hợp với bối cảnh vào vùng đó.

Ví dụ: bạn có thể che khuất một quả bóng và thay thế bằng một bức tường trống hoặc một cánh đồng cỏ.

Mở rộng hình ảnh vượt ra ngoài đường viền ban đầu (vẽ mở rộng)

Bạn có thể sử dụng tính năng vẽ mở rộng để mở rộng hình ảnh vượt ra ngoài đường viền ban đầu.

Cách hoạt động: Bạn cung cấp một hình ảnh gốc và một hình ảnh bị che khuất tương ứng (do hệ thống tự động tạo hoặc do bạn cung cấp) xác định một mặt nạ của vùng mới, được mở rộng. Bạn cũng có thể tuỳ ý cung cấp một câu lệnh dạng văn bản mô tả nội dung bạn muốn trong vùng được mở rộng hoặc mô hình có thể tự động quyết định nội dung nào sẽ tiếp tục cảnh hiện có một cách hợp lý. Mô hình sẽ tạo nội dung mới và điền vào vùng bị che khuất.

Ví dụ: bạn có thể thay đổi tỷ lệ khung hình của hình ảnh hoặc thêm bối cảnh nền.

Thay thế phông nền

Bạn có thể thay thế phông nền của hình ảnh.

Cách hoạt động: Bạn cung cấp một hình ảnh gốc và một hình ảnh bị che khuất tương ứng xác định một mặt nạ trên phông nền (bằng cách sử dụng tính năng tự động phát hiện phông nền hoặc tự cung cấp mặt nạ của phông nền). Bạn cũng cung cấp một câu lệnh dạng văn bản mô tả nội dung bạn muốn thay đổi. Sau đó, mô hình sẽ tạo và áp dụng một phông nền mới.

Ví dụ: bạn có thể thay đổi chế độ cài đặt xung quanh một chủ thể hoặc đối tượng mà không ảnh hưởng đến tiền cảnh (ví dụ: trong hình ảnh sản phẩm).

Tuỳ chỉnh

Tuỳ chỉnh cho phép bạn chỉnh sửa hoặc tạo hình ảnh bằng cách sử dụng câu lệnh dạng văn bản và hình ảnh tham khảo hướng dẫn mô hình tạo hình ảnh mới dựa trên một kiểu, chủ thể (như sản phẩm, người hoặc động vật) hoặc một chế độ điều khiển được chỉ định.

Tuỳ chỉnh dựa trên kiểu

Bạn có thể chỉnh sửa hoặc tạo hình ảnh dựa trên một kiểu được chỉ định.

Cách hoạt động: Bạn cung cấp một câu lệnh dạng văn bản và ít nhất một hình ảnh tham khảo cho thấy một kiểu cụ thể (như hoạ tiết, kết cấu hoặc kiểu thiết kế). Mô hình sử dụng các thông tin đầu vào này để tạo hình ảnh mới dựa trên kiểu được chỉ định trong hình ảnh tham khảo.

Ví dụ: bạn có thể tạo hình ảnh mới về một nhà bếp dựa trên hình ảnh từ một danh mục bán lẻ phổ biến mà bạn cung cấp.

Tuỳ chỉnh dựa trên chủ thể

Bạn có thể chỉnh sửa hoặc tạo hình ảnh dựa trên một chủ thể được chỉ định.

Cách hoạt động: Bạn cung cấp một câu lệnh dạng văn bản và ít nhất một hình ảnh tham khảo cho thấy một chủ thể cụ thể (như sản phẩm, người hoặc động vật). Mô hình sử dụng các thông tin đầu vào này để tạo hình ảnh mới dựa trên chủ thể được chỉ định trong hình ảnh tham khảo.

Ví dụ: bạn có thể yêu cầu mô hình áp dụng kiểu hoạt hình cho ảnh của một đứa trẻ hoặc thay đổi màu sắc của một chiếc xe đạp trong ảnh.

Tuỳ chỉnh dựa trên chế độ điều khiển

Bạn có thể chỉnh sửa hoặc tạo hình ảnh dựa trên một chế độ điều khiển được chỉ định.

Cách hoạt động: Bạn cung cấp một câu lệnh dạng văn bản và ít nhất một hình ảnh tham khảo chế độ điều khiển (như bản vẽ hoặc hình ảnh cạnh Canny). Mô hình sử dụng các thông tin đầu vào này để tạo hình ảnh mới dựa trên hình ảnh điều khiển.

Ví dụ: bạn có thể cung cấp cho mô hình một bản vẽ về tàu vũ trụ và mặt trăng cùng với một câu lệnh dạng văn bản để tạo bức tranh màu nước dựa trên bản vẽ đó.


Gửi ý kiến phản hồi về trải nghiệm của bạn với Firebase AI Logic