Mở rộng nội dung của hình ảnh bằng tính năng vẽ tràn viền bằng Imagen


Trang này mô tả cách sử dụng tính năng tạo sinh bên ngoài bằng Imagen để mở rộng nội dung của một hình ảnh ra ngoài đường viền ban đầu bằng cách sử dụng các SDK Firebase AI Logic.

Tính năng mở rộng hình ảnh là một loại chỉnh sửa dựa trên mặt nạ. Mặt nạ là một lớp phủ kỹ thuật số xác định vùng cụ thể mà bạn muốn chỉnh sửa.

Cách hoạt động: Bạn cung cấp một hình ảnh gốc và một hình ảnh được che tương ứng (do bạn cung cấp hoặc được tạo tự động) để xác định mặt nạ của vùng mới được mở rộng. Bạn cũng có thể cung cấp câu lệnh dạng văn bản (không bắt buộc) mô tả nội dung bạn muốn trong vùng mở rộng, hoặc mô hình có thể tự động quyết định nội dung nào sẽ tiếp tục một cách hợp lý cảnh hiện có. Mô hình này sẽ tạo nội dung mới và điền vào vùng bị che.

Ví dụ: bạn có thể thay đổi tỷ lệ khung hình của một hình ảnh hoặc thêm ngữ cảnh nền.

Chuyển đến mã

Trước khi bắt đầu

Chỉ có khi bạn dùng Vertex AI Gemini API làm trình cung cấp API.

Nếu bạn chưa thực hiện, hãy hoàn tất hướng dẫn bắt đầu sử dụng. Hướng dẫn này mô tả cách thiết lập dự án Firebase, kết nối ứng dụng của bạn với Firebase, thêm SDK, khởi chạy dịch vụ phụ trợ cho nhà cung cấp API mà bạn chọn và tạo một thực thể ImagenModel.

Các mô hình hỗ trợ tính năng này

Imagen cung cấp tính năng chỉnh sửa hình ảnh thông qua mô hình capability:

  • imagen-3.0-capability-001

Xin lưu ý rằng đối với các mô hình Imagen, hệ thống không hỗ trợ vị trí global.

Mở rộng nội dung của một hình ảnh

Trước khi dùng thử mẫu này, hãy hoàn tất phần Trước khi bắt đầu của hướng dẫn này để thiết lập dự án và ứng dụng của bạn.

Mẫu sau đây cho biết cách mở rộng một hình ảnh vượt ra ngoài đường viền ban đầu – bằng cách sử dụng một mặt nạ được xác định trong hình ảnh mà bạn cung cấp. Bạn cung cấp hình ảnh gốc, câu lệnh dạng văn bản và hình ảnh được che. Xin lưu ý những điều sau về hình ảnh gốc và hình ảnh đã che:

  • Hình ảnh được che phải có kích thước pixel bằng với kích thước mục tiêu của hình ảnh cuối cùng được mở rộng.

  • Hình ảnh gốc phải có thêm khoảng đệm để phù hợp với kích thước pixel của hình ảnh được che.

Bạn không bắt buộc phải cung cấp câu lệnh dạng văn bản nếu muốn mô hình tự động quyết định nội dung sẽ tiếp tục một cách hợp lý cho cảnh hiện có. Nếu muốn có nội dung cụ thể trong vùng mở rộng, bạn cần chỉ định nội dung đó trong câu lệnh dạng văn bản.

Swift

Swift không hỗ trợ tính năng chỉnh sửa hình ảnh bằng các mô hình Imagen. Hãy kiểm tra lại vào cuối năm nay!

Kotlin

Để mở rộng hình ảnh, hãy dùng editImage() và đặt cấu hình chỉnh sửa để dùng ImagenEditMode.OUTPAINT.
Xin lưu ý rằng bạn có thể tuỳ ý sử dụng outpaintImage() thay vì editImage() và bạn không cần chỉ định chế độ chỉnh sửa.

Hãy xem hướng dẫn bắt đầu nhanh để biết mã mẫu cho tính năng vẽ tràn khung.

Java

Để mở rộng hình ảnh, hãy dùng editImage() và đặt cấu hình chỉnh sửa để dùng ImagenEditMode.OUTPAINT.
Xin lưu ý rằng bạn có thể tuỳ ý sử dụng outpaintImage() thay vì editImage() và bạn không cần chỉ định chế độ chỉnh sửa.

Hãy xem hướng dẫn bắt đầu nhanh để biết mã mẫu cho tính năng vẽ tràn khung.

Web

Các ứng dụng Web không hỗ trợ tính năng chỉnh sửa hình ảnh bằng các mô hình Imagen. Hãy kiểm tra lại vào cuối năm nay!

Dart

Để mở rộng hình ảnh, hãy dùng editImage() và đặt cấu hình chỉnh sửa để dùng ImagenEditMode.OUTPAINT.

Hãy xem hướng dẫn bắt đầu nhanh để biết mã mẫu cho tính năng vẽ tràn khung.

Unity

Unity không hỗ trợ tính năng chỉnh sửa hình ảnh bằng các mô hình Imagen. Hãy kiểm tra lại vào cuối năm nay!

Các phương pháp hay nhất và hạn chế

Bạn nên mở rộng mặt nạ khi chỉnh sửa hình ảnh. Điều này có thể giúp làm mịn đường viền của nội dung chỉnh sửa và khiến nội dung đó trông thuyết phục hơn. Nhìn chung, bạn nên sử dụng giá trị giãn nở là 1% hoặc 2% (0.01 hoặc 0.02).


Gửi ý kiến phản hồi về trải nghiệm của bạn với Firebase AI Logic