Hệ thống tổng hợp hình ảnh khuếch tán ổn định 2.0 được giới thiệu

Ổn định AI đã xuất bản phiên bản thứ hai của hệ thống máy học khuếch tán ổn định, có khả năng tổng hợp và sửa đổi hình ảnh dựa trên mẫu được đề xuất hoặc mô tả văn bản bằng ngôn ngữ tự nhiên. Mã công cụ để đào tạo mạng thần kinh và tạo hình ảnh được viết bằng Python sử dụng khung PyTorch và được xuất bản theo giấy phép MIT. Các mô hình đã được đào tạo được mở theo giấy phép cho phép Creative ML OpenRAIL-M, cho phép sử dụng thương mại. Ngoài ra, một trình tạo hình ảnh trực tuyến demo cũng có sẵn.

Những cải tiến chính trong phiên bản mới của Khuếch tán ổn định:

  • Một mô hình mới để tổng hợp hình ảnh dựa trên mô tả văn bản — SD2.0-v — đã được tạo, hỗ trợ tạo hình ảnh có độ phân giải 768×768. Mô hình mới được đào tạo bằng cách sử dụng bộ sưu tập LAION-5B gồm 5.85 tỷ hình ảnh với các mô tả bằng văn bản. Mô hình này sử dụng cùng một bộ tham số như mô hình Khuếch tán ổn định 1.5, nhưng khác ở chỗ chuyển đổi sang sử dụng bộ mã hóa OpenCLIP-ViT/H khác về cơ bản, giúp cải thiện đáng kể chất lượng của hình ảnh thu được.
    Hệ thống tổng hợp hình ảnh khuếch tán ổn định 2.0 được giới thiệu
  • Phiên bản cơ sở SD2.0 đơn giản hóa đã được chuẩn bị, đào tạo trên hình ảnh 256×256 bằng cách sử dụng mô hình dự đoán nhiễu cổ điển và hỗ trợ tạo hình ảnh với độ phân giải 512×512.
    Hệ thống tổng hợp hình ảnh khuếch tán ổn định 2.0 được giới thiệu
  • Khả năng sử dụng công nghệ siêu lấy mẫu (Siêu phân giải) được cung cấp để tăng độ phân giải của hình ảnh gốc mà không làm giảm chất lượng, sử dụng thuật toán để chia tỷ lệ không gian và tái tạo chi tiết. Mô hình xử lý hình ảnh được cung cấp (SD20-upscaler) hỗ trợ nâng cấp 2048x, có thể tạo ra hình ảnh có độ phân giải 2048×XNUMX.
    Hệ thống tổng hợp hình ảnh khuếch tán ổn định 2.0 được giới thiệu
  • Mô hình SD2.0-depth2img được đề xuất, có tính đến độ sâu và sự sắp xếp không gian của các đối tượng. Hệ thống MiDaS được sử dụng để ước tính độ sâu bằng một mắt. Mô hình này cho phép bạn tổng hợp các hình ảnh mới bằng cách sử dụng một hình ảnh khác làm mẫu, hình ảnh này có thể hoàn toàn khác với hình ảnh gốc nhưng vẫn giữ nguyên bố cục và độ sâu tổng thể. Ví dụ: bạn có thể sử dụng tư thế của một người trong ảnh để tạo thành một nhân vật khác trong cùng một tư thế.
    Hệ thống tổng hợp hình ảnh khuếch tán ổn định 2.0 được giới thiệu
    Hệ thống tổng hợp hình ảnh khuếch tán ổn định 2.0 được giới thiệu
    Hệ thống tổng hợp hình ảnh khuếch tán ổn định 2.0 được giới thiệu
  • Mô hình sửa đổi hình ảnh đã được cập nhật - SD 2.0-inpainting, cho phép bạn thay thế và thay đổi các phần của hình ảnh bằng lời nhắc văn bản.
    Hệ thống tổng hợp hình ảnh khuếch tán ổn định 2.0 được giới thiệu
  • Các mô hình đã được tối ưu hóa để sử dụng trên các hệ thống thông thường với một GPU.

Hệ thống tổng hợp hình ảnh khuếch tán ổn định 2.0 được giới thiệu


Nguồn: opennet.ru

Thêm một lời nhận xét