Hệ thống máy học để tổng hợp hình ảnh và giảm nhiễu trong ảnh đêm

Stability AI đã xuất bản các mô hình làm sẵn cho hệ thống máy học Stable Diffusion, có khả năng tổng hợp và sửa đổi hình ảnh dựa trên mô tả văn bản bằng ngôn ngữ tự nhiên. Các mô hình được cấp phép theo giấy phép Creative ML OpenRAIL-M cho phép sử dụng cho mục đích thương mại. Để đào tạo hệ thống, một cụm gồm 4000 GPU NVIDIA A100 Ezra-1 và bộ sưu tập LAION-5B, bao gồm 5.85 tỷ hình ảnh có mô tả văn bản, đã được sử dụng. Trước đây, mã cho các công cụ đào tạo mạng lưới thần kinh và tạo hình ảnh có nguồn mở theo giấy phép MIT.

Sự sẵn có của một mô hình làm sẵn và các yêu cầu hệ thống khá khiêm tốn cho phép người ta bắt đầu thử nghiệm trên PC với GPU tiêu chuẩn đã dẫn đến sự xuất hiện của một số dự án liên quan:

  • đảo ngược văn bản (mã) - một tiện ích bổ sung cho phép bạn tổng hợp hình ảnh với một ký tự, đối tượng hoặc kiểu nhất định. Trong Khuếch tán ổn định ban đầu, các đối tượng trong hình ảnh tổng hợp là ngẫu nhiên và không thể kiểm soát được. Tiện ích bổ sung được đề xuất cho phép bạn thêm các đối tượng trực quan của riêng mình, liên kết chúng với các từ khóa và sử dụng chúng trong tổng hợp.

    Ví dụ: trong Khuếch tán ổn định thông thường, bạn có thể yêu cầu hệ thống tạo ra hình ảnh có “con mèo trên thuyền”. Ngoài ra, bạn có thể làm rõ đặc điểm của con mèo và con thuyền, nhưng không thể đoán trước được con mèo và con thuyền nào sẽ được tổng hợp. Đảo ngược văn bản cho phép bạn huấn luyện hệ thống dựa trên hình ảnh con mèo hoặc chiếc thuyền của bạn và tổng hợp hình ảnh với một con mèo hoặc chiếc thuyền cụ thể. Theo cách tương tự, nó cũng có thể thay thế các thành phần hình ảnh bằng một số đối tượng nhất định, đặt ví dụ về phong cách trực quan để tổng hợp và chỉ định các khái niệm (ví dụ: từ toàn bộ các bác sĩ, bạn có thể sử dụng lựa chọn chất lượng cao và chính xác hơn theo phong cách mong muốn).

    Hệ thống máy học để tổng hợp hình ảnh và giảm nhiễu trong ảnh đêm

  • ổn định-khuếch tán-hoạt hình - tạo hình ảnh động (chuyển động) dựa trên phép nội suy giữa các hình ảnh được tạo trong Khuếch tán ổn định.
  • stable_diffusion.openvino (mã) - một cổng Khuếch tán ổn định, chỉ sử dụng CPU để tính toán, cho phép thử nghiệm trên các hệ thống không có GPU mạnh. Yêu cầu bộ xử lý được hỗ trợ trong thư viện OpenVINO. Về mặt chính thức, OpenVINO cung cấp các plugin cho bộ xử lý Intel với các tiện ích mở rộng AVX2, AVX-512, AVX512_BF16 và SSE, cũng như cho các bo mạch Raspberry Pi 4 Model B, Apple Mac mini và NVIDIA Jetson Nano. Không chính thức, có thể sử dụng OpenVINO trên bộ xử lý AMD Ryzen.
  • sdamd là một cổng dành cho GPU AMD.
  • Triển khai ban đầu về tổng hợp video.
  • ổn định-khuếch tán-gui, ổn định-khuếch tán-ui, Artbreeder Collage, khuếch tán-phần còn lại - giao diện đồ họa để tạo hình ảnh bằng cách sử dụng Khuếch tán ổn định.
  • beta.dreamstudio.ai, Ôm không gian khuôn mặt, WebUI khuếch tán ổn định hlky - giao diện web để tổng hợp hình ảnh bằng cách sử dụng Khuếch tán ổn định.
  • Các plugin để tích hợp Khuếch tán ổn định với GIMP, Figma, Blender và Photoshop.

Ngoài ra, chúng ta có thể lưu ý đến việc Google xuất bản mã của hệ thống máy học RawNeRF (RAW Neural Radiance Field), hệ thống này cho phép, dựa trên dữ liệu từ một số hình ảnh RAW, để cải thiện chất lượng của các hình ảnh có độ nhiễu cao được chụp trong bóng tối và trong nhà. ánh sáng kém. Ngoài việc loại bỏ nhiễu, các công cụ do dự án phát triển còn có thể tăng chi tiết, loại bỏ độ chói, tổng hợp HDR và ​​​​thay đổi ánh sáng tổng thể trong ảnh, cũng như tái tạo vị trí ba chiều của các vật thể bằng cách sử dụng một số bức ảnh từ các góc khác nhau, thay đổi điểm nhìn, thao tác lấy nét và tạo ra hình ảnh chuyển động.

Hệ thống máy học để tổng hợp hình ảnh và giảm nhiễu trong ảnh đêm
Hệ thống máy học để tổng hợp hình ảnh và giảm nhiễu trong ảnh đêm


Nguồn: opennet.ru

Thêm một lời nhận xét