Systemy uczenia maszynowego do syntezy obrazu i redukcji szumów w zdjęciach nocnych

Stability AI opublikowało gotowe modele systemu uczenia maszynowego Stable Diffusion, zdolnego do syntezy i modyfikacji obrazów na podstawie opisu tekstowego w języku naturalnym. Modele są objęte licencją liberalną Creative ML OpenRAIL-M do użytku komercyjnego. Do wytrenowania systemu wykorzystano klaster 4000 procesorów graficznych NVIDIA A100 Ezra-1 oraz kolekcję LAION-5B obejmującą 5.85 miliarda obrazów z opisami tekstowymi. Wcześniej kod narzędzi do uczenia sieci neuronowej i generowania obrazów był udostępniany na zasadach open source na licencji MIT.

Dostępność gotowego modelu i dość skromne wymagania systemowe, które pozwalają na rozpoczęcie eksperymentów na komputerze PC ze standardowymi procesorami graficznymi, doprowadziły do ​​powstania szeregu powiązanych projektów:

  • inwersja tekstu (kod) - dodatek pozwalający na syntezę obrazków z określonym charakterem, obiektem czy stylem. W oryginalnej wersji Stable Diffusion obiekty na syntetyzowanych obrazach są przypadkowe i niekontrolowane. Proponowany dodatek umożliwia dodawanie własnych obiektów wizualnych, wiązanie ich ze słowami kluczowymi i wykorzystywanie ich w syntezie.

    Na przykład w zwykłym trybie Stable Diffusion możesz poprosić system o wygenerowanie obrazu przedstawiającego „kota w łódce”. Dodatkowo możesz wyjaśnić cechy kota i łódki, ale nie można przewidzieć, który kot i łódka zostaną zsyntetyzowane. Inwersja tekstu umożliwia nauczenie systemu obrazu kota lub łodzi i syntezę obrazu z konkretnym kotem lub łodzią. W podobny sposób może również zastąpić elementy obrazu określonymi obiektami, dać przykład stylu wizualnego do syntezy i określić koncepcje (na przykład od całej gamy lekarzy można zastosować dokładniejszą i wysokiej jakości selekcję w wybranym stylu).

    Systemy uczenia maszynowego do syntezy obrazu i redukcji szumów w zdjęciach nocnych

  • stable-diffusion-animation - tworzenie animowanych (ruchomych) obrazów w oparciu o interpolację pomiędzy obrazami wygenerowanymi w Stable Diffusion.
  • stable_diffusion.openvino (kod) - port Stable Diffusion, który do obliczeń wykorzystuje wyłącznie procesor, co umożliwia eksperymentowanie na systemach bez wydajnych procesorów graficznych. Wymaga procesora obsługiwanego w bibliotece OpenVINO. Oficjalnie OpenVINO udostępnia wtyczki do procesorów Intel z rozszerzeniami AVX2, AVX-512, AVX512_BF16 i SSE, a także do płyt Raspberry Pi 4 Model B, Apple Mac mini i NVIDIA Jetson Nano. Nieoficjalnie można używać OpenVINO na procesorach AMD Ryzen.
  • sdamd to port dla procesorów graficznych AMD.
  • Wstępna implementacja syntezy wideo.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - interfejsy graficzne do generowania obrazów przy użyciu Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - interfejsy internetowe do syntezy obrazu przy użyciu Stable Diffusion.
  • Wtyczki do integracji Stable Diffusion z GIMP, Figma, Blender i Photoshop.

Dodatkowo możemy odnotować publikację przez Google kodu systemu uczenia maszynowego RawNeRF (RAW Neural Radiance Fields), który pozwala na podstawie danych z kilku obrazów RAW poprawić jakość bardzo zaszumionych zdjęć wykonywanych w ciemności i w słabe oświetlenie. Oprócz eliminacji szumów narzędzia opracowane w ramach projektu umożliwiają zwiększenie szczegółowości, eliminację odblasków, syntezę HDR i zmianę ogólnego oświetlenia na zdjęciach, a także odtworzenie trójwymiarowego położenia obiektów na podstawie kilku zdjęć pod różnymi kątami, zmieniaj punkt widzenia, manipuluj ostrością i generuj ruchome obrazy.

Systemy uczenia maszynowego do syntezy obrazu i redukcji szumów w zdjęciach nocnych
Systemy uczenia maszynowego do syntezy obrazu i redukcji szumów w zdjęciach nocnych


Źródło: opennet.ru

Dodaj komentarz