HyperStyle - adaptacja systemu uczenia maszynowego StyleGAN do edycji obrazu

Zespół naukowców z Uniwersytetu w Tel Awiwie zaprezentował HyperStyle, odwróconą wersję systemu uczenia maszynowego StyleGAN2 firmy NVIDIA, który został przeprojektowany w celu odtworzenia brakujących części podczas edycji prawdziwych obrazów. Kod napisany jest w języku Python przy użyciu frameworka PyTorch i jest rozpowszechniany na licencji MIT.

Jeśli StyleGAN pozwala na syntezę realistycznie wyglądających nowych twarzy ludzi poprzez określenie parametrów takich jak wiek, płeć, długość włosów, charakter uśmiechu, kształt nosa, kolor skóry, okulary i kąt fotografowania, to HyperStyle umożliwia zmianę podobnych parametrów w istniejących fotografie bez zmiany ich charakterystycznych cech przy zachowaniu rozpoznawalności oryginalnej twarzy. Na przykład za pomocą HyperStyle możesz symulować zmianę wieku osoby na zdjęciu, zmienić fryzurę, dodać okulary, brodę lub wąsy, nadać obrazowi wygląd postaci z kreskówki lub ręcznie rysowanego obrazu, sprawić, że smutny lub wesoły wyraz twarzy. Co więcej, system można przeszkolić nie tylko do zmiany twarzy ludzi, ale także do dowolnych obiektów, np. do edycji zdjęć samochodów.

HyperStyle - adaptacja systemu uczenia maszynowego StyleGAN do edycji obrazu

Zaproponowana metoda ma na celu rozwiązanie problemu rekonstrukcji brakujących fragmentów obrazu podczas edycji. W poprzednio proponowanych metodach kompromis między rekonstrukcją a możliwością edycji został rozwiązany poprzez dostrojenie generatora obrazu w celu zastąpienia części obrazu docelowego podczas odtwarzania początkowo brakujących obszarów edytowalnych. Wadą takich podejść jest konieczność długoterminowego, ukierunkowanego szkolenia sieci neuronowej dla każdego obrazu.

Metoda oparta na algorytmie StyleGAN pozwala na wykorzystanie standardowego modelu, wytrenowanego na typowych zbiorach obrazów, do wygenerowania elementów charakterystycznych dla oryginalnego obrazu z poziomem niezawodności porównywalnym do algorytmów wymagających indywidualnego uczenia modelu dla każdego obraz. Kolejną zaletą nowej metody jest możliwość modyfikowania obrazów z wydajnością zbliżoną do czasu rzeczywistego.

HyperStyle - adaptacja systemu uczenia maszynowego StyleGAN do edycji obrazu

Gotowe wytrenowane modele przygotowywane są na twarze ludzi, samochodów i zwierząt w oparciu o kolekcje Flickr-Faces-HQ (FFHQ, 70 tys. wysokiej jakości obrazów PNG przedstawiających twarze ludzi), Stanford Cars (16 tys. zdjęć samochodów) oraz AFHQ (zdjęcia zwierząt). Dodatkowo dostarczane są narzędzia do uczenia Twoich modeli, a także gotowe, wytrenowane modele standardowych enkoderów i generatorów odpowiednich do użycia z nimi. Dostępne są na przykład generatory umożliwiające tworzenie obrazów w stylu Toonify, postaci Pixar, generowanie szkiców, a nawet stylizowanie księżniczek z kreskówek Disneya.

HyperStyle - adaptacja systemu uczenia maszynowego StyleGAN do edycji obrazu
HyperStyle - adaptacja systemu uczenia maszynowego StyleGAN do edycji obrazu
HyperStyle - adaptacja systemu uczenia maszynowego StyleGAN do edycji obrazu
HyperStyle - adaptacja systemu uczenia maszynowego StyleGAN do edycji obrazu


Źródło: opennet.ru

Dodaj komentarz