Otwarty kod do syntezy animacji z wykorzystaniem sieci neuronowych

Grupa badaczy z Uniwersytetu Technicznego w Szanghaju опубликовала narzędzia Odtwórca, która pozwala za pomocą metod uczenia maszynowego symulować ruchy człowieka za pomocą statycznych obrazów, a także wymieniać ubrania, przenosić je do innego środowiska i zmieniać kąt, pod jakim widoczny jest obiekt. Kod napisany jest w Pythonie
za pomocą frameworka PyTorch. Montaż również wymaga Torchvision i zestaw narzędzi CUDA.

Otwarty kod do syntezy animacji z wykorzystaniem sieci neuronowych

Zestaw narzędzi otrzymuje dwuwymiarowy obraz jako dane wejściowe i syntezuje zmodyfikowany wynik na podstawie wybranego modelu. Obsługiwane są trzy opcje transformacji:
Stworzenie poruszającego się obiektu podążającego za ruchami, na których trenowany był model. Przeniesienie elementów wyglądu z modelki na obiekt (np. zmiana ubioru). Wygenerowanie nowego kąta (na przykład synteza zdjęcia profilowego na podstawie zdjęcia całej twarzy). Wszystkie trzy metody można łączyć, na przykład ze zdjęcia można wygenerować wideo symulujące wykonanie złożonego triku akrobatycznego w różnych ubraniach.

W procesie syntezy jednocześnie wykonywane są operacje selekcji obiektu na fotografii oraz formowania brakujących elementów tła podczas ruchu. Model sieci neuronowej można wytrenować raz i wykorzystać do różnych transformacji. Do załadunku dostępny gotowe modele, które pozwalają od razu korzystać z narzędzi, bez wstępnego szkolenia. Wymaga procesora graficznego z co najmniej 8 GB pamięci.

W przeciwieństwie do metod transformacji opartych na transformacji przez kluczowe punkty opisujące położenie ciała w przestrzeni dwuwymiarowej, Impersonator podejmuje próbę syntezy trójwymiarowej siatki z opisem ciała przy użyciu metod uczenia maszynowego.
Proponowana metoda pozwala na manipulacje z uwzględnieniem spersonalizowanej budowy ciała i aktualnej postawy ciała, symulując naturalne ruchy kończyn.

Otwarty kod do syntezy animacji z wykorzystaniem sieci neuronowych

Aby zachować oryginalne informacje, takie jak tekstury, styl, kolory i rozpoznawanie twarzy podczas procesu transformacji, generatywnych, przeciwstawnych sieci neuronowych (Płynne wypaczanie GAN). Informacje o obiekcie źródłowym i parametry umożliwiające jego precyzyjną identyfikację pozyskiwane są poprzez zastosowanie konwolucyjna sieć neuronowa.


Źródło: opennet.ru

Dodaj komentarz