NVIDIA opublikowała kod źródłowy systemu uczenia maszynowego SPADE (GauGAN), który potrafi syntetyzować realistyczne krajobrazy na podstawie wstępnych szkiców, a także nieprzetrenowanych modeli powiązanych z projektem. System został zademonstrowany w marcu na konferencji GTC 2019, ale kod został opublikowany dopiero wczoraj. Opracowania udostępnione są na bezpłatnej licencji CC BY-NC-SA 4.0 (Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Na tych samych warunkach 4.0), zezwalającej na wykorzystanie wyłącznie w celach niekomercyjnych. Kod napisano w języku Python przy użyciu frameworka PyTorch.
Szkice sporządzane są w formie segmentowej mapy, która określa rozmieszczenie przybliżonych obiektów na scenie. Charakter generowanych obiektów określany jest za pomocą kolorowych oznaczeń. Na przykład niebieskie wypełnienie zmienia się w niebo, niebieskie w wodę, ciemnozielone w drzewa, jasnozielone w trawę, jasnobrązowe w kamienie, ciemnobrązowe w góry, szare w śnieg, brązowa linia przekształca się w drogę, a niebieska wjechać do rzeki. Dodatkowo na podstawie wyboru zdjęć referencyjnych określany jest ogólny styl kompozycji i pora dnia. Proponowane narzędzie do tworzenia wirtualnych światów może być przydatne dla szerokiego grona specjalistów, od architektów i urbanistów po twórców gier i projektantów krajobrazu.
Obiekty są syntetyzowane przez generatywną, przeciwstawną sieć neuronową (GAN), która tworzy realistyczne obrazy na podstawie schematycznej, podzielonej na segmenty mapy, zapożyczając szczegóły z modelu wytrenowanego wcześniej na kilku milionach zdjęć. W odróżnieniu od wcześniej opracowanych systemów syntezy obrazu, proponowana metoda opiera się na zastosowaniu adaptacyjnej transformacji przestrzennej, a następnie transformacji opartej na uczeniu maszynowym. Przetwarzanie podzielonej na segmenty mapy zamiast znaczników semantycznych pozwala uzyskać dokładne wyniki dopasowania i kontrolować styl.
Aby osiągnąć realizm, konkurują ze sobą dwie sieci neuronowe: generator i dyskryminator. Generator generuje obrazy w oparciu o zmieszanie elementów rzeczywistych zdjęć, a dyskryminator identyfikuje możliwe odchylenia od rzeczywistych obrazów. W efekcie powstaje sprzężenie zwrotne, na podstawie którego generator zaczyna komponować coraz lepsze próbki, aż dyskryminator przestanie je odróżniać od rzeczywistych.
Źródło: opennet.ru