NVIDIA otwiera kod systemu uczenia maszynowego, który syntetyzuje krajobrazy na podstawie szkiców

Firma NVIDIA опубликовала kody źródłowe systemów uczenia maszynowego ŁOPATA (GauGAN), który pozwala na syntezę realistycznych krajobrazów na podstawie przybliżonych szkiców, a także tych związanych z projektem wyszkolonych modeli. System był zademonstrowano w marcu na konferencji GTC 2019, ale kod został opublikowany dopiero wczoraj. Rozwój otwarty na licencji zastrzeżonej CC BY-NC-SA 4.0 (Creative Commons Uznanie autorstwa-NonCommercial-ShareAlike 4.0), zezwalające wyłącznie na użytek niekomercyjny. Kod napisany jest w języku Python przy użyciu frameworka PyTorch.

NVIDIA otwiera kod systemu uczenia maszynowego, który syntetyzuje krajobrazy na podstawie szkiców

Szkice sporządzane są w formie segmentowej mapy, która określa rozmieszczenie przybliżonych obiektów na scenie. Charakter generowanych obiektów określany jest za pomocą kolorowych oznaczeń. Na przykład niebieskie wypełnienie zmienia się w niebo, niebieskie w wodę, ciemnozielone w drzewa, jasnozielone w trawę, jasnobrązowe w skały, ciemnobrązowe w góry, szare w śnieg, brązowa linia przekształca się w drogę, a niebieska linię do rzeki Dodatkowo na podstawie wyboru zdjęć referencyjnych określany jest ogólny styl kompozycji i pora dnia. Proponowane narzędzie do tworzenia wirtualnych światów może być przydatne dla szerokiego grona specjalistów, od architektów i urbanistów po twórców gier i projektantów krajobrazu.

NVIDIA otwiera kod systemu uczenia maszynowego, który syntetyzuje krajobrazy na podstawie szkiców

Obiekty są syntetyzowane przez generatywną przeciwstawną sieć neuronową (GAN), który tworzy realistyczne obrazy w oparciu o schematyczną, segmentowaną mapę, zapożyczając szczegóły z modelu wytrenowanego na kilku milionach fotografii. W odróżnieniu od wcześniej opracowanych systemów syntezy obrazu, proponowana metoda opiera się na zastosowaniu adaptacyjnej transformacji przestrzennej, a następnie transformacji opartej na uczeniu maszynowym. Przetwarzanie podzielonej na segmenty mapy zamiast znaczników semantycznych pozwala uzyskać dokładne wyniki dopasowania i kontrolować styl.

NVIDIA otwiera kod systemu uczenia maszynowego, który syntetyzuje krajobrazy na podstawie szkiców

Aby osiągnąć realizm, konkurują ze sobą dwie sieci neuronowe: generator i dyskryminator. Generator generuje obrazy w oparciu o zmieszanie elementów rzeczywistych zdjęć, a dyskryminator identyfikuje możliwe odchylenia od rzeczywistych obrazów. W efekcie powstaje sprzężenie zwrotne, na podstawie którego generator zaczyna komponować coraz lepsze próbki, aż dyskryminator przestanie je odróżniać od rzeczywistych.

Źródło: opennet.ru

Dodaj komentarz