Компания NVIDIA опубликовала исходные тексты системы машинного обучения SPADE (GauGAN), позволяющей синтезировать реалистичные пейзажи на основе грубых набросков, а также связанные с проектом нетренированные модели. Система была продемонстрирована в марте на конференции GTC 2019, но код был опубликован только вчера. Наработки открыты под свободной лицензией CC BY-NC-SA 4.0 (Creative Commons Attribution-NonCommercial-ShareAlike 4.0), допускающей использование только в некоммерческих целях. Код написан на языке Python с применением фреймворка PyTorch.
Наброски оформляются в виде сегментированной карты, определяющей размещение примерных объектов на сцене. Характер генерируемых объектов задаётся при помощи цветовых меток. Например, голубая заливка преобразуется в небо, синяя в воду, тёмно зелёная в деревья, светло зелёная в траву, светло коричневая в камни, тёмно коричневая в горы, серая в снег, коричневая линия преобразуется в дорогу, а синяя линия в реку. Дополнительно на основе выбора эталонных изображений определяется общий стиль композиции и время суток. Предлагаемый инструмент для создания виртуальных миров может оказаться полезным широкому кругу специалистов, от архитекторов и планировщиков городской среды до разработчиков игр и ландшафтных дизайнеров.
Объекты синтезируются генеративно-состязательной нейронной сетью (GAN), которая на основе схематичной сегментированной карты создаёт реалистичные изображения, заимствуя детали из модели, предварительно обученной на нескольких миллионах фотоснимков. В отличие от ранее развиваемых систем синтеза изображений предложенный метод основан на применении адаптивного пространственного преобразования с последующей трансформацией на основе машинного обучения. Обработка сегментированной карты вместо семантической разметки позволяет добиться точного соответствия результата и контролировать стиль.
यथार्थवाद प्राप्त गर्न, दुई तंत्रिका नेटवर्कहरू एकअर्कासँग प्रतिस्पर्धा गर्छन्: एक जनरेटर र एक भेदभाव। जेनेरेटरले वास्तविक तस्बिरहरूको मिश्रण तत्वहरूमा आधारित छविहरू उत्पन्न गर्दछ, र भेदभावकर्ताले वास्तविक छविहरूबाट सम्भावित विचलनहरू पहिचान गर्दछ। नतिजाको रूपमा, प्रतिक्रिया बनाइन्छ, जसको आधारमा जेनेरेटरले अझ राम्रो नमूनाहरू रचना गर्न थाल्छ जबसम्म भेदभावकर्ताले तिनीहरूलाई वास्तविक व्यक्तिहरूबाट छुट्याउन छोड्दैन।
स्रोत: opennet.ru