NVIDIA öffnet den Code für ein maschinelles Lernsystem, das Landschaften aus Skizzen synthetisiert

NVIDIA hat den Quellcode für das maschinelle Lernsystem SPADE (GauGAN) veröffentlicht, das realistische Landschaften aus groben Skizzen sowie untrainierten Modellen im Zusammenhang mit dem Projekt synthetisieren kann. Das System wurde im März auf der GTC-Konferenz 2019 vorgeführt, der Code wurde jedoch erst gestern veröffentlicht. Die Entwicklungen stehen unter einer kostenlosen Lizenz CC BY-NC-SA 4.0 (Creative Commons Attribution-NonCommercial-ShareAlike 4.0) und erlauben die Nutzung nur für nichtkommerzielle Zwecke. Der Code ist in Python unter Verwendung des PyTorch-Frameworks geschrieben.

NVIDIA öffnet den Code für ein maschinelles Lernsystem, das Landschaften aus Skizzen synthetisiert

Die Skizzen werden in Form einer segmentierten Karte erstellt, die die Platzierung ungefährer Objekte auf der Szene bestimmt. Die Beschaffenheit der erzeugten Objekte wird durch Farbmarkierungen spezifiziert. Beispielsweise verwandelt sich eine blaue Füllung in den Himmel, Blau in Wasser, Dunkelgrün in Bäume, Hellgrün in Gras, Hellbraun in Steine, Dunkelbraun in Berge, Grau in Schnee, eine braune Linie in eine Straße und ein Blau Linie in einen Fluss. Darüber hinaus werden anhand der Auswahl der Referenzbilder der Gesamtkompositionsstil und die Tageszeit bestimmt. Das vorgeschlagene Tool zum Erstellen virtueller Welten kann für ein breites Spektrum von Spezialisten nützlich sein, von Architekten und Stadtplanern bis hin zu Spieleentwicklern und Landschaftsarchitekten.

NVIDIA öffnet den Code für ein maschinelles Lernsystem, das Landschaften aus Skizzen synthetisiert

Objekte werden von einem generativen kontradiktorischen neuronalen Netzwerk (GAN) synthetisiert, das realistische Bilder auf der Grundlage einer schematischen segmentierten Karte erstellt und dabei Details von einem Modell übernimmt, das anhand mehrerer Millionen Fotos vorab trainiert wurde. Im Gegensatz zu zuvor entwickelten Bildsynthesesystemen basiert die vorgeschlagene Methode auf der Verwendung einer adaptiven räumlichen Transformation, gefolgt von einer auf maschinellem Lernen basierenden Transformation. Durch die Verarbeitung einer segmentierten Karte anstelle von semantischem Markup können Sie exakte Übereinstimmungsergebnisse erzielen und den Stil steuern.

NVIDIA öffnet den Code für ein maschinelles Lernsystem, das Landschaften aus Skizzen synthetisiert

Um Realismus zu erreichen, konkurrieren zwei neuronale Netze miteinander: ein Generator und ein Diskriminator. Der Generator generiert Bilder basierend auf Mischelementen realer Fotos und der Diskriminator identifiziert mögliche Abweichungen von realen Bildern. Dadurch entsteht eine Rückkopplung, auf deren Grundlage der Generator beginnt, immer bessere Samples zusammenzustellen, bis der Diskriminator sie nicht mehr von den echten unterscheidet.



Source: opennet.ru

Kommentar hinzufügen