HyperStyle – Anpassung des maschinellen Lernsystems StyleGAN für die Bildbearbeitung

Ein Forscherteam der Universität Tel Aviv hat HyperStyle vorgestellt, eine umgekehrte Version des maschinellen Lernsystems StyleGAN2 von NVIDIA, das neu gestaltet wurde, um fehlende Teile bei der Bearbeitung realer Bilder nachzubilden. Der Code wird in Python unter Verwendung des PyTorch-Frameworks geschrieben und unter der MIT-Lizenz vertrieben.

Wenn Sie mit StyleGAN realistisch aussehende neue Gesichter von Menschen synthetisieren können, indem Sie Parameter wie Alter, Geschlecht, Haarlänge, Lächelnmuster, Nasenform, Hautfarbe, Brille und Fotowinkel festlegen, dann ermöglicht HyperStyle die Änderung ähnlicher Parameter in vorhandenen Fotos, ohne ihre charakteristischen Merkmale zu verändern und die Erkennbarkeit des Originalgesichts beizubehalten. Mit HyperStyle können Sie beispielsweise eine Änderung des Alters einer Person auf einem Foto simulieren, eine Frisur ändern, eine Brille, einen Bart oder einen Schnurrbart hinzufügen, ein Bild wie eine Zeichentrickfigur oder ein handgezeichnetes Bild aussehen lassen, ein … trauriger oder fröhlicher Ausdruck. In diesem Fall kann das System darauf trainiert werden, nicht nur die Gesichter von Menschen, sondern auch für beliebige Objekte zu verändern, beispielsweise um Bilder von Autos zu bearbeiten.

HyperStyle – Anpassung des maschinellen Lernsystems StyleGAN für die Bildbearbeitung

Das vorgeschlagene Verfahren zielt darauf ab, das Problem der Rekonstruktion fehlender Bildteile bei der Bearbeitung zu lösen. Bei den vorherigen Methoden wurde der Kompromiss zwischen Rekonstruktion und Bearbeitbarkeit durch eine Feinabstimmung des Bildgenerators gelöst, um Teile des Zielbilds zu ersetzen, wenn zunächst fehlende bearbeitbare Bereiche wiederhergestellt wurden. Der Nachteil solcher Ansätze ist die Notwendigkeit eines langfristigen gezielten Trainings des neuronalen Netzes für jedes Bild.

Die auf dem StyleGAN-Algorithmus basierende Methode ermöglicht die Verwendung eines typischen Modells, das zuvor anhand gemeinsamer Bildsammlungen trainiert wurde, um für das Originalbild charakteristische Elemente mit einem Vertrauensniveau zu generieren, das mit Algorithmen vergleichbar ist, die ein individuelles Training des Modells für jedes Bild erfordern . Zu den Vorteilen der neuen Methode gehört auch die Möglichkeit, Bilder nahezu in Echtzeit zu modifizieren.

HyperStyle – Anpassung des maschinellen Lernsystems StyleGAN für die Bildbearbeitung

Die vorab trainierten Modelle sind für Menschen-, Auto- und Tiergesichter vorbereitet und basieren auf den Sammlungen von Flickr-Faces-HQ (FFHQ, 70 hochwertige PNG-Bilder von menschlichen Gesichtern), Stanford Cars (16 Bilder von Autos) und AFHQ (Fotos). von Tieren). Darüber hinaus werden Tools zum Trainieren ihrer Modelle sowie vorgefertigte trainierte Modelle typischer Encoder und Generatoren bereitgestellt, die für den Einsatz mit ihnen geeignet sind. Es stehen beispielsweise Generatoren zur Verfügung, mit denen Sie Bilder im Toonify-Stil und Pixar-Figuren erstellen, skizzieren und sogar wie Disney-Prinzessinnen stylen können.

HyperStyle – Anpassung des maschinellen Lernsystems StyleGAN für die Bildbearbeitung
HyperStyle – Anpassung des maschinellen Lernsystems StyleGAN für die Bildbearbeitung
HyperStyle – Anpassung des maschinellen Lernsystems StyleGAN für die Bildbearbeitung
HyperStyle – Anpassung des maschinellen Lernsystems StyleGAN für die Bildbearbeitung


Source: opennet.ru

Kommentar hinzufügen