HyperStyle - adaptation du système d'apprentissage automatique StyleGAN pour l'édition d'images

Une équipe de chercheurs de l'Université de Tel Aviv a dévoilé HyperStyle, une version inversée du système d'apprentissage automatique StyleGAN2 de NVIDIA qui a été repensé pour recréer les parties manquantes lors de l'édition d'images réelles. Le code est écrit en Python à l'aide du framework PyTorch et distribué sous la licence MIT.

Si StyleGAN vous permet de synthétiser de nouveaux visages réalistes de personnes en définissant des paramètres tels que l'âge, le sexe, la longueur des cheveux, le motif de sourire, la forme du nez, la couleur de la peau, les lunettes et l'angle de la photo, alors HyperStyle permet de modifier des paramètres similaires dans existant photos sans modifier leurs traits caractéristiques et en conservant la reconnaissabilité du visage d'origine. Par exemple, en utilisant HyperStyle, vous pouvez simuler un changement d'âge d'une personne sur une photo, changer une coiffure, ajouter des lunettes, une barbe ou une moustache, faire ressembler une image à un personnage de dessin animé ou à une image dessinée à la main, faire un expression triste ou gaie. Dans ce cas, le système peut être formé non seulement pour changer les visages des personnes, mais également pour tous les objets, par exemple, pour éditer des images de voitures.

HyperStyle - adaptation du système d'apprentissage automatique StyleGAN pour l'édition d'images

La méthode proposée vise à résoudre le problème de la reconstruction des parties manquantes de l'image lors de l'édition. Dans les méthodes précédentes, le compromis entre la reconstruction et l'éditabilité était résolu en affinant le générateur d'image pour substituer des parties de l'image cible lors de la recréation des zones éditables initialement manquantes. L'inconvénient de telles approches est la nécessité d'un entraînement ciblé à long terme du réseau de neurones pour chaque image.

La méthode basée sur l'algorithme StyleGAN permet d'utiliser un modèle type, préalablement entraîné sur des collections communes d'images, pour générer des éléments caractéristiques de l'image originale avec un niveau de confiance comparable aux algorithmes qui nécessitent un entraînement individuel du modèle pour chaque image . Parmi les avantages de la nouvelle méthode, on note également la possibilité de modifier des images avec une performance proche du temps réel.

HyperStyle - adaptation du système d'apprentissage automatique StyleGAN pour l'édition d'images

Les modèles pré-formés sont préparés pour les visages humains, de voitures et d'animaux sur la base des collections de Flickr-Faces-HQ (FFHQ, 70k images PNG de haute qualité de visages humains), Stanford Cars (16k images de voitures) et AFHQ (photos d'animaux). De plus, des outils sont fournis pour former leurs modèles, ainsi que des modèles formés prêts à l'emploi d'encodeurs et de générateurs typiques adaptés à une utilisation avec eux. Par exemple, des générateurs sont disponibles pour créer des images de style Toonify, des personnages Pixar, des croquis et même les styliser comme des princesses Disney.

HyperStyle - adaptation du système d'apprentissage automatique StyleGAN pour l'édition d'images
HyperStyle - adaptation du système d'apprentissage automatique StyleGAN pour l'édition d'images
HyperStyle - adaptation du système d'apprentissage automatique StyleGAN pour l'édition d'images
HyperStyle - adaptation du système d'apprentissage automatique StyleGAN pour l'édition d'images


Source: opennet.ru

Ajouter un commentaire