NVIDIA open source StyleGAN3, un système d'apprentissage automatique pour la synthèse faciale

NVIDIA a publié le code source de StyleGAN3, un système d'apprentissage automatique basé sur un réseau neuronal contradictoire génératif (GAN) visant à synthétiser des images réalistes de visages humains. Le code est écrit en Python à l'aide du framework PyTorch et est distribué sous la licence de code source NVIDIA, qui impose des restrictions sur l'utilisation commerciale.

Des modèles formés prêts à l'emploi formés sur la collection Flickr-Faces-HQ (FFHQ), qui comprend 70 1024 images PNG de haute qualité (1024 x 2) de visages de personnes, sont également disponibles en téléchargement. Il existe également des modèles construits à partir des collections AFHQv100 (photos de visages d’animaux) et Metfaces (images de visages de personnes issues de portraits de peinture classique). Le développement se concentre sur les visages, mais le système peut être entraîné pour générer n'importe quel objet, tel que des paysages et des voitures. De plus, des outils sont fournis pour auto-former un réseau de neurones à l'aide de vos propres collections d'images. Nécessite une ou plusieurs cartes graphiques NVIDIA (GPU Tesla V100 ou A12 recommandé), au moins 1.9 Go de RAM, PyTorch 11.1 et la boîte à outils CUDA XNUMX+. Pour déterminer le caractère artificiel des visages résultants, un détecteur spécial est en cours de développement.

Le système vous permet de synthétiser une image d'un nouveau visage sur la base de l'interpolation des traits de plusieurs visages, en combinant leurs traits caractéristiques, ainsi qu'en adaptant l'image finale à l'âge, au sexe, à la longueur des cheveux, au caractère du sourire, à la forme du nez, couleur de peau, lunettes et angle de photographie. Le générateur considère l'image comme un ensemble de styles, sépare automatiquement les détails caractéristiques (taches de rousseur, cheveux, lunettes) des attributs communs de haut niveau (pose, sexe, changements d'âge) et vous permet de les combiner sous n'importe quelle forme avec la détermination du dominant. propriétés grâce à des coefficients de pondération. En conséquence, des images générées ne se distinguent pas des photographies réelles.

NVIDIA open source StyleGAN3, un système d'apprentissage automatique pour la synthèse faciale

La première version de la technologie StyleGAN a été publiée en 2019, après quoi une édition améliorée de StyleGAN2020 a été proposée en 2, permettant d'améliorer la qualité de l'image et d'éliminer certains artefacts. Dans le même temps, le système est resté statique, c'est-à-dire ne permettait pas d'obtenir une animation et des mouvements du visage réalistes. Lors du développement de StyleGAN3, l'objectif principal était d'adapter la technologie pour son utilisation dans l'animation et la vidéo.

StyleGAN3 utilise une architecture de génération d'images repensée, sans alias, et propose de nouveaux scénarios de formation de réseaux neuronaux. Il comprend de nouveaux utilitaires de visualisation interactive (visualizer.py), d'analyse (avg_spectra.py) et de génération vidéo (gen_video.py). L'implémentation réduit également la consommation de mémoire et accélère le processus d'apprentissage.

NVIDIA open source StyleGAN3, un système d'apprentissage automatique pour la synthèse faciale

Une caractéristique clé de l'architecture StyleGAN3 était la transition vers l'interprétation de tous les signaux du réseau neuronal sous la forme de processus continus, ce qui a permis, lors de la formation de pièces, de manipuler des positions relatives qui ne sont pas liées aux coordonnées absolues des pixels individuels dans l'image, mais fixé à la surface des objets représentés. Dans StyleGAN et StyleGAN2, la liaison aux pixels lors de la génération entraînait des problèmes lors du rendu dynamique. Par exemple, lorsque l'image bougeait, il y avait une inadéquation de petits détails, tels que les rides et les poils, qui semblaient bouger séparément du reste du visage. . Dans StyleGAN3, ces problèmes sont résolus et la technologie est devenue tout à fait adaptée à la génération vidéo.

Par ailleurs, on peut noter l'annonce de la création par NVIDIA et Microsoft du plus grand modèle de langage MT-NLG basé sur un réseau neuronal profond avec une architecture « transformateur ». Le modèle couvre 530 milliards de paramètres et un cluster de 4480 560 GPU (100 serveurs DGX A8 avec 100 GPU A80 de XNUMX Go chacun) a été utilisé pour la formation. Les applications du modèle incluent la résolution de problèmes de traitement du langage naturel, tels que la prédiction de l'achèvement de phrases inachevées, la réponse à des questions, la compréhension en lecture, la conclusion en langage naturel et la levée de l'ambiguïté sur le sens des mots.

NVIDIA open source StyleGAN3, un système d'apprentissage automatique pour la synthèse faciale


Source: opennet.ru

Ajouter un commentaire