StyleGAN3 de código aberto de NVIDIA, un sistema de aprendizaxe automática para a síntese facial

NVIDIA publicou o código fonte de StyleGAN3, un sistema de aprendizaxe automática baseado nunha rede neuronal adversaria xerativa (GAN) destinada a sintetizar imaxes realistas dos rostros das persoas. O código está escrito en Python usando o marco PyTorch e distribúese baixo a licenza de código fonte de NVIDIA, que impón restricións ao uso comercial.

Tamén están dispoñibles para descargar modelos adestrados preparados na colección Flickr-Faces-HQ (FFHQ), que inclúe 70 mil imaxes PNG de alta calidade (1024x1024) de rostros de persoas. Ademais, hai modelos construídos a partir das coleccións AFHQv2 (fotos de rostros de animais) e Metfaces (imaxes de rostros de persoas a partir de retratos de pintura clásica). O desenvolvemento céntrase nos rostros, pero o sistema pódese adestrar para xerar calquera obxecto, como paisaxes e coches. Ademais, ofrécense ferramentas para autoadestrar unha rede neuronal utilizando as súas propias coleccións de imaxes. Require unha ou máis tarxetas gráficas NVIDIA (recoméndase a GPU Tesla V100 ou A100), polo menos 12 GB de RAM, PyTorch 1.9 e CUDA 11.1+ toolkit. Para determinar a natureza artificial das caras resultantes, estase a desenvolver un detector especial.

O sistema permítelle sintetizar unha imaxe dun novo rostro baseándose na interpolación dos trazos de varias caras, combinando os seus trazos característicos, ademais de adaptar a imaxe final á idade, sexo, lonxitude do cabelo necesarios, carácter do sorriso, forma do nariz, etc. cor da pel, lentes e ángulo da fotografía. O xerador considera a imaxe como unha colección de estilos, separa automaticamente os detalles característicos (pecas, cabelo, lentes) dos atributos comúns de alto nivel (pose, sexo, cambios de idade) e permítelle combinalos en calquera forma coa determinación do dominante. propiedades mediante coeficientes de ponderación. Como resultado, xéranse imaxes que son indistinguibles das fotografías reais.

StyleGAN3 de código aberto de NVIDIA, un sistema de aprendizaxe automática para a síntese facial

A primeira versión da tecnoloxía StyleGAN publicouse en 2019, despois de que en 2020 se propuxo unha edición mellorada de StyleGAN2, que permitiu mellorar a calidade da imaxe e eliminar algúns artefactos. Ao mesmo tempo, o sistema permaneceu estático, é dicir. non permitiu conseguir animacións e movementos faciais realistas. Ao desenvolver StyleGAN3, o obxectivo principal era adaptar a tecnoloxía para o seu uso en animación e vídeo.

StyleGAN3 utiliza unha arquitectura de xeración de imaxes redeseñada, libre de aliasing, e propón novos escenarios de adestramento de redes neuronais. Inclúe novas utilidades para a visualización interactiva (visualizer.py), análise (avg_spectra.py) e xeración de vídeos (gen_video.py). A implementación tamén reduce o consumo de memoria e acelera o proceso de aprendizaxe.

StyleGAN3 de código aberto de NVIDIA, un sistema de aprendizaxe automática para a síntese facial

Unha característica clave da arquitectura StyleGAN3 foi a transición á interpretación de todos os sinais da rede neuronal en forma de procesos continuos, o que fixo posible, ao formar pezas, manipular posicións relativas que non están ligadas ás coordenadas absolutas dos píxeles individuais en a imaxe, pero fixada na superficie dos obxectos representados. En StyleGAN e StyleGAN2, a unión aos píxeles durante a xeración provocou problemas durante a renderización dinámica, por exemplo, cando a imaxe se movía, había un desajuste de pequenos detalles, como engurras e pelos, que parecían moverse por separado do resto da cara. . En StyleGAN3, estes problemas resólvense e a tecnoloxía converteuse en bastante adecuada para a xeración de vídeo.

Ademais, podemos notar o anuncio da creación por parte de NVIDIA e Microsoft do maior modelo de linguaxe MT-NLG baseado nunha rede neuronal profunda cunha arquitectura "transformadora". O modelo abrangue 530 millóns de parámetros e utilizouse un clúster de 4480 GPU (560 servidores DGX A100 con 8 GPU A100 de 80 GB cada un) para o adestramento. As aplicacións para o modelo inclúen a resolución de problemas de procesamento da linguaxe natural, como predicir a conclusión de frases inacabadas, responder preguntas, comprender a lectura, facer inferencias en linguaxe natural e desambiguar o significado das palabras.

StyleGAN3 de código aberto de NVIDIA, un sistema de aprendizaxe automática para a síntese facial


Fonte: opennet.ru

Engadir un comentario