NVIDIA publicou o código fonte de StyleGAN3, un sistema de aprendizaxe automática baseado nunha rede neuronal adversaria xerativa (GAN) destinada a sintetizar imaxes realistas dos rostros das persoas. O código está escrito en Python usando o marco PyTorch e distribúese baixo a licenza de código fonte de NVIDIA, que impón restricións ao uso comercial.
Tamén están dispoñibles para descargar modelos adestrados preparados na colección Flickr-Faces-HQ (FFHQ), que inclúe 70 mil imaxes PNG de alta calidade (1024x1024) de rostros de persoas. Ademais, hai modelos construídos a partir das coleccións AFHQv2 (fotos de rostros de animais) e Metfaces (imaxes de rostros de persoas a partir de retratos de pintura clásica). O desenvolvemento céntrase nos rostros, pero o sistema pódese adestrar para xerar calquera obxecto, como paisaxes e coches. Ademais, ofrécense ferramentas para autoadestrar unha rede neuronal utilizando as súas propias coleccións de imaxes. Require unha ou máis tarxetas gráficas NVIDIA (recoméndase a GPU Tesla V100 ou A100), polo menos 12 GB de RAM, PyTorch 1.9 e CUDA 11.1+ toolkit. Para determinar a natureza artificial das caras resultantes, estase a desenvolver un detector especial.
O sistema permítelle sintetizar unha imaxe dun novo rostro baseándose na interpolación dos trazos de varias caras, combinando os seus trazos característicos, ademais de adaptar a imaxe final á idade, sexo, lonxitude do cabelo necesarios, carácter do sorriso, forma do nariz, etc. cor da pel, lentes e ángulo da fotografía. O xerador considera a imaxe como unha colección de estilos, separa automaticamente os detalles característicos (pecas, cabelo, lentes) dos atributos comúns de alto nivel (pose, sexo, cambios de idade) e permítelle combinalos en calquera forma coa determinación do dominante. propiedades mediante coeficientes de ponderación. Como resultado, xéranse imaxes que son indistinguibles das fotografías reais.
A primeira versión da tecnoloxía StyleGAN publicouse en 2019, despois de que en 2020 se propuxo unha edición mellorada de StyleGAN2, que permitiu mellorar a calidade da imaxe e eliminar algúns artefactos. Ao mesmo tempo, o sistema permaneceu estático, é dicir. non permitiu conseguir animacións e movementos faciais realistas. Ao desenvolver StyleGAN3, o obxectivo principal era adaptar a tecnoloxía para o seu uso en animación e vídeo.
StyleGAN3 utiliza unha arquitectura de xeración de imaxes redeseñada, libre de aliasing, e propón novos escenarios de adestramento de redes neuronais. Inclúe novas utilidades para a visualización interactiva (visualizer.py), análise (avg_spectra.py) e xeración de vídeos (gen_video.py). A implementación tamén reduce o consumo de memoria e acelera o proceso de aprendizaxe.
Unha característica clave da arquitectura StyleGAN3 foi a transición á interpretación de todos os sinais da rede neuronal en forma de procesos continuos, o que fixo posible, ao formar pezas, manipular posicións relativas que non están ligadas ás coordenadas absolutas dos píxeles individuais en a imaxe, pero fixada na superficie dos obxectos representados. En StyleGAN e StyleGAN2, a unión aos píxeles durante a xeración provocou problemas durante a renderización dinámica, por exemplo, cando a imaxe se movía, había un desajuste de pequenos detalles, como engurras e pelos, que parecían moverse por separado do resto da cara. . En StyleGAN3, estes problemas resólvense e a tecnoloxía converteuse en bastante adecuada para a xeración de vídeo.
Ademais, podemos notar o anuncio da creación por parte de NVIDIA e Microsoft do maior modelo de linguaxe MT-NLG baseado nunha rede neuronal profunda cunha arquitectura "transformadora". O modelo abrangue 530 millóns de parámetros e utilizouse un clúster de 4480 GPU (560 servidores DGX A100 con 8 GPU A100 de 80 GB cada un) para o adestramento. As aplicacións para o modelo inclúen a resolución de problemas de procesamento da linguaxe natural, como predicir a conclusión de frases inacabadas, responder preguntas, comprender a lectura, facer inferencias en linguaxe natural e desambiguar o significado das palabras.
Fonte: opennet.ru