🥇Codi obert per a la síntesi d'animació mitjançant xarxes neuronals

Un grup d'investigadors de la Universitat Tècnica de Xangai publicat eines Implantadora, que permet utilitzar mètodes d'aprenentatge automàtic per simular els moviments de les persones mitjançant imatges estàtiques, així com substituir la roba, transferir-la a un altre entorn i canviar l'angle des del qual és visible un objecte. El codi està escrit en Python
utilitzant un marc PyTorch. El muntatge també requereix visió de torxa i CUDA Toolkit.

El conjunt d'eines rep una imatge bidimensional com a entrada i sintetitza un resultat modificat en funció del model seleccionat. S'admeten tres opcions de transformació:
Creació d'un objecte en moviment que segueixi els moviments en què s'ha entrenat el model. Transferència d'elements d'aparença d'un model a un objecte (per exemple, un canvi de roba). Generació d'un nou angle (per exemple, síntesi d'una imatge de perfil a partir d'una fotografia de cara sencera). Els tres mètodes es poden combinar, per exemple, podeu utilitzar una fotografia per generar un vídeo que simuli la realització d'un complex truc acrobàtic amb roba diferent.

Durant el procés de síntesi, es realitzen simultàniament les operacions de selecció d'un objecte en una fotografia i de formació dels elements de fons que falten en moure's. Un model de xarxa neuronal es pot entrenar una vegada i utilitzar-lo per a diverses transformacions. Per carregar disponible models ja fets que us permeten utilitzar immediatament les eines sense formació prèvia. Es necessita una GPU amb una mida de memòria d'almenys 8 GB per funcionar.

A diferència dels mètodes de transformació basats en la transformació per punts clau que descriuen la ubicació del cos a l'espai bidimensional, Impersonator intenta sintetitzar una malla tridimensional amb una descripció del cos mitjançant mètodes d'aprenentatge automàtic.
El mètode proposat permet manipulacions tenint en compte la forma personalitzada del cos i la postura actual, simulant els moviments naturals de les extremitats.

Per preservar la informació original, com ara textures, estil, colors i reconeixement facial durant el procés de transformació, xarxa neuronal adversària generativa (GAN de deformació líquida). La informació sobre l'objecte font i els paràmetres per a la seva identificació precisa s'extreuen aplicant xarxa neuronal convolucional.

Font: opennet.ru

Codi obert per a la síntesi d'animació mitjançant xarxes neuronals

Afegeix comentari Cancel resposta