Åpen kode for animasjonssyntese ved bruk av nevrale nettverk

En gruppe forskere fra Shanghai Technical University опубликовала verktøy imitator, som gjør det mulig å bruke maskinlæringsmetoder for å simulere folks bevegelser ved hjelp av statiske bilder, samt erstatte klær, overføre dem til et annet miljø og endre vinkelen et objekt er synlig fra. Koden er skrevet i Python
ved hjelp av et rammeverk PyTorch. Montering krever også fakkelsyn og CUDA Toolkit.

Åpen kode for animasjonssyntese ved bruk av nevrale nettverk

Verktøysettet mottar et todimensjonalt bilde som input og syntetiserer et modifisert resultat basert på den valgte modellen. Tre transformasjonsalternativer støttes:
Lage et objekt i bevegelse som følger bevegelsene som modellen ble trent på. Overføring av elementer av utseende fra en modell til en gjenstand (for eksempel et klesskifte). Generering av en ny vinkel (for eksempel syntese av et profilbilde basert på et helbilde). Alle tre metodene kan kombineres, for eksempel kan du generere en video fra et fotografi som simulerer ytelsen til et komplekst akrobatisk triks i forskjellige klær.

Under synteseprosessen utføres operasjonene med å velge et objekt i et fotografi og danne de manglende bakgrunnselementene ved bevegelse samtidig. Den nevrale nettverksmodellen kan trenes én gang og brukes til ulike transformasjoner. For lasting tilgjengelig ferdige modeller som lar deg bruke verktøyene umiddelbart uten foreløpig opplæring. En GPU med en minnestørrelse på minst 8 GB kreves for å fungere.

I motsetning til transformasjonsmetoder basert på transformasjon ved nøkkelpunkter som beskriver plasseringen av kroppen i todimensjonalt rom, forsøker Impersonator å syntetisere et tredimensjonalt nett med en beskrivelse av kroppen ved hjelp av maskinlæringsmetoder.
Den foreslåtte metoden tillater manipulasjoner som tar hensyn til den personlige kroppsformen og nåværende holdning, og simulerer de naturlige bevegelsene til lemmene.

Åpen kode for animasjonssyntese ved bruk av nevrale nettverk

For å bevare original informasjon som teksturer, stil, farger og ansiktsgjenkjenning under transformasjonsprosessen, generativt adversarielt nevralt nettverk (Liquid Warping GAN). Informasjon om kildeobjektet og parametere for dets nøyaktige identifikasjon trekkes ut ved å bruke konvolusjonelt nevrale nettverk.


Kilde: opennet.ru

Legg til en kommentar