De code van een machinaal leersysteem voor het genereren van realistische menselijke bewegingen is geopend

Een team van onderzoekers van de Universiteit van Tel Aviv heeft de broncode geopend die hoort bij het machine learning-systeem MDM (Motion Diffusion Model), waarmee realistische menselijke bewegingen kunnen worden gegenereerd. De code is geschreven in Python met behulp van het PyTorch-framework en wordt gedistribueerd onder de MIT-licentie. Om experimenten uit te voeren, kunt u zowel kant-en-klare modellen gebruiken als de modellen zelf trainen met behulp van de voorgestelde scripts, bijvoorbeeld met behulp van de HumanML3D-verzameling van driedimensionale menselijke afbeeldingen. Om het systeem te trainen is een GPU met CUDA-ondersteuning vereist.

Het gebruik van traditionele mogelijkheden voor het animeren van menselijke bewegingen is moeilijk vanwege de complicaties die gepaard gaan met de grote verscheidenheid aan mogelijke bewegingen en de moeilijkheid om deze formeel te beschrijven, evenals de grote gevoeligheid van de menselijke perceptie voor onnatuurlijke bewegingen. Eerdere pogingen om generatieve machine learning-modellen te gebruiken hadden problemen met de kwaliteit en beperkte expressiviteit.

Het voorgestelde systeem probeert diffusiemodellen te gebruiken om bewegingen te genereren, die inherent beter geschikt zijn voor het simuleren van menselijke bewegingen, maar niet zonder nadelen, zoals hoge rekenvereisten en besturingscomplexiteit. Om de tekortkomingen van diffusiemodellen te minimaliseren, maakt MDM in elke fase gebruik van een transformerend neuraal netwerk en monstervoorspelling in plaats van ruisvoorspelling, waardoor het gemakkelijker wordt om afwijkingen zoals verlies van oppervlaktecontact met de voet te voorkomen.

Om de generatie te beheersen, is het mogelijk om een ​​tekstbeschrijving van een actie in natuurlijke taal te gebruiken (bijvoorbeeld β€˜een persoon loopt naar voren en bukt zich om iets van de grond op te rapen’) of om standaardacties te gebruiken zoals β€˜rennen’ en β€˜ springen.” Het systeem kan ook worden gebruikt om bewegingen te bewerken en verloren gegevens in te vullen. De onderzoekers voerden een test uit waarbij deelnemers werd gevraagd een beter resultaat te kiezen uit verschillende opties - in 42% van de gevallen gaven mensen de voorkeur aan gesynthetiseerde bewegingen boven echte bewegingen.



Bron: opennet.ru

Voeg een reactie