Byl otevřen kód systému strojového učení pro generování realistických lidských pohybů

Tým výzkumníků z Tel Avivské univerzity otevřel zdrojový kód spojený se systémem strojového učení MDM (Motion Diffusion Model), který umožňuje generovat realistické lidské pohyby. Kód je napsán v Pythonu pomocí frameworku PyTorch a je distribuován pod licencí MIT. K provádění experimentů můžete použít jak hotové modely, tak modely sami trénovat pomocí navržených skriptů, například pomocí kolekce trojrozměrných lidských obrazů HumanML3D. K trénování systému je zapotřebí GPU s podporou CUDA.

Využití tradičních schopností pro animaci lidských pohybů je obtížné kvůli komplikacím spojeným s velkou rozmanitostí možných pohybů a obtížnosti jejich formálního popisu a také kvůli velké citlivosti lidského vnímání na nepřirozené pohyby. Předchozí pokusy o použití generativních modelů strojového učení měly problémy s kvalitou a omezenou expresivitou.

Navrhovaný systém se pokouší použít difúzní modely pro generování pohybů, které jsou ze své podstaty vhodnější pro simulaci lidských pohybů, ale nejsou bez nevýhod, jako jsou vysoké výpočetní požadavky a složitost ovládání. Pro minimalizaci nedostatků difúzních modelů používá MDM v každé fázi transformátorovou neuronovou síť a predikci vzorků namísto predikce šumu, což usnadňuje prevenci anomálií, jako je ztráta kontaktu povrchu s nohou.

Pro ovládání generování je možné použít textový popis akce v přirozeném jazyce (například „člověk jde dopředu a sehne se, aby něco zvedl ze země“) nebo použít standardní akce jako „běh“ a „ skákání.” Systém lze také použít k úpravě pohybů a doplnění ztracených detailů. Vědci provedli test, ve kterém měli účastníci vybrat lepší výsledek z několika možností – ve 42 % případů lidé preferovali syntetizované pohyby před skutečnými.



Zdroj: opennet.ru

Přidat komentář