Ang code ng isang machine learning system para sa pagbuo ng mga makatotohanang paggalaw ng tao ay binuksan

Binuksan ng isang pangkat ng mga mananaliksik mula sa Tel Aviv University ang source code na nauugnay sa MDM (Motion Diffusion Model) machine learning system, na nagbibigay-daan sa pagbuo ng mga makatotohanang paggalaw ng tao. Ang code ay nakasulat sa Python gamit ang PyTorch framework at ipinamamahagi sa ilalim ng lisensya ng MIT. Upang magsagawa ng mga eksperimento, maaari mong gamitin ang parehong mga yari na modelo at sanayin ang mga modelo gamit ang mga iminungkahing script, halimbawa, gamit ang HumanML3D na koleksyon ng mga three-dimensional na larawan ng tao. Upang sanayin ang system, kinakailangan ang isang GPU na may suporta sa CUDA.

Ang paggamit ng mga tradisyunal na kakayahan para sa pagpapasigla ng mga paggalaw ng tao ay mahirap dahil sa mga komplikasyon na nauugnay sa malaking pagkakaiba-iba ng mga posibleng paggalaw at ang kahirapan ng pormal na paglalarawan sa mga ito, pati na rin ang malaking sensitivity ng pang-unawa ng tao sa mga hindi likas na paggalaw. Ang mga nakaraang pagtatangka na gumamit ng mga generative machine learning na modelo ay nagkaroon ng mga problema sa kalidad at limitadong pagpapahayag.

Sinusubukan ng iminungkahing sistema na gumamit ng mga modelo ng pagsasabog upang makabuo ng mga paggalaw, na likas na mas angkop para sa pagtulad sa mga paggalaw ng tao, ngunit walang mga kakulangan, tulad ng mataas na mga kinakailangan sa computational at pagiging kumplikado ng kontrol. Upang mabawasan ang mga pagkukulang ng mga modelo ng diffusion, gumagamit ang MDM ng isang transpormer na neural network at sample na hula sa halip na hulaan ng ingay sa bawat yugto, na ginagawang mas madaling maiwasan ang mga anomalya tulad ng pagkawala ng kontak sa ibabaw ng paa.

Upang kontrolin ang henerasyon, posibleng gumamit ng isang text na paglalarawan ng isang aksyon sa natural na wika (halimbawa, "ang isang tao ay lumakad pasulong at yumuko upang kunin ang isang bagay mula sa lupa") o gumamit ng mga karaniwang aksyon tulad ng "pagtakbo" at " tumatalon.” Magagamit din ang system upang i-edit ang mga paggalaw at punan ang mga nawawalang detalye. Ang mga mananaliksik ay nagsagawa ng isang pagsubok kung saan ang mga kalahok ay hiniling na pumili ng isang mas mahusay na resulta mula sa ilang mga opsyon - sa 42% ng mga kaso, mas gusto ng mga tao ang mga synthesize na paggalaw kaysa sa mga tunay.



Pinagmulan: opennet.ru

Magdagdag ng komento