تیمی از محققان دانشگاه تل آویو کد منبع مرتبط با سیستم یادگیری ماشینی MDM (Motion Diffusion Model) را باز کرده اند که امکان ایجاد حرکات واقعی انسان را فراهم می کند. کد با استفاده از چارچوب PyTorch در پایتون نوشته شده و تحت مجوز MIT توزیع می شود. برای انجام آزمایشها، میتوانید هم از مدلهای آماده استفاده کنید و هم خودتان با استفاده از اسکریپتهای پیشنهادی، مدلها را آموزش دهید، مثلاً با استفاده از مجموعه HumanML3D از تصاویر سهبعدی انسان. برای آموزش سیستم، یک GPU با پشتیبانی CUDA مورد نیاز است.
استفاده از قابلیت های سنتی برای متحرک سازی حرکات انسان به دلیل پیچیدگی های مرتبط با تنوع زیاد حرکات ممکن و دشواری توصیف رسمی آنها و همچنین حساسیت زیاد ادراک انسان به حرکات غیرطبیعی دشوار است. تلاشهای قبلی برای استفاده از مدلهای یادگیری ماشینی مولد مشکلاتی با کیفیت و بیان محدود داشته است.
سیستم پیشنهادی سعی میکند از مدلهای انتشار برای تولید حرکات استفاده کند، که ذاتاً برای شبیهسازی حرکات انسان مناسبتر هستند، اما بدون اشکال نیستند، مانند الزامات محاسباتی بالا و پیچیدگی کنترل. برای به حداقل رساندن کاستیهای مدلهای انتشار، MDM از شبکه عصبی ترانسفورماتور و پیشبینی نمونه به جای پیشبینی نویز در هر مرحله استفاده میکند و جلوگیری از ناهنجاریهایی مانند از دست دادن تماس سطحی با پا را آسانتر میکند.
برای کنترل تولید، میتوان از توصیف متنی یک عمل به زبان طبیعی استفاده کرد (مثلاً «فردی به جلو راه میرود و خم میشود تا چیزی را از زمین بردارد») یا از اقدامات استاندارد مانند «دویدن» و «دویدن» استفاده کرد. پریدن.» این سیستم همچنین می تواند برای ویرایش حرکات و پر کردن جزئیات از دست رفته استفاده شود. محققان آزمایشی را انجام دادند که در آن از شرکت کنندگان خواسته شد که از بین چندین گزینه نتیجه بهتری را انتخاب کنند - در 42٪ موارد، افراد حرکات سنتز شده را به حرکات واقعی ترجیح می دهند.
منبع: opennet.ru