Кампанія Stability AI апублікавала мадэль машыннага навучання Stable Video Diffusion, якая дазваляе генераваць кароткія відэа на аснове малюнкаў. Мадэль пашырае магчымасці праекту Stable Diffusion, раней абмежаванага сінтэзам статычных малюнкаў. Код інструментаў для навучання нейронавай сеткі і генерацыі выяваў напісаны на мове Python з выкарыстаннем фрэймворка PyTorch і апублікаваны пад ліцэнзіяй MIT. Ужо навучаныя мадэлі адчыненыя пад пермісіўнай ліцэнзіяй Creative ML OpenRAIL-M, якая дапускае выкарыстанне ў камерцыйных мэтах.
Для загрузкі даступна два варыянты мадэлі: SVD (Stable Video Diffusion) для генерацыі 14 кадраў з дазволам 576×1024 на аснове зададзенай статычнай выявы і SVD-XT для генерацыі 25 кадраў. Магчымая генерацыя відэа без руху ці з вельмі павольным паваротам камеры, працягласцю не больш за 4 секунды. Прамое кіраванне мадэллю на аснове тэкставага апісання на натуральнай мове пакуль не падтрымліваецца, але можна спачатку падрыхтаваць зыходны малюнак пры дапамозе старой мадэлі Stable Diffusion 2.1, а затым пераўтварыць яго ў відэа, выкарыстоўваючы мадэль SVD.
Якасць відэа пакуль не забяспечвае ідэальнага фотарэалізму і гарантавана правільнай адмалёўкі асоб і людзей. Па прадукцыйнасці прапанаваная адчыненая мадэль апярэджвае прапрыетарныя аналогі ад кампаній Runway і Pika Labs.

Дадаткова можна адзначыць публікацыю інструментара машыннага навучання Video-LLaVA, які дазваляе ствараць адзінае візуальнае прадстаўленне аб'екта, якое фарміруецца на аснове выкарыстання пры навучанні адначасова фатаграфій і відэазапісаў аб'ектаў. Сістэма можа прымяняцца, напрыклад, для распазнання наяўнасці адных і тых жа аб'ектаў на выявах і відэа. Код напісаны на Python і распаўсюджваецца пад ліцэнзіяй Apache 2.0.
Крыніца: opennet.ru
