Mae Stability AI wedi cyhoeddi model dysgu peiriant o'r enw Stable Video Diffusion a all gynhyrchu fideos byr o ddelweddau. Mae'r model yn ehangu galluoedd y prosiect Trylediad Sefydlog, a oedd yn gyfyngedig yn flaenorol i synthesis delweddau sefydlog. Mae'r cod ar gyfer yr offer hyfforddi rhwydwaith niwral a chynhyrchu delweddau wedi'i ysgrifennu yn Python gan ddefnyddio fframwaith PyTorch a'i gyhoeddi o dan drwydded MIT. Mae modelau sydd eisoes wedi'u hyfforddi ar agor o dan drwydded caniataol Creative ML OpenRAIL-M, gan ganiatáu ar gyfer defnydd masnachol.
Mae dau opsiwn model ar gael i'w lawrlwytho: SVD (Stable Video Diffusion) ar gyfer cynhyrchu 14 ffrâm gyda chydraniad o 576x1024 yn seiliedig ar ddelwedd sefydlog benodol a SVD-XT ar gyfer cynhyrchu 25 ffrâm. Mae'n bosibl cynhyrchu fideo heb symudiad neu gyda chylchdroi camera araf iawn, yn para dim mwy na 4 eiliad. Nid yw rheolaeth model uniongyrchol yn seiliedig ar ddisgrifiad testun iaith naturiol wedi'i gefnogi eto, ond gallwch chi baratoi'r ddelwedd wreiddiol yn gyntaf gan ddefnyddio'r hen fodel Stable Diffusion 2.1 ac yna ei drosi i fideo gan ddefnyddio'r model SVD.
Nid yw ansawdd fideo eto'n darparu ffotorealaeth ddelfrydol a gwarant rendrad cywir o wynebau a phobl. O ran perfformiad, mae'r model agored arfaethedig ar y blaen i analogau perchnogol o Runway a Pika Labs. Gellir addasu'r model yn hawdd i ddatrys problemau amrywiol, er enghraifft, gellir ei ddefnyddio i ffurfio ffigurau tri dimensiwn.

Yn ogystal, gallwn nodi cyhoeddi'r pecyn cymorth dysgu peiriannol Fideo-LLaVA, sy'n eich galluogi i greu cynrychiolaeth weledol unedig o wrthrych, a ffurfiwyd yn seiliedig ar y defnydd o ffotograffau a recordiadau fideo o wrthrychau ar yr un pryd yn ystod hyfforddiant. Gellir defnyddio'r system, er enghraifft, i adnabod presenoldeb yr un gwrthrychau mewn delweddau a fideos. Mae'r cod wedi'i ysgrifennu yn Python a'i ddosbarthu o dan drwydded Apache 2.0.
Ffynhonnell: opennet.ru
