Stability AI кескіндерден қысқа бейнелерді жасай алатын Stable Video Diffusion машиналық оқыту үлгісін жариялады. Модель бұрын статикалық кескіндерді синтездеумен шектелген Тұрақты диффузия жобасының мүмкіндіктерін кеңейтеді. Нейрондық желіні оқыту және кескінді құру құралдарының коды PyTorch құрылымын пайдаланып Python тілінде жазылған және MIT лицензиясы бойынша жарияланған. Оқытылған үлгілер коммерциялық пайдалануға мүмкіндік беретін Creative ML OpenRAIL-M рұқсат беретін лицензиясы бойынша ашық көзі болып табылады.
Жүктеп алу үшін екі модель нұсқасы қолжетімді: берілген статикалық кескін негізінде 576×1024 ажыратымдылықта 14 кадрды генерациялайтын SVD (тұрақты бейне диффузиясы) және 25 кадрды генерациялайтын SVD-XT. Бейнені генерациялау қозғалыссыз немесе камераның өте баяу айналуымен мүмкін, ұзақтығы 4 секундтан аспайды. Табиғи тілдегі мәтінге негізделген модельді тікелей басқаруға әлі қолдау көрсетілмейді, бірақ алдымен ескі Stable Diffusion 2.1 үлгісін пайдаланып бастапқы кескінді дайындауға, содан кейін SVD үлгісін пайдаланып бейнеге түрлендіруге болады.
Бейне сапасы әлі тамаша фотореализмді немесе беттер мен адамдарды дәл көрсетуді қамтамасыз етпейді. Өнімділік тұрғысынан ұсынылған ашық бастапқы модель Runway және Pika Labs фирмаларының аналогтарынан асып түседі. Модель үш өлшемді фигураларды жасау сияқты әртүрлі тапсырмаларға оңай бейімделуі мүмкін.

Сондай-ақ оқу кезінде объектінің фотосуреттері мен бейне жазбаларын пайдалану арқылы қалыптасатын объектінің біртұтас визуалды бейнесін жасауға мүмкіндік беретін Video-LLaVA машиналық оқыту құралдарының шығарылымы назар аударарлық. Жүйені, мысалы, суреттер мен бейнелердегі бірдей нысандардың болуын тану үшін пайдалануға болады. Код Python тілінде жазылған және Apache 2.0 лицензиясы бойынша таратылады.
Ақпарат көзі: opennet.ru
