Stability AI модели омӯзиши мошиниро бо номи Stable Video Diffusion нашр кард, ки метавонад аз тасвирҳо видеоҳои кӯтоҳ тавлид кунад. Модел имкониятҳои лоиҳаи Stable Diffusion-ро, ки қаблан бо синтези тасвирҳои статикӣ маҳдуд буд, васеъ мекунад. Рамзи омӯзиши шабакаи нейронӣ ва асбобҳои тавлиди тасвир дар Python бо истифода аз чаҳорчӯбаи PyTorch навишта шудааст ва таҳти иҷозатномаи MIT нашр шудааст. Моделҳои аллакай омӯзонидашуда таҳти иҷозатномаи Creative ML OpenRAIL-M кушода шудаанд, ки барои истифодаи тиҷоратӣ иҷозат медиҳанд.
Ду варианти модели барои зеркашӣ мавҷуд аст: SVD (Диффузияи устувори видео) барои тавлиди 14 фоторамка бо қарори 576x1024 дар асоси тасвири статикии додашуда ва SVD-XT барои тавлиди 25 фоторамка. Бе ҳаракат ё бо гардиши хеле сусти камера, ки на бештар аз 4 сония давом мекунад, видео эҷод кардан мумкин аст. Назорати мустақими модел дар асоси тавсифи матни забони табиӣ ҳанӯз дастгирӣ намешавад, аммо шумо аввал метавонед тасвири аслиро бо истифода аз модели кӯҳнаи Stable Diffusion 2.1 омода кунед ва сипас онро бо истифода аз модели SVD ба видео табдил диҳед.
Сифати видео ҳанӯз фотореализми идеалӣ ва кафолати дурусти чеҳраҳо ва одамонро таъмин намекунад. Аз ҷиҳати самаранокӣ, модели кушодаи пешниҳодшуда аз аналогҳои хусусии Runway ва Pika Labs пеш аст. Моделро барои ҳалли масъалаҳои гуногун ба осонӣ мутобиқ кардан мумкин аст, масалан, онро барои ташаккули фигураҳои сеченака истифода бурдан мумкин аст.

Илова бар ин, мо метавонем нашри асбобҳои омӯзишии мошини Video-LLaVA-ро қайд кунем, ки ба шумо имкон медиҳад, ки тасвири ягонаи визуалии объектро, ки дар асоси истифодаи ҳамзамон аксҳо ва сабти видеоии ашёҳо ҳангоми омӯзиш ташаккул ёфтааст, эҷод кунед. Система метавонад, масалан, барои эътироф кардани мавҷудияти ҳамон объектҳо дар тасвирҳо ва видеоҳо истифода шавад. Рамз дар Python навишта шудааст ва таҳти иҷозатномаи Apache 2.0 паҳн карда мешавад.
Манбаъ: opennet.ru
