اسٽيبلٽي اي آءِ هڪ مشين لرننگ ماڊل شايع ڪيو آهي جنهن کي اسٽيبل ويڊيو ڊفيوشن سڏيو ويندو آهي جيڪو تصويرن مان مختصر وڊيوز ٺاهي سگھي ٿو. ماڊل اسٽيبل ڊفيوشن پروجيڪٽ جي صلاحيتن کي وڌائي ٿو، اڳ ۾ جامد تصويرن جي ترڪيب تائين محدود. نيورل نيٽ ورڪ ٽريننگ ۽ تصويري نسل جي اوزارن جو ڪوڊ Python ۾ PyTorch فريم ورڪ استعمال ڪندي لکيو ويو آهي ۽ MIT لائسنس تحت شايع ٿيل آهي. اڳ ۾ ئي تربيت يافته ماڊل کليل آهن اجازت ڏيڻ واري تخليقي ML OpenRAIL-M لائسنس تحت، تجارتي استعمال جي اجازت ڏئي ٿي.
هتي ٻه ماڊل آپشن موجود آهن ڊائون لوڊ ڪرڻ لاءِ: SVD (Stable Video Diffusion) 14 فريم ٺاهڻ لاءِ 576x1024 جي ريزوليوشن سان ڏنل جامد تصوير جي بنياد تي ۽ SVD-XT 25 فريم ٺاهڻ لاءِ. اهو ممڪن آهي ته بغير حرڪت جي يا تمام سست ڪئميرا گردش سان، 4 سيڪنڊن کان وڌيڪ نه رهي. قدرتي ٻولي جي متن جي وضاحت جي بنياد تي سڌو ماڊل ڪنٽرول اڃا تائين سهڪار نه ڪيو ويو آهي، پر توهان پهريان پراڻي اسٽيبل ڊفيوشن 2.1 ماڊل استعمال ڪندي اصل تصوير تيار ڪري سگهو ٿا ۽ پوءِ SVD ماڊل استعمال ڪندي ان کي وڊيو ۾ تبديل ڪري سگهو ٿا.
وڊيو معيار اڃا تائين مثالي فوٽو ريئلزم مهيا نٿو ڪري ۽ منهن ۽ ماڻهن جي صحيح رينجرنگ جي ضمانت ڏئي ٿي. ڪارڪردگي جي لحاظ کان، تجويز ڪيل اوپن ماڊل رن وي ۽ پيڪا ليبز کان ملڪيت جي اينالاگ کان اڳتي آهي. ماڊل مختلف مسئلن کي حل ڪرڻ لاء آساني سان ترتيب ڏئي سگهجي ٿو، مثال طور، ان کي استعمال ڪري سگهجي ٿو ٽي-dimensional انگن اکرن کي ٺاهڻ لاء.

اضافي طور تي، اسان وڊيو-LLaVA مشين لرننگ ٽول ڪٽ جي اشاعت کي نوٽ ڪري سگھون ٿا، جيڪو توهان کي اجازت ڏئي ٿو ته ڪنهن شئي جي هڪ متحد بصري نمائندگي ٺاهي، جيڪا هڪ ئي وقت ۾ استعمال ٿيندڙ تصويرن جي استعمال جي بنياد تي ٺاهي وئي ۽ تربيت دوران شين جي وڊيو رڪارڊنگ. سسٽم استعمال ڪري سگھجي ٿو، مثال طور، تصويرن ۽ وڊيوز ۾ ساڳئي شين جي موجودگي کي سڃاڻڻ لاء. ڪوڊ Python ۾ لکيل آهي ۽ Apache 2.0 لائسنس تحت ورهايو ويو آهي.
جو ذريعو: opennet.ru
