مشين لرننگ سسٽم جو هڪ کليل نفاذ DALL-E 2، OpenAI پاران تجويز ڪيل، شايع ڪيو ويو آهي ۽ توهان کي قدرتي ٻولي ۾ متن جي وضاحت جي بنياد تي حقيقي تصويرن ۽ پينٽنگس کي ترتيب ڏيڻ جي اجازت ڏئي ٿو، انهي سان گڏ تصويرن کي ايڊٽ ڪرڻ لاءِ قدرتي ٻولي ۾ حڪم لاڳو ڪريو ( مثال طور، تصوير ۾ شيون شامل ڪريو، حذف ڪريو يا منتقل ڪريو). OpenAI جا اصل DALL-E 2 ماڊل شايع نه ڪيا ويا آهن، پر هڪ ڪاغذ موجود آهي تفصيلي طريقي سان. موجوده وضاحت جي بنياد تي، آزاد محققن Python ۾ لکيل هڪ متبادل عمل تيار ڪيو آهي، Pytorch فريم ورڪ استعمال ڪندي ۽ MIT لائسنس تحت ورهايو ويو آهي.
DALL-E جي پهرين نسل جي اڳوڻي شايع ٿيل عمل جي مقابلي ۾، نئون نسخو وضاحت سان تصوير جو وڌيڪ صحيح ميلاپ مهيا ڪري ٿو، وڌيڪ فوٽو ريئلزم جي اجازت ڏئي ٿو ۽ اعلي قراردادن ۾ تصويرون پيدا ڪرڻ کي ممڪن بڻائي ٿو. سسٽم کي ماڊل کي تربيت ڏيڻ لاءِ وڏي وسيلن جي ضرورت آهي؛ مثال طور، DALL-E 2 جي اصل ورزن جي تربيت لاءِ GPU تي 100-200 هزار ڪلاڪ ڪمپيوٽنگ جي ضرورت آهي، يعني. اٽڪل 2-4 هفتن جي حساب سان 256 NVIDIA Tesla V100 GPUs.
ساڳئي ليکڪ پڻ هڪ وڌايل ورزن کي ترقي ڪرڻ شروع ڪيو - DALLE2 وڊيو، جنهن جو مقصد هڪ متن جي وضاحت مان وڊيو کي ترتيب ڏيڻ آهي. الڳ الڳ، اسان Sberbank پاران تيار ڪيل ru-dalle پروجيڪٽ کي نوٽ ڪري سگھون ٿا، پهرين نسل جي DALL-E جي کليل عمل سان، روسي ۾ وضاحتن کي سڃاڻڻ لاءِ ٺاهيل.
جو ذريعو: opennet.ru