متن جي وضاحت جي بنياد تي تصويري جوڙجڪ لاءِ مشين لرننگ سسٽم جو نفاذ

مشين لرننگ سسٽم جو هڪ کليل نفاذ DALL-E 2، OpenAI پاران تجويز ڪيل، شايع ڪيو ويو آهي ۽ توهان کي قدرتي ٻولي ۾ متن جي وضاحت جي بنياد تي حقيقي تصويرن ۽ پينٽنگس کي ترتيب ڏيڻ جي اجازت ڏئي ٿو، انهي سان گڏ تصويرن کي ايڊٽ ڪرڻ لاءِ قدرتي ٻولي ۾ حڪم لاڳو ڪريو ( مثال طور، تصوير ۾ شيون شامل ڪريو، حذف ڪريو يا منتقل ڪريو). OpenAI جا اصل DALL-E 2 ماڊل شايع نه ڪيا ويا آهن، پر هڪ ڪاغذ موجود آهي تفصيلي طريقي سان. موجوده وضاحت جي بنياد تي، آزاد محققن Python ۾ لکيل هڪ متبادل عمل تيار ڪيو آهي، Pytorch فريم ورڪ استعمال ڪندي ۽ MIT لائسنس تحت ورهايو ويو آهي.

متن جي وضاحت جي بنياد تي تصويري جوڙجڪ لاءِ مشين لرننگ سسٽم جو نفاذمتن جي وضاحت جي بنياد تي تصويري جوڙجڪ لاءِ مشين لرننگ سسٽم جو نفاذ

DALL-E جي پهرين نسل جي اڳوڻي شايع ٿيل عمل جي مقابلي ۾، نئون نسخو وضاحت سان تصوير جو وڌيڪ صحيح ميلاپ مهيا ڪري ٿو، وڌيڪ فوٽو ريئلزم جي اجازت ڏئي ٿو ۽ اعلي قراردادن ۾ تصويرون پيدا ڪرڻ کي ممڪن بڻائي ٿو. سسٽم کي ماڊل کي تربيت ڏيڻ لاءِ وڏي وسيلن جي ضرورت آهي؛ مثال طور، DALL-E 2 جي اصل ورزن جي تربيت لاءِ GPU تي 100-200 هزار ڪلاڪ ڪمپيوٽنگ جي ضرورت آهي، يعني. اٽڪل 2-4 هفتن جي حساب سان 256 NVIDIA Tesla V100 GPUs.

متن جي وضاحت جي بنياد تي تصويري جوڙجڪ لاءِ مشين لرننگ سسٽم جو نفاذ

ساڳئي ليکڪ پڻ هڪ وڌايل ورزن کي ترقي ڪرڻ شروع ڪيو - DALLE2 وڊيو، جنهن جو مقصد هڪ متن جي وضاحت مان وڊيو کي ترتيب ڏيڻ آهي. الڳ الڳ، اسان Sberbank پاران تيار ڪيل ru-dalle پروجيڪٽ کي نوٽ ڪري سگھون ٿا، پهرين نسل جي DALL-E جي کليل عمل سان، روسي ۾ وضاحتن کي سڃاڻڻ لاءِ ٺاهيل.

جو ذريعو: opennet.ru

تبصرو شامل ڪريو