Implementasi sistem machine learning kanggo sintesis gambar adhedhasar deskripsi teks

Implementasi mbukak sistem pembelajaran mesin DALL-E 2, sing diusulake dening OpenAI, wis diterbitake lan ngidini sampeyan sintesis gambar lan lukisan sing realistis adhedhasar deskripsi teks ing basa alami, uga ngetrapake perintah ing basa alami kanggo ngowahi gambar ( contone, nambah, mbusak utawa mindhah obyek ing gambar). Model DALL-E 2 asli OpenAI ora diterbitake, nanging ana kertas sing rinci babagan metode kasebut. Adhedhasar katrangan sing ana, peneliti independen wis nyiapake implementasine alternatif sing ditulis ing Python, nggunakake kerangka Pytorch lan disebarake ing lisensi MIT.

Implementasi sistem machine learning kanggo sintesis gambar adhedhasar deskripsi teksImplementasi sistem machine learning kanggo sintesis gambar adhedhasar deskripsi teks

Dibandhingake karo implementasine sadurunge diterbitake saka generasi pisanan DALL-E, versi anyar menehi match luwih akurat saka gambar kanggo gambaran, ngidini kanggo photorealism luwih lan ndadekake iku bisa kanggo generate gambar ing resolusi sing luwih dhuwur. Sistem kasebut mbutuhake sumber daya gedhe kanggo nglatih model kasebut; contone, latihan versi asli DALL-E 2 mbutuhake 100-200 ewu jam komputasi ing GPU, yaiku. bab 2-4 minggu pitungan karo 256 NVIDIA Tesla V100 GPUs.

Implementasi sistem machine learning kanggo sintesis gambar adhedhasar deskripsi teks

Penulis sing padha uga wiwit ngembangake versi lengkap - DALLE2 Video, ngarahake sintesis video saka deskripsi teks. Kapisah, kita bisa nyathet proyek ru-dalle sing dikembangake dening Sberbank, kanthi implementasi mbukak saka DALL-E generasi pisanan, diadaptasi kanggo ngenali deskripsi ing basa Rusia.

Source: opennet.ru

Add a comment