Palaksanaan sistem pembelajaran mesin pikeun sintésis gambar dumasar kana déskripsi téks

Palaksanaan kabuka tina sistem pembelajaran mesin DALL-E 2, diusulkeun ku OpenAI, parantos diterbitkeun sareng ngamungkinkeun anjeun nyintésis gambar sareng lukisan anu réalistis dumasar kana déskripsi téks dina basa alami, ogé nerapkeun paréntah dina basa alami pikeun ngédit gambar ( contona, nambahkeun, mupus atawa mindahkeun objék dina gambar). Model DALL-E 2 asli OpenAI henteu dipedalkeun, tapi aya tulisan anu ngajelaskeun metodena. Dumasar kana pedaran aya, peneliti bebas geus disiapkeun hiji palaksanaan alternatif ditulis dina Python, ngagunakeun kerangka Pytorch sarta disebarkeun dina lisénsi MIT.

Palaksanaan sistem pembelajaran mesin pikeun sintésis gambar dumasar kana déskripsi téksPalaksanaan sistem pembelajaran mesin pikeun sintésis gambar dumasar kana déskripsi téks

Dibandingkeun jeung palaksanaan saméméhna diterbitkeun tina generasi kahiji DALL-E, versi anyar nyadiakeun hiji patandingan leuwih akurat gambar ka pedaran, ngamungkinkeun pikeun photorealism gede tur ngamungkinkeun pikeun ngahasilkeun gambar dina resolusi luhur. Sistim nu merlukeun sumberdaya badag pikeun ngalatih model contona, latihan versi aslina tina DALL-E 2 merlukeun 100-200 sarébu jam komputasi on GPU, i.e. kira-kira 2-4 minggu itungan kalawan 256 NVIDIA Tesla V100 GPUs.

Palaksanaan sistem pembelajaran mesin pikeun sintésis gambar dumasar kana déskripsi téks

Panulis anu sami ogé mimiti ngembangkeun versi anu diperpanjang - DALLE2 Video, ditujukeun pikeun nyintésis pidéo tina déskripsi téks. Kapisah, urang tiasa catetan proyék ru-dalle dikembangkeun ku Sberbank, kalawan palaksanaan kabuka tina DALL-E generasi kahiji, diadaptasi pikeun recognizing déskripsi dina basa Rusia.

sumber: opennet.ru

Tambahkeun komentar