Matn tavsifi asosida tasvir sintezi uchun mashinani o'rganish tizimini joriy etish

OpenAI tomonidan taklif etilgan DALL-E 2 mashinani o'rganish tizimining ochiq ilovasi nashr etildi va u sizga tabiiy tildagi matn tavsifi asosida real tasvirlar va rasmlarni sintez qilish, shuningdek tasvirlarni tahrirlash uchun tabiiy tilda buyruqlarni qo'llash imkonini beradi ( masalan, rasmdagi ob'ektlarni qo'shish, o'chirish yoki ko'chirish). OpenAI ning original DALL-E 2 modellari nashr etilmagan, ammo usul haqida batafsil ma'lumot berilgan qog'oz mavjud. Mavjud tavsifga asoslanib, mustaqil tadqiqotchilar Pytorch tizimidan foydalangan holda Python-da yozilgan va MIT litsenziyasi ostida tarqatilgan muqobil dasturni tayyorladilar.

Matn tavsifi asosida tasvir sintezi uchun mashinani o'rganish tizimini joriy etishMatn tavsifi asosida tasvir sintezi uchun mashinani o'rganish tizimini joriy etish

Ilgari nashr etilgan DALL-E birinchi avlodi ilovasi bilan solishtirganda, yangi versiya tasvirning tavsifga aniqroq mos kelishini ta'minlaydi, katta fotorealizmga imkon beradi va yuqori aniqlikdagi tasvirlarni yaratishga imkon beradi. Tizim modelni o'rgatish uchun katta resurslarni talab qiladi, masalan, DALL-E 2 ning original versiyasini o'rgatish GPUda 100-200 ming soat hisoblashni talab qiladi, ya'ni. 2 NVIDIA Tesla V4 GPU bilan taxminan 256-100 haftalik hisob-kitoblar.

Matn tavsifi asosida tasvir sintezi uchun mashinani o'rganish tizimini joriy etish

Xuddi shu muallif, shuningdek, matn tavsifidan videoni sintez qilishga qaratilgan kengaytirilgan versiya - DALLE2 Videoni ishlab chiqishni boshladi. Alohida-alohida, biz Sberbank tomonidan ishlab chiqilgan ru-dalle loyihasini ta'kidlashimiz mumkin, birinchi avlod DALL-E rus tilidagi tavsiflarni tanib olish uchun moslashtirilgan.

Manba: opennet.ru

a Izoh qo'shish