Metin açıklamasına dayalı görüntü sentezi için makine öğrenimi sisteminin uygulanması

OpenAI tarafından önerilen makine öğrenme sistemi DALL-E 2'nin açık bir uygulaması yayınlandı ve doğal dildeki bir metin açıklamasına dayalı gerçekçi görüntüler ve resimler sentezlemenin yanı sıra görüntüleri düzenlemek için doğal dilde komutlar uygulamanıza olanak tanıyor ( örneğin görüntüdeki nesneleri ekleyin, silin veya taşıyın). OpenAI'nin orijinal DALL-E 2 modelleri yayınlanmadı ancak yöntemi detaylandıran bir makale mevcut. Mevcut açıklamaya dayanarak bağımsız araştırmacılar, Python'da yazılmış, Pytorch çerçevesini kullanan ve MIT lisansı altında dağıtılan alternatif bir uygulama hazırladılar.

Metin açıklamasına dayalı görüntü sentezi için makine öğrenimi sisteminin uygulanmasıMetin açıklamasına dayalı görüntü sentezi için makine öğrenimi sisteminin uygulanması

Birinci nesil DALL-E'nin daha önce yayınlanmış uygulamasıyla karşılaştırıldığında, yeni sürüm, görüntünün açıklamaya daha doğru bir şekilde eşleşmesini sağlar, daha fazla fotogerçekçiliğe izin verir ve daha yüksek çözünürlüklerde görüntüler oluşturmayı mümkün kılar. Sistem, modeli eğitmek için büyük kaynaklara ihtiyaç duyar; örneğin, DALL-E 2'nin orijinal sürümünün eğitimi, GPU'da 100-200 bin saat hesaplama gerektirir; 2 adet NVIDIA Tesla V4 GPU ile yaklaşık 256-100 haftalık hesaplamalar.

Metin açıklamasına dayalı görüntü sentezi için makine öğrenimi sisteminin uygulanması

Aynı yazar, bir metin açıklamasından video sentezlemeyi amaçlayan DALLE2 Video adlı genişletilmiş bir sürümü de geliştirmeye başladı. Ayrı olarak, Sberbank tarafından geliştirilen ve Rusçadaki açıklamaları tanımak için uyarlanmış birinci nesil DALL-E'nin açık uygulamasıyla geliştirilen ru-dalle projesini not edebiliriz.

Kaynak: opennet.ru

Yorum ekle