Implementasi sistem pembelajaran mesin untuk sintesis gambar berdasarkan deskripsi teks

Implementasi terbuka dari sistem pembelajaran mesin DALL-E 2, yang diusulkan oleh OpenAI, telah diterbitkan dan memungkinkan Anda mensintesis gambar dan lukisan realistis berdasarkan deskripsi teks dalam bahasa alami, serta menerapkan perintah dalam bahasa alami untuk mengedit gambar ( misalnya menambah, menghapus, atau memindahkan objek pada gambar). Model DALL-E 2 asli OpenAI tidak dipublikasikan, namun makalah yang merinci metode ini tersedia. Berdasarkan uraian yang ada, peneliti independen telah menyiapkan alternatif implementasi yang ditulis dengan Python, menggunakan framework Pytorch dan didistribusikan di bawah lisensi MIT.

Implementasi sistem pembelajaran mesin untuk sintesis gambar berdasarkan deskripsi teksImplementasi sistem pembelajaran mesin untuk sintesis gambar berdasarkan deskripsi teks

Dibandingkan dengan implementasi DALL-E generasi pertama yang diterbitkan sebelumnya, versi baru ini memberikan kecocokan gambar dan deskripsi yang lebih akurat, memungkinkan fotorealisme yang lebih besar, dan memungkinkan menghasilkan gambar dalam resolusi yang lebih tinggi. Sistem memerlukan sumber daya yang besar untuk melatih model; misalnya, melatih versi asli DALL-E 2 memerlukan 100-200 ribu jam komputasi pada GPU, mis. sekitar 2-4 minggu perhitungan dengan 256 GPU NVIDIA Tesla V100.

Implementasi sistem pembelajaran mesin untuk sintesis gambar berdasarkan deskripsi teks

Penulis yang sama juga mulai mengembangkan versi diperpanjang - Video DALLE2, yang bertujuan untuk mensintesis video dari deskripsi teks. Secara terpisah, kita dapat mencatat proyek ru-dalle yang dikembangkan oleh Bank Tabungan, dengan implementasi terbuka DALL-E generasi pertama, diadaptasi untuk mengenali deskripsi dalam bahasa Rusia.

Sumber: opennet.ru

Tambah komentar