Pelaksanaan sistem pembelajaran mesin untuk sintesis imej berdasarkan penerangan teks

Pelaksanaan terbuka sistem pembelajaran mesin DALL-E 2, yang dicadangkan oleh OpenAI, telah diterbitkan dan membolehkan anda mensintesis imej dan lukisan realistik berdasarkan penerangan teks dalam bahasa semula jadi, serta menggunakan arahan dalam bahasa semula jadi untuk mengedit imej ( contohnya, tambah, padam atau alihkan objek dalam imej ). Model DALL-E 2 asal OpenAI tidak diterbitkan, tetapi kertas yang memperincikan kaedah tersedia. Berdasarkan penerangan sedia ada, penyelidik bebas telah menyediakan pelaksanaan alternatif yang ditulis dalam Python, menggunakan rangka kerja Pytorch dan diedarkan di bawah lesen MIT.

Pelaksanaan sistem pembelajaran mesin untuk sintesis imej berdasarkan penerangan teksPelaksanaan sistem pembelajaran mesin untuk sintesis imej berdasarkan penerangan teks

Berbanding dengan pelaksanaan generasi pertama DALL-E yang diterbitkan sebelum ini, versi baharu ini menyediakan padanan imej yang lebih tepat dengan penerangan, membolehkan fotorealisme yang lebih besar dan memungkinkan untuk menjana imej dalam resolusi yang lebih tinggi. Sistem ini memerlukan sumber yang besar untuk melatih model; contohnya, melatih versi asal DALL-E 2 memerlukan 100-200 ribu jam pengkomputeran pada GPU, i.e. kira-kira 2-4 minggu pengiraan dengan 256 GPU NVIDIA Tesla V100.

Pelaksanaan sistem pembelajaran mesin untuk sintesis imej berdasarkan penerangan teks

Pengarang yang sama juga mula membangunkan versi lanjutan - DALLE2 Video, bertujuan untuk mensintesis video daripada penerangan teks. Secara berasingan, kita boleh perhatikan projek ru-dalle yang dibangunkan oleh Sberbank, dengan pelaksanaan terbuka DALL-E generasi pertama, disesuaikan untuk mengiktiraf penerangan dalam bahasa Rusia.

Sumber: opennet.ru

Tambah komen