Реалізація системи машинного навчання для синтезу зображень за текстовим описом

Опубліковано відкриту реалізацію системи машинного навчання DALL-E 2, запропонованої компанією OpenAI і що дозволяє синтезувати реалістичні зображення та картини на основі текстового опису природною мовою, а також застосовувати команди природною мовою для редагування зображень (наприклад, додавати, видаляти або переміщувати об'єкти на зображенні ). Вихідні моделі DALL-E 2 від компанії OpenAI не публікуються, але є стаття з докладним описом методу. На основі наявного опису незалежними дослідниками підготовлено альтернативну реалізацію, написану мовою Python, яка використовує фреймворк Pytorch і поширюється під ліцензією MIT.

Реалізація системи машинного навчання для синтезу зображень за текстовим описомРеалізація системи машинного навчання для синтезу зображень за текстовим описом

У порівнянні з раніше опублікованою реалізацією першого покоління DALL-E, новий варіант забезпечує більш точну відповідність зображення опису, дозволяє досягти більшого фотореалізму і дає можливість формувати зображення у більш високих роздільних здатності. Система вимагає великих ресурсів на навчання моделі, наприклад, навчання вихідного варіанта DALL-E 2 необхідно 100-200 тисяч годин обчислень на GPU, тобто. близько 2-4 тижнів обчислень за наявності 256 GPU NVIDIA Tesla V100.

Реалізація системи машинного навчання для синтезу зображень за текстовим описом

Тим же автором також почалася розробка розширеного варіанта – DALLE2 Video, націленого на синтез відео за текстовим описом. Окремо можна відзначити проект Ощадбанку проект ru-dalle, з відкритою реалізацією першого покоління DALL-E, адаптованою для розпізнавання описів російською мовою.

Джерело: opennet.ru

Додати коментар або відгук