Внедряване на система за машинно обучение за синтез на изображения на база текстово описание

Отворена реализация на системата за машинно обучение DALL-E 2, предложена от OpenAI, е публикувана и ви позволява да синтезирате реалистични изображения и картини въз основа на текстово описание на естествен език, както и да прилагате команди на естествен език за редактиране на изображения ( например добавяне, изтриване или преместване на обекти в изображението). Оригиналните DALL-E 2 модели на OpenAI не са публикувани, но е наличен документ, описващ метода. Въз основа на съществуващото описание, независими изследователи са подготвили алтернативна реализация, написана на Python, използвайки рамката на Pytorch и разпространявана под лиценза на MIT.

Внедряване на система за машинно обучение за синтез на изображения на база текстово описаниеВнедряване на система за машинно обучение за синтез на изображения на база текстово описание

В сравнение с предишната публикувана реализация на първото поколение DALL-E, новата версия осигурява по-точно съответствие на изображението с описанието, позволява по-голям фотореализъм и прави възможно генерирането на изображения с по-високи разделителни способности. Системата изисква големи ресурси за обучение на модела; например обучението на оригиналната версия на DALL-E 2 изисква 100-200 хиляди часа изчисления на GPU, т.е. около 2-4 седмици изчисления с 256 графични процесора NVIDIA Tesla V100.

Внедряване на система за машинно обучение за синтез на изображения на база текстово описание

Същият автор започва да разработва и разширена версия - DALLE2 Video, насочена към синтезиране на видео от текстово описание. Отделно можем да отбележим проекта ru-dalle, разработен от Сбербанк, с отворена реализация на първото поколение DALL-E, адаптиран за разпознаване на описания на руски език.

Източник: opennet.ru

Добавяне на нов коментар