Отворена реализация на системата за машинно обучение DALL-E 2, предложена от OpenAI, е публикувана и ви позволява да синтезирате реалистични изображения и картини въз основа на текстово описание на естествен език, както и да прилагате команди на естествен език за редактиране на изображения ( например добавяне, изтриване или преместване на обекти в изображението). Оригиналните DALL-E 2 модели на OpenAI не са публикувани, но е наличен документ, описващ метода. Въз основа на съществуващото описание, независими изследователи са подготвили алтернативна реализация, написана на Python, използвайки рамката на Pytorch и разпространявана под лиценза на MIT.
В сравнение с предишната публикувана реализация на първото поколение DALL-E, новата версия осигурява по-точно съответствие на изображението с описанието, позволява по-голям фотореализъм и прави възможно генерирането на изображения с по-високи разделителни способности. Системата изисква големи ресурси за обучение на модела; например обучението на оригиналната версия на DALL-E 2 изисква 100-200 хиляди часа изчисления на GPU, т.е. около 2-4 седмици изчисления с 256 графични процесора NVIDIA Tesla V100.
Същият автор започва да разработва и разширена версия - DALLE2 Video, насочена към синтезиране на видео от текстово описание. Отделно можем да отбележим проекта ru-dalle, разработен от Сбербанк, с отворена реализация на първото поколение DALL-E, адаптиран за разпознаване на описания на руски език.
Източник: opennet.ru