Адкрыты напрацоўкі, звязаныя з сістэмай машыннага навучання Stable Diffusion, якая сінтэзуе выявы на аснове тэкставага апісання на натуральнай мове. Праект развіваецца сумеснымі намаганнямі даследчыкамі з кампаній Stability AI і Runway, супольнасцяў Eleuther AI і LAION, а таксама групы CompVis lab (лабараторыя даследаванняў у галіне машыннага зроку і машыннага навучання пры Мюнхенскім універсітэце). Па магчымасцях і ўзроўню якасці выніку Stable Diffusion нагадвае праект DALL-E 2, але развіваецца як адчынены і агульнадаступны. Рэалізацыя Stable Diffusion напісана на мове Python і распаўсюджваецца пад ліцэнзіяй MIT.
Гатовыя мадэлі ў сапраўдны момант прадастаўляюцца па асобным запыце адукацыйным установам і незалежным даследчыкам, але распрацоўшчыкі абяцаюць адкрыць іх для ўсіх жадаючых пасля завяршэння тэсціравання і гатоўнасці першага рэлізу. Для навучання сістэмы выкарыстоўваўся кластар з 4000 GPU NVIDIA A100 Ezra-1 і калекцыя LAION-5B, у якую ўваходзяць 5.85 мільярдаў малюнкаў з тэкставымі апісаннямі. Кампаненты для генерацыі выявы адзначаюцца як досыць легкаважныя для працы на карыстацкіх сістэмах, напрыклад, для сінтэзу малюнкаў з дазволам 512×512 дастаткова наяўнасці ў сістэме GPU з 10GB відэапамяці.



Акрамя сінтэзу малюнкаў па тэкставым апісанні прапануецца варыянт для мадыфікацыі малюнкаў, які можа з выкарыстаннем удакладняючых тэкставых падказак генераваць карціны па схематычных накідах, рэдагаваць і змяняць выявы або аднаўляць страчаныя дэталі пры павелічэнні маштабу. У распрацоўцы таксама знаходзіцца варыянт Stable Diffusion для рэдагавання відэа на аснове тэкставых каманд на натуральнай мове.


Крыніца: opennet.ru
