Прадстаўлена сістэма сінтэзу малюнкаў Stable Diffusion 2.0

Кампанія Stability AI апублікавала другую рэдакцыю сістэмы машыннага навучання Stable Diffusion, здольнай сінтэзаваць і змяняць выявы на аснове прапанаванага шаблону або тэкставага апісання на натуральнай мове. Код інструментаў для навучання нейронавай сеткі і генерацыі выяваў напісаны на мове Python з выкарыстаннем фрэймворка PyTorch і апублікаваны пад ліцэнзіяй MIT. Ужо навучаныя мадэлі адчыненыя пад пермісіўнай ліцэнзіяй Creative ML OpenRAIL-M, якая дапускае выкарыстанне ў камерцыйных мэтах. Дадаткова даступны дэманстрацыйны online-генератар выяваў.

Ключавыя паляпшэнні ў новай рэдакцыі Stable Diffusion:

  • Створана новая мадэль сінтэзу малюнкаў па тэкставым апісанні – SD2.0-v, якая падтрымлівае генерацыю малюнкаў з дазволам 768×768. Новая мадэль навучана з выкарыстаннем калекцыі LAION-5B, у якую ўваходзяць 5.85 мільярдаў малюнкаў з тэкставымі апісаннямі. Мадэль выкарыстоўвае той жа набор параметраў як і ў мадэлі Stable Diffusion 1.5, але адрозніваецца пераходам на выкарыстанне прынцыпова іншага кадавальніка OpenCLIP-ViT/H, які дазволіў істотна павысіць якасць выніковых малюнкаў.
    Прадстаўлена сістэма сінтэзу малюнкаў Stable Diffusion 2.0
  • Падрыхтаваны спрошчаны варыянт SD2.0-base, навучаны на выявах 256×256 з выкарыстаннем класічнай мадэлі прадказання шумоў і які падтрымлівае генерацыю малюнкаў з дазволам 512×512.
    Прадстаўлена сістэма сінтэзу малюнкаў Stable Diffusion 2.0
  • Прадастаўлена магчымасць выкарыстання тэхналогіі суперсэмплінга (Super Resolution) для павелічэння дазволу зыходнага малюнка без зніжэння якасці, выкарыстоўваючы алгарытмы прасторавага маштабавання і рэканструкцыі дэталяў. Дадзеная мадэль апрацоўкі малюнкаў (SD20-upscaler) падтрымлівае чатырохразовае павелічэнне маштабу, што дазваляе фармаваць выявы з дазволам 2048×2048.
    Прадстаўлена сістэма сінтэзу малюнкаў Stable Diffusion 2.0
  • Прапанавана мадэль SD2.0-depth2img, якая ўлічвае глыбіню і прасторавае размяшчэнне аб'ектаў. Для манакулярнай адзнакі глыбіні выкарыстоўваецца сістэма MiDaS. Мадэль дазваляе сінтэзаваць новыя выявы, выкарыстоўваючы іншы малюнак у якасці шаблону, якія могуць радыкальна адрознівацца ад арыгінала, але захоўваць агульную кампазіцыю і глыбіню. Напрыклад, можна выкарыстоўваць позу чалавека на фатаграфіі для фарміравання іншага персанажа ў той жа позе.
    Прадстаўлена сістэма сінтэзу малюнкаў Stable Diffusion 2.0
    Прадстаўлена сістэма сінтэзу малюнкаў Stable Diffusion 2.0
    Прадстаўлена сістэма сінтэзу малюнкаў Stable Diffusion 2.0
  • Абноўлена мадэль для мадыфікацыі малюнкаў - SD 2.0-inpainting, якая дазваляе пры дапамозе тэкставых падказак замяняць і змяняць часткі малюнка.
    Прадстаўлена сістэма сінтэзу малюнкаў Stable Diffusion 2.0
  • Праведзена аптымізацыя мадэляў для выкарыстання на звычайных сістэмах з адным GPU.

Прадстаўлена сістэма сінтэзу малюнкаў Stable Diffusion 2.0


Крыніца: opennet.ru

Дадаць каментар