Сістэмы машыннага навучання для сінтэзу малюнкаў і падаўлення шумоў на начных фота

Кампанія Stability AI апублікавала гатовыя мадэлі для сістэмы машыннага навучання Stable Diffusion, здольнай сінтэзаваць і змяняць выявы на аснове тэкставага апісання на натуральнай мове. Мадэлі адчыненыя пад пермісіўнай ліцэнзіяй Creative ML OpenRAIL-M, якая дапускае выкарыстанне ў камерцыйных мэтах. Для навучання сістэмы выкарыстоўваўся кластар з 4000 GPU NVIDIA A100 Ezra-1 і калекцыя LAION-5B, у якую ўваходзяць 5.85 мільярдаў малюнкаў з тэкставымі апісаннямі. Раней пад ліцэнзіяй MIT быў адкрыты код інструментаў для навучання нейронавай сеткі і генерацыі малюнкаў.

Даступнасць гатовай мадэлі і досыць сціплыя сістэмныя патрабаванні, якія дазваляюць пачаць эксперыменты на ПК з тыпавымі GPU, прывяла да з'яўлення шэрагу сумежных праектаў:

  • textual-inversion (код) - надбудова, якая дазваляе сінтэзаваць выявы з зададзеным персанажам, аб'ектам або стылем. У арыгінальным Stable Diffusion аб'екты ў сінтэзаваных выявах выпадковыя і не кантралюемыя. Прапанаваная надбудова дазваляе дадаць уласныя візуальныя аб'екты, прывязаць іх да ключавых слоў і выкарыстоўваць пры сінтэзе.

    Напрыклад, у звычайным Stable Diffusion можна папытаць сістэму сфармаваць малюнак з "коткай у лодцы". Дадаткова можна ўдакладніць характарыстыкі коткі і лодкі, але непрадказальна, якая менавіта котка і лодка будуць сінтэзаваны. Textual-inversion дазваляе навучыць сістэму выяве сваёй коткі або лодкі і сінтэзаваць малюнак з канкрэтнай коткай або лодкай. Падобным чынам таксама можа замяняць элементы выявы на пэўныя аб'екты, задаваць прыклад візуальнага стылю для сінтэзу і канкрэтызаваць паняцці (напрыклад, з усёй разнастайнасці дактароў можна выкарыстоўваць больш дакладную і якасную выбарку ў патрэбным стылі).

    Сістэмы машыннага навучання для сінтэзу малюнкаў і падаўлення шумоў на начных фота

  • stable-diffusion-animation - стварэнне анімаваных (якія рухаюцца) малюнкаў на аснове інтэрпаляцыі паміж малюначкамі, сфармаванымі ў Stable Diffusion.
  • stable_diffusion.openvino (код) - порт Stable Diffusion, у якім для вылічэнняў выкарыстоўваецца толькі CPU, што дазваляе эксперыментаваць на сістэмах без магутных GPU. Для працы патрабуецца працэсар, які падтрымліваецца ў бібліятэцы OpenVINO. Афіцыйна ў OpenVINO прадстаўлены плагіны для працэсараў Intel з пашырэннямі AVX2, AVX-512, AVX512_BF16 і SSE, а таксама для поплаткаў Raspberry Pi 4 Model B, Apple Mac mini і NVIDIA Jetson Nano. Неафіцыйна магчыма выкарыстанне OpenVINO і на працэсарах AMD Ryzen.
  • sdamd – порт для GPU AMD.
  • Пачатковая рэалізацыя сінтэзу відэа.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - графічныя інтэрфейсы для генерацыі малюнкаў пры дапамозе Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI – web-інтэрфейсы для сінтэзу малюнкаў пры дапамозе Stable Diffusion.
  • Убудовы для інтэграцыі Stable Diffusion з GIMP, Figma, Blender і Photoshop.

Дадаткова можна адзначыць публікацыю кампаніяй Google кода сістэмы машыннага навучання RawNeRF (RAW Neural Radiance Fields), якая дазваляе на аснове дадзеных з некалькіх RAW-малюнкаў, павялічваць якасць моцна зашумленых здымкаў, знятых у цемры і пры дрэнным асвятленні. Акрамя ўхілення шумоў якія развіваюцца праектам прылады дазваляюць падвышаць дэталізацыю, ухіляць блікі, сінтэзаваць HDR і змяняць агульнае асвятленне на фатаграфіях, а таксама па некалькіх здымкам c рознымі ракурсамі ўзнаўляць трохмернае становішча аб'ектаў, зрушваць кропку агляду, маніпуляваць фокусам і генераваць рухомыя карціны.

Сістэмы машыннага навучання для сінтэзу малюнкаў і падаўлення шумоў на начных фота
Сістэмы машыннага навучання для сінтэзу малюнкаў і падаўлення шумоў на начных фота


Крыніца: opennet.ru

Дадаць каментар