🥇NVIDIA адкрыла код сістэмы машыннага навучання, якая сінтэзуе пейзажы па накідах

Кампанія NVIDIA апублікавала зыходныя тэксты сістэмы машыннага навучання СПАДА (GauGAN), якая дазваляе сінтэзаваць рэалістычныя пейзажы на аснове грубых накідаў, а таксама звязаныя з праектам натрэніраваныя мадэлі. Сістэма была прадэманстравана у сакавіку на канферэнцыі GTC 2019, але код быў апублікаваны толькі ўчора. Напрацоўкі адкрыты пад нявольнай ліцэнзіяй CC BY-NC-SA 4.0 (Creative Commons Attribution-NonCommercial-ShareAlike 4.0), якая дапускае выкарыстанне толькі ў некамерцыйных мэтах. Код напісаны на мове Python з ужываннем фрэймворка PyTorch.

Накіды афармляюцца ў выглядзе сегментаваць карты, якая вызначае размяшчэнне прыкладных аб'ектаў на сцэне. Характар генераваных аб'ектаў задаецца пры дапамозе каляровых пазнак. Напрыклад, блакітнае заліванне пераўтворыцца ў неба, сіняя ў ваду, цёмна-зялёная ў дрэвы, светла-зялёная ў траву, светла-карычневая ў камяні, цёмна-карычневая ў горы, шэрая ў снег, карычневая лінія пераўтворыцца ў дарогу, а сіняя лінія ў раку. Дадаткова на аснове выбару эталонных малюнкаў вызначаецца агульны стыль кампазіцыі і час сутак. Прапанаваны інструмент для стварэння віртуальных светаў можа аказацца карысным шырокаму колу спецыялістаў, ад архітэктараў і планавальнікаў гарадскога асяроддзя да распрацоўшчыкаў гульняў і ландшафтных дызайнераў.

Аб'екты сінтэзуюцца генератыўна-спаборнай нейронавай сеткай (Ган), якая на аснове схематычнай сегментаванай карты стварае рэалістычныя выявы, запазычаючы дэталі з мадэлі, папярэдне навучанай на некалькіх мільёнах фотаздымкаў. У адрозненне ад раней якія развіваюцца сістэм сінтэзу малюнкаў прапанаваны метад заснаваны на ўжыванні адаптыўнага прасторавага пераўтварэння з наступнай трансфармацыяй на аснове машыннага навучання. Апрацоўка сегментаваць карты замест семантычнай разметкі дазваляе дабіцца дакладнага адпаведнасці выніку і кантраляваць стыль.

Для дасягнення рэалістычнасці прымяняюцца дзве канкуруючыя адзін з адным нейронавых сеткі: генератар і дыскрымінатар (Discriminator). Генератар фармуе выявы на аснове змешвання элементаў рэальных фатаграфій, а дыскрымінатар выяўляе магчымыя адхіленні ад рэальных малюнкаў. У выніку фармуецца зваротная сувязь, на аснове якой генератар пачынае кампанаваць усё больш якасныя ўзоры, датуль пакуль дыскрымінатар не перастане адрозніваць іх ад сапраўдных.

Крыніца: opennet.ru

NVIDIA адкрыла код сістэмы машыннага навучання, якая сінтэзуе пейзажы па эскізах

Дадаць каментар Адмяніць адказ