NVIDIA ачык булактуу StyleGAN3, бет синтези үчүн машина үйрөнүү системасы

NVIDIA адамдардын беттеринин реалдуу сүрөттөрүн синтездөөгө багытталган генеративдик атаандаш нейрон тармагына (GAN) негизделген StyleGAN3, машинаны үйрөнүү тутумунун баштапкы кодун жарыялады. Код PyTorch алкагын колдонуу менен Python тилинде жазылган жана NVIDIA Source Code License лицензиясынын алкагында таратылат, ал коммерциялык колдонууга чектөөлөрдү киргизет.

Flickr-Faces-HQ (FFHQ) коллекциясында үйрөтүлгөн даяр үйрөтүлгөн моделдер, анын ичинде адамдардын беттеринин 70 миң жогорку сапаттагы (1024x1024) PNG сүрөттөрү да жүктөп алуу үчүн жеткиликтүү. Мындан тышкары, AFHQv2 (жаныбарлардын беттеринин сүрөттөрү) жана Metfaces (классикалык живопистин портреттеринен адамдардын беттеринин сүрөттөрү) коллекцияларынын негизинде курулган моделдер бар. Өнүктүрүү багыты беттерге багытталган, бирок системаны пейзаждар жана унаалар сыяктуу каалаган объектилерди жаратууга үйрөтсө болот. Кошумчалай кетсек, өзүңүздүн сүрөт коллекцияларыңыздын жардамы менен нейрондук тармакты өз алдынча окутуу үчүн куралдар берилген. Бир же бир нече NVIDIA графикалык карталарын талап кылат (Tesla V100 же A100 GPU сунушталат), кеминде 12 ГБ оперативдүү эстутум, PyTorch 1.9 жана CUDA 11.1+ куралдар топтому. Пайда болгон жүздөрдүн жасалма мүнөзүн аныктоо үчүн атайын детектор иштелип жатат.

Система бир нече жүздөрдүн өзгөчөлүктөрүн интерполяциялоонун негизинде жаңы жүздүн сүрөтүн синтездөөгө, алардын мүнөздүү белгилерин бириктирүүгө, ошондой эле акыркы сүрөттү талап кылынган куракка, жыныска, чачтын узундугуна, жылмаюунун мүнөзүнө, мурундун формасына, теринин түсү, көз айнек жана сүрөт бурчу. Генератор образды стилдердин жыйындысы катары карайт, мүнөздүү деталдарды (сепкилдер, чачтар, көз айнек) жалпы жогорку деңгээлдеги атрибуттардан (поза, жыныс, жаш өзгөрүүлөр) автоматтык түрдө бөлүп турат жана үстөмдүк кылууну аныктоо менен аларды каалаган формада айкалыштырууга мүмкүндүк берет. салмактуулук коэффициенттери аркылуу касиеттери. Натыйжада, чыныгы сүрөттөрдөн айырмаланбаган сүрөттөр пайда болот.

NVIDIA ачык булактуу StyleGAN3, бет синтези үчүн машина үйрөнүү системасы

StyleGAN технологиясынын биринчи версиясы 2019-жылы жарык көргөн, андан кийин 2020-жылы StyleGAN2нин жакшыртылган чыгарылышы сунушталган, бул сүрөттүн сапатын жакшыртууга жана айрым артефакттарды жок кылууга мүмкүндүк берет. Ошол эле учурда система статикалык бойдон калган, б.а. реалдуу анимацияга жана бет кыймылына жетишүүгө мүмкүндүк берген жок. StyleGAN3 иштеп чыгууда негизги максат анимацияда жана видеодо колдонуу үчүн технологияны адаптациялоо болгон.

StyleGAN3 кайра иштелип чыккан сүрөттү түзүү архитектурасын колдонот, лакап атсыз жана нейрондук тармакты окутуунун жаңы сценарийлерин сунуштайт. Ал интерактивдүү визуализация (visualizer.py), талдоо (avg_spectra.py) жана видеону түзүү (gen_video.py) үчүн жаңы утилиттерди камтыйт. Ишке ашыруу да эстутум керектөөнү азайтат жана окуу процессин тездетет.

NVIDIA ачык булактуу StyleGAN3, бет синтези үчүн машина үйрөнүү системасы

StyleGAN3 архитектурасынын негизги өзгөчөлүгү нейрон тармагындагы бардык сигналдарды үзгүлтүксүз процесстер түрүндө интерпретациялоого өтүү болду, бул бөлүктөрдү түзүүдө жеке пикселдердин абсолюттук координаталары менен байланышпаган салыштырмалуу позицияларды башкарууга мүмкүндүк берди. сүрөт, бирок сүрөттөлгөн объекттердин бетине бекитилген. StyleGAN жана StyleGAN2де генерация учурунда пикселдерге байлануу динамикалык рендеринг учурунда көйгөйлөргө алып келди, мисалы, сүрөт жылганда, беттин калган бөлүгүнөн өзүнчө жылгандай көрүнгөн бырыштар жана чачтар сыяктуу майда деталдардын дал келбегендиги байкалган. . StyleGAN3-жылы бул көйгөйлөр чечилип, технология видеону түзүү үчүн абдан ылайыктуу болуп калды.

Кошумчалай кетсек, NVIDIA жана Microsoft тарабынан “трансформатор” архитектурасы менен терең нейрондук тармактын негизинде эң чоң тил модели MT-NLG түзүлүшү жөнүндө жарыяны белгилей алабыз. Модель 530 миллиард параметрди камтыйт жана окутуу үчүн 4480 GPU кластери (ар бири 560 A100 8 ГБ GPU менен 100 DGX A80 сервери) колдонулган. Модельдин колдонмолоруна бүтпөгөн сүйлөмдөрдүн аякташын болжолдоо, суроолорго жооп берүү, окуп түшүнүү, табигый тилде тыянак чыгаруу жана сөздөрдүн маанисин чечмелөө сыяктуу табигый тилди иштетүү маселелерин чечүү кирет.

NVIDIA ачык булактуу StyleGAN3, бет синтези үчүн машина үйрөнүү системасы


Source: opennet.ru

Комментарий кошуу