StyleGAN3 ti o ṣii NVIDIA, eto ẹkọ ẹrọ fun iṣelọpọ oju

NVIDIA ti ṣe atẹjade koodu orisun fun StyleGAN3, eto ẹkọ ẹrọ kan ti o da lori nẹtiwọọki alatako ti ipilẹṣẹ (GAN) ti o ni ero lati ṣajọpọ awọn aworan ojulowo ti awọn oju eniyan. Awọn koodu ti wa ni kikọ ni Python lilo awọn PyTorch ilana ati ti wa ni pin labẹ awọn NVIDIA Orisun Code License, eyi ti o fa awọn ihamọ lori owo lilo.

Awọn awoṣe ikẹkọ ti a ti ṣetan ti ikẹkọ lori ikojọpọ Flickr-Faces-HQ (FFHQ), eyiti o pẹlu 70 ẹgbẹrun didara didara (1024x1024) awọn aworan PNG ti awọn oju eniyan, tun wa fun igbasilẹ. Ni afikun, awọn awoṣe wa ti a ṣe lori ipilẹ ti awọn akojọpọ AFHQv2 (awọn fọto ti awọn oju ẹranko) ati Metfaces (awọn aworan ti awọn oju eniyan lati awọn aworan ti aworan kilasika). Idojukọ idagbasoke wa lori awọn oju, ṣugbọn eto le ṣe ikẹkọ lati ṣe ina eyikeyi awọn nkan, gẹgẹbi awọn ala-ilẹ ati awọn ọkọ ayọkẹlẹ. Ni afikun, awọn irinṣẹ ti pese fun ikẹkọ ara ẹni nẹtiwọọki nkankikan nipa lilo awọn akojọpọ aworan tirẹ. Nilo ọkan tabi diẹ ẹ sii awọn kaadi eya aworan NVIDIA (Tesla V100 tabi A100 GPU niyanju), o kere ju 12 GB ti Ramu, PyTorch 1.9 ati CUDA 11.1+ ohun elo irinṣẹ. Lati pinnu ẹda atọwọda ti awọn oju ti o yọrisi, aṣawari pataki kan ti wa ni idagbasoke.

Eto naa ngbanilaaye lati ṣajọpọ aworan ti oju tuntun ti o da lori interpolation ti awọn ẹya ara ẹrọ ti awọn oju pupọ, apapọ awọn ẹya abuda wọn, bakanna bi isọdọtun aworan ikẹhin si ọjọ-ori ti o nilo, akọ-abo, gigun irun, ihuwasi ẹrin, apẹrẹ imu, awọ ara, awọn gilaasi, ati igun aworan. Olupilẹṣẹ ṣe akiyesi aworan naa bi akojọpọ awọn aza, ya sọtọ awọn alaye abuda laifọwọyi (awọn freckles, irun, awọn gilaasi) lati awọn abuda ipele giga ti o wọpọ (duro, abo, awọn iyipada ọjọ-ori) ati gba ọ laaye lati darapọ wọn ni eyikeyi fọọmu pẹlu ipinnu ti ako. -ini nipasẹ weighting iyeida. Bi abajade, awọn aworan ti wa ni ipilẹṣẹ ti ko ṣe iyatọ si awọn aworan gidi.

StyleGAN3 ti o ṣii NVIDIA, eto ẹkọ ẹrọ fun iṣelọpọ oju

Ẹya akọkọ ti imọ-ẹrọ StyleGAN ni a tẹjade ni ọdun 2019, lẹhin eyi ti a dabaa ilọsiwaju ti StyleGAN2020 ni ọdun 2, gbigba fun didara didara aworan ati imukuro diẹ ninu awọn ohun-ọṣọ. Ni akoko kanna, eto naa duro aimi, i.e. ko gba laaye iyọrisi iwara ojulowo ati gbigbe oju. Nigbati o ba ndagbasoke StyleGAN3, ibi-afẹde akọkọ ni lati ṣe adaṣe imọ-ẹrọ fun lilo rẹ ni ere idaraya ati fidio.

StyleGAN3 nlo faaji iran aworan ti a tunṣe, laisi aliasing, ati gbero awọn oju iṣẹlẹ ikẹkọ netiwọki tuntun. O pẹlu awọn ohun elo tuntun fun iworan ibaraenisepo (visualizer.py), itupalẹ (avg_spectra.py) ati iran fidio (gen_video.py). Awọn imuse tun din agbara iranti ati awọn ọna soke awọn eko ilana.

StyleGAN3 ti o ṣii NVIDIA, eto ẹkọ ẹrọ fun iṣelọpọ oju

Ẹya pataki ti faaji StyleGAN3 ni iyipada si itumọ gbogbo awọn ifihan agbara ninu nẹtiwọọki nkankikan ni irisi awọn ilana ti nlọ lọwọ, eyiti o jẹ ki o ṣee ṣe, nigbati o ba ṣẹda awọn apakan, lati ṣakoso awọn ipo ibatan ti ko ni asopọ si awọn ipoidojuko pipe ti awọn piksẹli kọọkan ni aworan naa, ṣugbọn ti o wa titi si oju ti awọn nkan ti a fihan. Ni StyleGAN ati StyleGAN2, isomọ si awọn piksẹli lakoko iran yori si awọn iṣoro lakoko ṣiṣe agbara, fun apẹẹrẹ, nigbati aworan ba gbe, aiṣedeede awọn alaye kekere wa, gẹgẹbi awọn wrinkles ati awọn irun, eyiti o dabi ẹni pe o gbe lọtọ lati iyoku oju. . Ni StyleGAN3, awọn iṣoro wọnyi ti yanju ati imọ-ẹrọ ti di ohun ti o dara fun iran fidio.

Ni afikun, a le ṣe akiyesi ikede ti ẹda nipasẹ NVIDIA ati Microsoft ti awoṣe ede ti o tobi julọ MT-NLG ti o da lori nẹtiwọọki iṣan ti o jinlẹ pẹlu faaji “ayipada”. Awoṣe naa ni wiwa awọn ayeraye 530 bilionu, ati iṣupọ ti 4480 GPUs (awọn olupin 560 DGX A100 pẹlu 8 A100 80GB GPU kọọkan) ni a lo fun ikẹkọ. Awọn ohun elo awoṣe pẹlu didasilẹ awọn iṣoro sisẹ ede ti ara, gẹgẹbi asọtẹlẹ ipari awọn gbolohun ọrọ ti ko pari, didahun awọn ibeere, oye kika, iyaworan awọn itọkasi ni ede adayeba, ati ṣiṣafihan itumọ awọn ọrọ.

StyleGAN3 ti o ṣii NVIDIA, eto ẹkọ ẹrọ fun iṣelọpọ oju


orisun: opennet.ru

Fi ọrọìwòye kun