NVIDIA Open sourced StyleGAN3, mfumo wa mashine ya kujifunza kwa usanisi wa uso

NVIDIA imechapisha msimbo wa chanzo wa StyleGAN3, mfumo wa kujifunza kwa mashine kulingana na mtandao wa neva wa adversarial (GAN) unaolenga kuunganisha picha halisi za nyuso za watu. Nambari hiyo imeandikwa kwa Python kwa kutumia mfumo wa PyTorch na inasambazwa chini ya Leseni ya Msimbo wa Chanzo cha NVIDIA, ambayo inaweka vikwazo kwa matumizi ya kibiashara.

Miundo iliyotengenezwa tayari iliyofunzwa kwenye mkusanyiko wa Flickr-Faces-HQ (FFHQ), unaojumuisha picha elfu 70 za ubora wa juu (1024x1024) za nyuso za watu pia zinapatikana kwa kupakuliwa. Kwa kuongeza, kuna mifano iliyojengwa kwa misingi ya AFHQv2 (picha za nyuso za wanyama) na Metfaces (picha za nyuso za watu kutoka kwa picha za uchoraji wa classical) makusanyo. Uendelezaji unazingatia nyuso, lakini mfumo unaweza kufunzwa kutengeneza vitu vyovyote, kama vile mandhari na magari. Zaidi ya hayo, zana hutolewa kwa mafunzo ya kibinafsi ya mtandao wa neva kwa kutumia mkusanyiko wako wa picha. Inahitaji kadi moja au zaidi ya picha za NVIDIA (Tesla V100 au A100 GPU inayopendekezwa), angalau GB 12 ya RAM, PyTorch 1.9 na CUDA 11.1+ zana ya zana. Kuamua asili ya bandia ya nyuso zinazosababisha, detector maalum inatengenezwa.

Mfumo hukuruhusu kuunganisha picha ya uso mpya kulingana na tafsiri ya sifa za nyuso kadhaa, kuchanganya sifa zao za tabia, na pia kurekebisha picha ya mwisho kwa umri unaohitajika, jinsia, urefu wa nywele, tabia ya tabasamu, sura ya pua, rangi ya ngozi, miwani, na pembe ya picha. Jenereta huzingatia picha kama mkusanyiko wa mitindo, hutenganisha kiotomati maelezo ya tabia (madoa, nywele, glasi) kutoka kwa sifa za kawaida za kiwango cha juu (pozi, jinsia, mabadiliko ya umri) na hukuruhusu kuzichanganya kwa namna yoyote na uamuzi wa mkuu. mali kupitia mgawo wa uzani. Matokeo yake, picha zinazalishwa ambazo haziwezi kutofautishwa na picha halisi.

NVIDIA Open sourced StyleGAN3, mfumo wa mashine ya kujifunza kwa usanisi wa uso

Toleo la kwanza la teknolojia ya StyleGAN lilichapishwa mnamo 2019, na baada ya hapo toleo lililoboreshwa la StyleGAN2020 lilipendekezwa mnamo 2, ikiruhusu uboreshaji wa ubora wa picha na kuondoa baadhi ya mabaki. Wakati huo huo, mfumo ulibakia tuli, i.e. haikuruhusu kufikia uhuishaji halisi na harakati za uso. Wakati wa kuendeleza StyleGAN3, lengo kuu lilikuwa kurekebisha teknolojia kwa matumizi yake katika uhuishaji na video.

StyleGAN3 hutumia usanifu upya wa utengenezaji wa picha, usio na majina, na inapendekeza hali mpya za mafunzo ya mtandao wa neva. Inajumuisha huduma mpya za taswira shirikishi (visualizer.py), uchanganuzi (avg_spectra.py) na utengenezaji wa video (gen_video.py). Utekelezaji pia hupunguza matumizi ya kumbukumbu na kuharakisha mchakato wa kujifunza.

NVIDIA Open sourced StyleGAN3, mfumo wa mashine ya kujifunza kwa usanisi wa uso

Kipengele muhimu cha usanifu wa StyleGAN3 ilikuwa mpito wa kutafsiri ishara zote kwenye mtandao wa neva kwa njia ya michakato inayoendelea, ambayo ilifanya iwezekane, wakati wa kuunda sehemu, kudhibiti nafasi za jamaa ambazo hazijaunganishwa na kuratibu kabisa za saizi za kibinafsi. picha, lakini imewekwa kwenye uso wa vitu vilivyoonyeshwa. Katika StyleGAN na StyleGAN2, kufunga pikseli wakati wa kizazi kulisababisha matatizo wakati wa utoaji wa nguvu, kwa mfano, wakati picha ilihamia, kulikuwa na kutofautiana kwa maelezo madogo, kama vile mikunjo na nywele, ambayo ilionekana kusonga tofauti na uso wote. . Katika StyleGAN3, matatizo haya yanatatuliwa na teknolojia imekuwa ya kufaa kabisa kwa utengenezaji wa video.

Zaidi ya hayo, tunaweza kutambua tangazo la kuundwa kwa NVIDIA na Microsoft ya modeli kubwa zaidi ya lugha ya MT-NLG kulingana na mtandao wa kina wa neva wenye usanifu wa "transfoma". Muundo huu unashughulikia vigezo bilioni 530, na kundi la GPU 4480 (seva 560 za DGX A100 zenye GPU 8 za A100 80GB kila moja) zilitumika kwa mafunzo. Utumizi wa mtindo huo ni pamoja na kutatua matatizo ya uchakataji wa lugha asilia, kama vile kutabiri kukamilika kwa sentensi ambazo hazijakamilika, kujibu maswali, ufahamu wa kusoma, kuchora makisio katika lugha asilia, na kutatiza maana ya maneno.

NVIDIA Open sourced StyleGAN3, mfumo wa mashine ya kujifunza kwa usanisi wa uso


Chanzo: opennet.ru

Kuongeza maoni