NVIDIA адамдар беттерінің шынайы кескіндерін синтездеуге бағытталған генеративті қарсылас нейрондық желіге (GAN) негізделген машиналық оқыту жүйесі StyleGAN3 үшін бастапқы кодты жариялады. Код PyTorch құрылымы арқылы Python тілінде жазылған және коммерциялық пайдалануға шектеулер қоятын NVIDIA Source Code лицензиясы бойынша таратылады.
Адамдар беттерінің 70 мың жоғары сапалы (1024x1024) PNG кескіндерін қамтитын Flickr-Faces-HQ (FFHQ) топтамасында оқытылған дайын дайындалған модельдер де жүктеп алуға болады. Бұдан басқа, AFHQv2 (жануарлардың бет-әлпеттерінің фотосуреттері) және Metfaces (классикалық кескіндеме портреттерінен адамдар беттерінің суреттері) жинақтарының негізінде жасалған модельдер бар. Дамыту фокусы беттерге бағытталған, бірақ жүйені пейзаждар мен автомобильдер сияқты кез келген нысандарды жасауға үйретуге болады. Сонымен қатар, жеке сурет жинақтарын пайдалана отырып, нейрондық желіні өздігінен жаттықтыруға арналған құралдар берілген. Бір немесе бірнеше NVIDIA графикалық карталарын қажет етеді (Tesla V100 немесе A100 GPU ұсынылады), кемінде 12 ГБ жедел жады, PyTorch 1.9 және CUDA 11.1+ құралдар жинағы. Алынған беттердің жасанды сипатын анықтау үшін арнайы детектор әзірленуде.
Жүйе бірнеше беттердің ерекшеліктерін интерполяциялау негізінде жаңа бет бейнесін синтездеуге, олардың өзіне тән белгілерін біріктіруге, сондай-ақ соңғы кескінді талап етілетін жасқа, жынысқа, шаш ұзындығына, күлімсіреу сипатына, мұрын пішініне, терінің түсі, көзілдірік және фотосурет бұрышы. Генератор кескінді стильдер жиынтығы ретінде қарастырады, сипаттамалық бөлшектерді (сепкілдер, шаштар, көзілдіріктерді) жалпы жоғары деңгейдегі атрибуттардан (поза, жыныс, жас өзгерістері) автоматты түрде ажыратады және оларды кез келген нысанда басымдықты анықтаумен біріктіруге мүмкіндік береді. салмақ коэффициенттері арқылы қасиеттер. Нәтижесінде нақты фотосуреттерден айырмашылығы жоқ кескіндер жасалады.

StyleGAN технологиясының бірінші нұсқасы 2019 жылы жарияланды, содан кейін 2020 жылы сурет сапасын жақсартуға және кейбір артефактілерді жоюға мүмкіндік беретін StyleGAN2 жақсартылған нұсқасы ұсынылды. Сонымен бірге жүйе статикалық күйінде қалды, яғни. шынайы анимация мен бет қимылына қол жеткізуге мүмкіндік бермеді. StyleGAN3 әзірлеу кезінде негізгі мақсат технологияны оны анимация мен бейнеде қолдануға бейімдеу болды.
StyleGAN3 бүркеншік аттары жоқ қайта жобаланған кескін жасау архитектурасын пайдаланады және нейрондық желіні оқытудың жаңа сценарийлерін ұсынады. Ол интерактивті визуализацияға (visualizer.py), талдауға (avg_spectra.py) және бейне генерациясына (gen_video.py) арналған жаңа утилиталарды қамтиды. Сондай-ақ іске асыру жадты тұтынуды азайтады және оқу процесін жылдамдатады.

StyleGAN3 архитектурасының негізгі ерекшелігі нейрондық желідегі барлық сигналдарды үздіксіз процестер түрінде интерпретациялауға көшу болды, бұл бөліктерді қалыптастыру кезінде жеке пикселдердің абсолютті координаталарымен байланысы жоқ салыстырмалы позицияларды басқаруға мүмкіндік берді. кескін, бірақ бейнеленген заттардың бетіне бекітілген. StyleGAN және StyleGAN2-де генерациялау кезінде пикселдерге байланыстыру динамикалық рендеринг кезінде проблемаларға әкелді, мысалы, кескін жылжытқанда, беттің қалған бөлігінен бөлек қозғалатындай көрінетін әжімдер мен шаштар сияқты ұсақ бөлшектердің сәйкес келмеуі болды. . StyleGAN3-те бұл мәселелер шешілді және технология бейне жасау үшін өте қолайлы болды.
Сонымен қатар, NVIDIA мен Microsoft компанияларының «трансформаторлық» архитектурасы бар терең нейрондық желіге негізделген ең ірі тілдік модель MT-NLG құру туралы хабарландыруын атап өткен жөн. Модель 530 миллиард параметрді және 4480 графикалық процессор кластерін (560) қамтиды. серверлер DGX A100 (әрқайсысында сегіз A100 80 ГБ графикалық процессоры бар) сөйлемді аяқтауды болжау, сұраққа жауап беру, оқуды түсіну, табиғи тілде қорытынды жасау және сөздердің түсініксіздігін талдау сияқты табиғи тілді өңдеу тапсырмалары үшін қолданылады.

Ақпарат көзі: opennet.ru
