NVIDIA բաց կոդով StyleGAN3, մեքենայական ուսուցման համակարգ դեմքի սինթեզի համար

NVIDIA-ն թողարկել է StyleGAN3-ի սկզբնական կոդը՝ մեքենայական ուսուցման համակարգ, որը հիմնված է գեներատիվ հակառակորդ նյարդային ցանցի (GAN) վրա, որի նպատակն է սինթեզել մարդու դեմքերի իրատեսական պատկերները: Կոդը գրված է Python-ում՝ օգտագործելով PyTorch շրջանակը և տարածվում է NVIDIA Source Code լիցենզիայի ներքո, որը սահմանափակումներ է սահմանում առևտրային օգտագործման համար:

Պատրաստի մարզված մոդելները նույնպես հասանելի են ներբեռնման համար, որոնք մարզվել են Flickr-Faces-HQ (FFHQ) հավաքածուի վրա, որը ներառում է մարդկանց դեմքերի 70 հազար բարձրորակ (1024×1024) PNG պատկերներ: Բացի այդ, կան մոդելներ, որոնք կառուցվել են AFHQv2 հավաքածուի (կենդանիների դեմքերի լուսանկարներ) և Metfaces հավաքածուի (մարդկանց դեմքերի պատկերներ դասական նկարների դիմանկարներից) հիման վրա: Մշակման ընթացքում շեշտը դրվում է դեմքերի վրա, բայց համակարգը կարող է մարզվել ցանկացած օբյեկտ ստեղծելու համար, ինչպիսիք են բնապատկերները և մեքենաները: Բացի այդ, տրամադրվում են գործիքներ նեյրոնային ցանցի ինքնուրույն մարզման համար՝ օգտագործելով ձեր սեփական պատկերների հավաքածուները: Աշխատանքը պահանջում է մեկ կամ մի քանի NVIDIA տեսաքարտեր (խորհուրդ է տրվում Tesla V100 կամ A100 GPU), առնվազն 12 ԳԲ օպերատիվ հիշողություն, PyTorch 1.9 և CUDA 11.1+ գործիքակազմ: Մշակվում է հատուկ դետեկտոր՝ ստացված դեմքերի արհեստական ​​բնույթը որոշելու համար:

Համակարգը թույլ է տալիս սինթեզել նոր դեմքի պատկեր՝ հիմնվելով մի քանի դեմքերի առանձնահատկությունների ինտերպոլյացիայի վրա, համատեղելով դրանց բնորոշ գծերը և վերջնական պատկերը հարմարեցնելով պահանջվող տարիքին, սեռին, մազերի երկարությանը, ժպիտի տեսակին, քթի ձևին, մաշկի գույնին, ակնոցներին և լուսանկարման անկյանը։ Գեներատորը պատկերը դիտարկում է որպես ոճերի հավաքածու, ավտոմատ կերպով առանձնացնում է բնութագրական մանրամասները (պեպեններ, մազեր, ակնոցներ) ընդհանուր բարձր մակարդակի ատրիբուտներից (դիրք, սեռ, տարիքային փոփոխություններ) և թույլ է տալիս դրանք համատեղել ցանկացած ձևով՝ սահմանելով գերիշխող հատկություններ՝ կշռման գործակիցների միջոցով։ Արդյունքում ստեղծվում են պատկերներ, որոնք արտաքուստ չեն տարբերվում իրական լուսանկարներից։

NVIDIA բաց կոդով StyleGAN3, մեքենայական ուսուցման համակարգ դեմքի սինթեզի համար

StyleGAN տեխնոլոգիայի առաջին տարբերակը հրապարակվել է 2019 թվականին, որին հաջորդել է բարելավված տարբերակը՝ StyleGAN2020, 2 թվականին, որը բարելավում է պատկերի որակը և վերացնում որոշ արտեֆակտներ։ Միևնույն ժամանակ, համակարգը մնացել է ստատիկ, այսինքն՝ թույլ չի տվել իրատեսական անիմացիա և դեմքի շարժում: StyleGAN3-ը մշակելիս հիմնական նպատակն էր հարմարեցնել տեխնոլոգիան անիմացիայի և տեսագրության մեջ օգտագործելու համար:

StyleGAN3-ն օգտագործում է պատկերների ստեղծման վերափոխված ճարտարապետություն, որը վերացնում է ալիասինգը և առաջարկում է նեյրոնային ցանցի վերապատրաստման նոր սցենարներ: Փաթեթը ներառում է ինտերակտիվ վիզուալիզացիայի (visualizer.py), վերլուծության (avg_spectra.py) և տեսանյութերի ստեղծման (gen_video.py) նոր ծառայություններ: Իրականացումը նաև նվազեցնում է հիշողության սպառումը և արագացնում ուսուցման գործընթացը:

NVIDIA բաց կոդով StyleGAN3, մեքենայական ուսուցման համակարգ դեմքի սինթեզի համար

StyleGAN3 ճարտարապետության հիմնական առանձնահատկությունը նեյրոնային ցանցի բոլոր ազդանշանները որպես շարունակական գործընթացներ մեկնաբանելու անցումն էր, ինչը հնարավորություն տվեց մանիպուլյացիաներ կատարել հարաբերական դիրքերի հետ՝ մանրամասները ձևավորելիս, որոնք կապված չէին պատկերի առանձին պիքսելների բացարձակ կոորդինատների հետ, այլ ամրացված էին պատկերված օբյեկտների մակերեսին: StyleGAN-ում և StyleGAN2-ում պիքսելների հետ կապը ստեղծման ընթացքում հանգեցրեց դինամիկ վիզուալիզացիայի հետ կապված խնդիրների, օրինակ՝ երբ պատկերը շարժվում էր, տեղի էր ունենում փոքր մանրամասների, ինչպիսիք են կնճիռները և մազերը, անհամապատասխանություն, որոնք շարժվում էին կարծես դեմքի մնացած մասից առանձին: StyleGAN3-ում այս խնդիրները լուծվել են, և տեխնոլոգիան դարձել է բավականին հարմար տեսանյութերի ստեղծման համար:

Բացի այդ, հարկ է նշել NVIDIA-ի և Microsoft-ի կողմից հայտարարությունը ամենամեծ լեզվական մոդելի՝ MT-NLG-ի ստեղծման մասին, որը հիմնված է «տրանսֆորմերային» ճարտարապետությամբ խորը նեյրոնային ցանցի վրա: Մոդելը ներառում է 530 միլիարդ պարամետր և 4480 գրաֆիկական պրոցեսորներից բաղկացած կլաստեր (560 սերվերներ DGX A100-ը (յուրաքանչյուրը ութ A100 80GB գրաֆիկական պրոցեսորներով) օգտագործվում է բնական լեզվի մշակման խնդիրների համար, ինչպիսիք են նախադասությունների ավարտի կանխատեսումը, հարց ու պատասխանը, ընթերցանության ըմբռնումը, բնական լեզվի եզրակացությունը և բառերի երկիմաստության վերլուծությունը։

NVIDIA բաց կոդով StyleGAN3, մեքենայական ուսուցման համակարգ դեմքի սինթեզի համար


Source: opennet.ru
Գնեք հուսալի հոստինգ DDoS պաշտպանությամբ կայքերի, VPS VDS սերվերների համար 🔥 Գնեք հուսալի կայքերի հոսթինգ՝ DDoS պաշտպանությամբ, VPS VDS սերվերներով | ProHoster