NVIDIA բաց կոդով StyleGAN3, մեքենայական ուսուցման համակարգ դեմքի սինթեզի համար

NVIDIA-ն հրապարակել է StyleGAN3-ի սկզբնական կոդը՝ մեքենայական ուսուցման համակարգ, որը հիմնված է գեներատիվ հակառակորդ նեյրոնային ցանցի (GAN) վրա, որի նպատակն է սինթեզել մարդկանց դեմքերի իրատեսական պատկերները: Կոդը գրված է Python-ում՝ օգտագործելով PyTorch շրջանակը և տարածվում է NVIDIA Source Code լիցենզիայի ներքո, որը սահմանափակումներ է սահմանում առևտրային օգտագործման համար:

Ներբեռնման համար հասանելի են նաև Flickr-Faces-HQ (FFHQ) հավաքածուի վրա վերապատրաստված պատրաստի մոդելներ, որոնք ներառում են մարդկանց դեմքերի 70 հազար բարձրորակ (1024x1024) PNG պատկերներ։ Բացի այդ, կան մոդելներ՝ կառուցված AFHQv2 (կենդանիների դեմքերի լուսանկարներ) և Metfaces (մարդկանց դեմքերի պատկերներ դասական նկարչության դիմանկարներից) հավաքածուների հիման վրա։ Զարգացման ուշադրությունը կենտրոնացված է դեմքերի վրա, սակայն համակարգը կարող է ուսուցանվել ցանկացած առարկա ստեղծելու համար, ինչպիսիք են լանդշաֆտները և մեքենաները: Բացի այդ, տրամադրվում են գործիքներ՝ նեյրոնային ցանցը ինքնուրույն վարժեցնելու համար՝ օգտագործելով ձեր սեփական պատկերների հավաքածուները: Պահանջվում է մեկ կամ մի քանի NVIDIA գրաֆիկական քարտ (առաջարկվում է Tesla V100 կամ A100 GPU), առնվազն 12 ԳԲ RAM, PyTorch 1.9 և CUDA 11.1+ գործիքակազմ: Ստացված դեմքերի արհեստական ​​բնույթը որոշելու համար մշակվում է հատուկ դետեկտոր։

Համակարգը թույլ է տալիս սինթեզել նոր դեմքի պատկերը՝ հիմնվելով մի քանի դեմքերի դիմագծերի ինտերպոլացիայի վրա՝ համադրելով դրանց բնորոշ հատկանիշները, ինչպես նաև վերջնական պատկերը հարմարեցնելով պահանջվող տարիքին, սեռին, մազերի երկարությանը, ժպիտի բնույթին, քթի ձևին, մաշկի գույնը, ակնոցները և լուսանկարի անկյունը: Գեներատորը պատկերը դիտարկում է որպես ոճերի հավաքածու, ինքնաբերաբար առանձնացնում է բնորոշ մանրամասները (պեպեններ, մազեր, ակնոցներ) ընդհանուր բարձր մակարդակի ատրիբուտներից (կեցվածք, սեռ, տարիքային փոփոխություններ) և թույլ է տալիս դրանք համատեղել ցանկացած ձևով՝ գերիշխող որոշմամբ։ հատկությունները կշռման գործակիցների միջոցով: Արդյունքում ստեղծվում են պատկերներ, որոնք չեն տարբերվում իրական լուսանկարներից:

NVIDIA բաց կոդով StyleGAN3, մեքենայական ուսուցման համակարգ դեմքի սինթեզի համար

StyleGAN տեխնոլոգիայի առաջին տարբերակը հրապարակվել է 2019 թվականին, որից հետո 2020 թվականին առաջարկվել է StyleGAN2-ի բարելավված տարբերակը՝ թույլ տալով բարելավել պատկերի որակը և վերացնել որոշ արտեֆակտներ: Միևնույն ժամանակ, համակարգը մնաց ստատիկ, այսինքն. թույլ չտվեց հասնել իրատեսական անիմացիայի և դեմքի շարժմանը: StyleGAN3-ը մշակելիս հիմնական նպատակն էր հարմարեցնել տեխնոլոգիան անիմացիայի և տեսագրության մեջ դրա օգտագործման համար:

StyleGAN3-ն օգտագործում է պատկերների ստեղծման վերափոխված ճարտարապետություն՝ առանց կեղծարարության, և առաջարկում է նեյրոնային ցանցի վերապատրաստման նոր սցենարներ: Այն ներառում է ինտերակտիվ վիզուալիզացիայի (visualizer.py), վերլուծության (avg_spectra.py) և տեսանյութերի ստեղծման (gen_video.py) նոր ծառայություններ: Իրականացումը նաև նվազեցնում է հիշողության սպառումը և արագացնում ուսուցման գործընթացը:

NVIDIA բաց կոդով StyleGAN3, մեքենայական ուսուցման համակարգ դեմքի սինթեզի համար

StyleGAN3 ճարտարապետության հիմնական առանձնահատկությունն այն էր, որ անցումը նեյրոնային ցանցի բոլոր ազդանշանների մեկնաբանմանը շարունակական գործընթացների տեսքով, ինչը հնարավորություն տվեց մասեր կազմելիս շահարկել հարաբերական դիրքերը, որոնք կապված չեն առանձին պիքսելների բացարձակ կոորդինատների հետ: պատկերը, բայց ամրացված է պատկերված առարկաների մակերեսին։ StyleGAN-ում և StyleGAN2-ում, գեներացման ընթացքում պիքսելներին կապելը հանգեցրեց դինամիկ արտապատկերման ժամանակ խնդիրներին, օրինակ, երբ պատկերը տեղափոխվեց, փոքր մանրամասների անհամապատասխանություն կար, ինչպիսիք են կնճիռները և մազերը, որոնք կարծես թե շարժվում էին դեմքի մնացած մասերից առանձին: . StyleGAN3-ում այս խնդիրները լուծված են, և տեխնոլոգիան բավականին հարմար է դարձել տեսանյութերի արտադրության համար:

Բացի այդ, կարելի է նշել NVIDIA-ի և Microsoft-ի կողմից MT-NLG լեզվական ամենամեծ մոդելի ստեղծման մասին հայտարարությունը, որը հիմնված է «տրանսֆորմատորային» ճարտարապետությամբ խորը նյարդային ցանցի վրա: Մոդելն ընդգրկում է 530 միլիարդ պարամետր, և ուսուցման համար օգտագործվել է 4480 GPU-ի կլաստեր (560 DGX A100 սերվերներ 8 A100 80 ԳԲ գրաֆիկական պրոցեսորներով): Մոդելի կիրառությունները ներառում են բնական լեզվի մշակման խնդիրների լուծում, ինչպիսիք են անավարտ նախադասությունների ավարտը կանխատեսելը, հարցերին պատասխանելը, ընթերցանության ըմբռնումը, բնական լեզվով եզրակացություններ անելը և բառերի իմաստի անհասկանալիությունը:

NVIDIA բաց կոդով StyleGAN3, մեքենայական ուսուցման համակարգ դեմքի սինթեզի համար


Source: opennet.ru

Добавить комментарий