NVIDIA çavkaniya vekirî StyleGAN3, pergalek fêrbûna makîneyê ya ji bo senteza rû

NVIDIA koda çavkaniyê ji bo StyleGAN3, pergalek fêrbûna makîneyê weşandiye ku li ser bingeha tora neuralî ya dijberî ya hilberîner (GAN) ye ku armanc ew e ku wêneyên realîst ên rûyê mirovan berhev bike. Kod di Python-ê de bi karanîna çarçoveya PyTorch ve hatî nivîsandin û di bin lîsansa NVIDIA Code Source License de tê belav kirin, ku li ser karanîna bazirganî qedexeyan ferz dike.

Modelên perwerdekirî yên amade yên ku li ser berhevoka Flickr-Faces-HQ (FFHQ) hatine perwerdekirin, ku tê de 70 hezar wêneyên PNG yên qalîteya bilind (1024x1024) yên rûyê mirovan dihewîne, ji bo daxistinê jî hene. Wekî din, modelên ku li ser bingeha koleksiyonên AFHQv2 (wêneyên rûyên heywanan) û Metfaces (wêneyên rûyê mirovan ji portreyên tabloyên klasîk) hatine çêkirin hene. Bala pêşkeftinê li ser rûyan e, lê pergal dikare were perwerde kirin da ku her tişt, wekî perestgeh û gerîdeyan biafirîne. Wekî din, amûrên ji bo xwe-perwerdekirina torgilokek neuralî bi karanîna berhevokên wêneyên xwe têne peyda kirin. Pêdivî ye ku yek an çend kartên grafîkê yên NVIDIA (Tesla V100 an A100 GPU tê pêşniyar kirin), bi kêmî ve 12 GB RAM, PyTorch 1.9 û CUDA 11.1+ toolkit. Ji bo destnîşankirina cewhera sûnî ya rûyên encam, detektorek taybetî tête çêkirin.

Pergal dihêle hûn wêneyek rûyek nû li ser bingeha navberkirina taybetmendiyên çend rûyan sentez bikin, taybetmendiyên wan ên taybet bi hev ve girêbidin, û her weha wêneya paşîn li gorî temen, zayend, dirêjahiya por, karaktera bişirîn, şeklê poz, rengê çerm, qedeh û goşeya wêneyê. Hilberîner wêneyê wekî berhevokek şêwazan dihesibîne, bixweber hûrguliyên karakterîstîk (pişk, por, qedeh) ji taybetmendiyên astek bilind ên hevpar (poz, zayend, guhertinên temen) vediqetîne û dihêle hûn wan bi her şêweyî bi destnîşankirina serdestan re hev bikin. taybetmendî bi rêjeyên giranbûnê. Wekî encamek, wêneyên ku ji wêneyên rastîn nayên cuda kirin têne çêkirin.

NVIDIA çavkaniya vekirî StyleGAN3, pergalek fêrbûna makîneyê ya ji bo senteza rû

Yekem guhertoya teknolojiya StyleGAN di sala 2019-an de hate weşandin, piştî ku di sala 2020-an de guhertoyek çêtir a StyleGAN2 hate pêşniyar kirin, ku rê dide kalîteya wêneyê çêtir û hin huneran ji holê radike. Di heman demê de, sîstem statîk ma, yanî. destûr neda ku anîmasyonek realîst û tevgera rû bi dest bixe. Dema ku StyleGAN3 pêşve diçû, armanca sereke ew bû ku teknolojiyê ji bo karanîna wê di anîmasyon û vîdyoyê de biguncîne.

StyleGAN3 mîmariyek hilberîna wêneyê ya ji nû ve hatî sêwirandin, bêyî aliasing bikar tîne, û senaryoyên perwerdehiya tora neuralî ya nû pêşniyar dike. Ew karûbarên nû ji bo dîtina înteraktîf (visualizer.py), analîz (avg_spectra.py) û hilberîna vîdyoyê (gen_video.py) vedihewîne. Pêkanîn di heman demê de mezaxtina bîranînê kêm dike û pêvajoya fêrbûnê lez dike.

NVIDIA çavkaniya vekirî StyleGAN3, pergalek fêrbûna makîneyê ya ji bo senteza rû

Taybetmendiyek sereke ya mîmariya StyleGAN3 veguheztina hemî nîşaneyên di tora neuralî de di forma pêvajoyên domdar de bû, ku ev gengaz kir, dema ku beşan çêdibe, manîpulekirina pozîsyonên têkildar ên ku bi koordînatên bêkêmasî yên pîxelên takekesî ve ne girêdayî ne. wêne, lê li ser rûyê tiştên xêzkirî ve girêdayî ye. Di StyleGAN û StyleGAN2 de, girêdana bi pixelan re di dema nifşê de bû sedema pirsgirêkan di dema vegotina dînamîk de, mînakî, dema ku wêne diherikî, lihevnehatina hûrguliyên piçûk, wek qermîçok û por, ku dixuya ku ji rûyê mayî cuda diçûn. . Di StyleGAN3 de, ev pirsgirêk têne çareser kirin û teknolojî ji bo hilberîna vîdyoyê pir maqûl bûye.

Wekî din, em dikarin ragihandina afirandina ji hêla NVIDIA û Microsoft-ê ya modela zimanê herî mezin MT-NLG-ya ku li ser bingeha torgilokek neuralî ya kûr a bi mîmariya "transformer" ve hatî destnîşan kirin. Model 530 mîlyar parametre digire, û komek ji 4480 GPU (560 serverên DGX A100 bi 8 A100 80 GB GPU her yek) ji bo perwerdehiyê hate bikar anîn. Sepanên modelê di nav xwe de çareserkirina pirsgirêkên pêvajoya zimanê xwezayî, wek pêşbînkirina temambûna hevokên neqediyayî, bersivdana pirsan, têgihîştina xwendinê, derxistina encaman bi zimanê xwezayî, û nezelalkirina wateya peyvan vedihewîne.

NVIDIA çavkaniya vekirî StyleGAN3, pergalek fêrbûna makîneyê ya ji bo senteza rû


Source: opennet.ru

Add a comment