NVIDIA StyleGAN3 me burim të hapur, një sistem mësimi i makinerive për sintezën e fytyrës

NVIDIA ka publikuar kodin burimor për StyleGAN3, një sistem mësimi i makinerive i bazuar në një rrjet nervor kundërshtar gjenerues (GAN) që synon sintetizimin e imazheve realiste të fytyrave të njerëzve. Kodi është shkruar në Python duke përdorur kornizën PyTorch dhe shpërndahet nën licencën e kodit burimor NVIDIA, e cila vendos kufizime në përdorimin komercial.

Modele të gatshme të trajnuara të trajnuara në koleksionin Flickr-Faces-HQ (FFHQ), i cili përfshin 70 mijë imazhe PNG me cilësi të lartë (1024x1024) të fytyrave të njerëzve, janë gjithashtu të disponueshme për shkarkim. Për më tepër, ekzistojnë modele të ndërtuara në bazë të koleksioneve AFHQv2 (foto të fytyrave të kafshëve) dhe Metfaces (imazhe të fytyrave të njerëzve nga portretet e pikturës klasike). Fokusi i zhvillimit është te fytyrat, por sistemi mund të trajnohet për të gjeneruar çdo objekt, si peizazhe dhe makina. Për më tepër, ofrohen mjete për vetë-trajnimin e një rrjeti nervor duke përdorur koleksionet tuaja të imazheve. Kërkon një ose më shumë karta grafike NVIDIA (rekomandohet Tesla V100 ose A100 GPU), të paktën 12 GB RAM, PyTorch 1.9 dhe CUDA 11.1+. Për të përcaktuar natyrën artificiale të fytyrave që rezultojnë, po zhvillohet një detektor i veçantë.

Sistemi ju lejon të sintetizoni një imazh të një fytyre të re bazuar në interpolimin e tipareve të disa fytyrave, duke kombinuar tiparet e tyre karakteristike, si dhe duke përshtatur imazhin përfundimtar me moshën, gjininë, gjatësinë e flokëve, karakterin e buzëqeshjes, formën e hundës, ngjyra e lëkurës, syzet dhe këndi i fotografisë. Gjeneratori e konsideron imazhin si një koleksion stilesh, ndan automatikisht detajet karakteristike (frenkat, flokët, syzet) nga atributet e zakonshme të nivelit të lartë (pozimi, gjinia, ndryshimet e moshës) dhe ju lejon t'i kombinoni ato në çdo formë me përcaktimin e dominantit. vetitë nëpërmjet koeficientëve të peshimit. Si rezultat, krijohen imazhe që nuk dallohen nga fotografitë reale.

NVIDIA StyleGAN3 me burim të hapur, një sistem mësimi i makinerive për sintezën e fytyrës

Versioni i parë i teknologjisë StyleGAN u publikua në vitin 2019, pas së cilës u propozua një botim i përmirësuar i StyleGAN2020 në vitin 2, duke lejuar përmirësimin e cilësisë së imazhit dhe eliminimin e disa objekteve. Në të njëjtën kohë, sistemi mbeti statik, d.m.th. nuk lejonte arritjen e animacionit realist dhe lëvizjes së fytyrës. Gjatë zhvillimit të StyleGAN3, qëllimi kryesor ishte përshtatja e teknologjisë për përdorimin e saj në animacion dhe video.

StyleGAN3 përdor një arkitekturë të ridizajnuar të gjenerimit të imazheve, pa aliasing dhe propozon skenarë të rinj trajnimi të rrjetit nervor. Ai përfshin shërbime të reja për vizualizimin interaktiv (visualizer.py), analizën (avg_spectra.py) dhe gjenerimin e videove (gen_video.py). Zbatimi gjithashtu redukton konsumin e kujtesës dhe përshpejton procesin e të mësuarit.

NVIDIA StyleGAN3 me burim të hapur, një sistem mësimi i makinerive për sintezën e fytyrës

Një tipar kryesor i arkitekturës StyleGAN3 ishte kalimi në interpretimin e të gjitha sinjaleve në rrjetin nervor në formën e proceseve të vazhdueshme, gjë që bëri të mundur, kur formohen pjesë, të manipulohen pozicionet relative që nuk janë të lidhura me koordinatat absolute të pikselëve individualë në imazhi, por i fiksuar në sipërfaqen e objekteve të paraqitura. Në StyleGAN dhe StyleGAN2, lidhja me pikselët gjatë gjenerimit çoi në probleme gjatë paraqitjes dinamike, për shembull, kur imazhi lëvizte, kishte një mospërputhje të detajeve të vogla, si rrudhat dhe qimet, të cilat dukej se lëviznin veçmas nga pjesa tjetër e fytyrës . Në StyleGAN3, këto probleme zgjidhen dhe teknologjia është bërë mjaft e përshtatshme për gjenerimin e videove.

Për më tepër, mund të vërejmë njoftimin e krijimit nga NVIDIA dhe Microsoft të modelit më të madh gjuhësor MT-NLG bazuar në një rrjet të thellë nervor me një arkitekturë "transformator". Modeli mbulon 530 miliardë parametra dhe një grup prej 4480 GPU (560 serverë DGX A100 me 8 GPU A100 80 GB secili) është përdorur për trajnim. Aplikimet për modelin përfshijnë zgjidhjen e problemeve të përpunimit të gjuhës natyrore, të tilla si parashikimi i përfundimit të fjalive të papërfunduara, përgjigjja e pyetjeve, kuptimi i leximit, nxjerrja e konkluzioneve në gjuhën natyrore dhe zbërthimi i kuptimit të fjalëve.

NVIDIA StyleGAN3 me burim të hapur, një sistem mësimi i makinerive për sintezën e fytyrës


Burimi: opennet.ru

Shto një koment