NVIDIA Open-Code StyleGAN3, mašīnmācīšanās sistēma sejas sintēzei

NVIDIA ir publicējusi pirmkodu StyleGAN3 — mašīnmācīšanās sistēmai, kuras pamatā ir ģeneratīvs pretrunīgs neironu tīkls (GAN), kura mērķis ir sintezēt reālistiskus cilvēku seju attēlus. Kods ir rakstīts Python, izmantojot PyTorch ietvaru, un tiek izplatīts saskaņā ar NVIDIA pirmkoda licenci, kas nosaka ierobežojumus komerciālai lietošanai.

Lejupielādei ir pieejami arī gatavi apmācīti modeļi, kas apmācīti Flickr-Faces-HQ (FFHQ) kolekcijā, kurā ir 70 tūkstoši augstas kvalitātes (1024x1024) cilvēku seju PNG attēlu. Turklāt ir modeļi, kas veidoti, pamatojoties uz AFHQv2 (dzīvnieku seju fotoattēli) un Metfaces (cilvēku seju attēli no klasiskās glezniecības portretiem) kolekcijām. Izstrāde ir vērsta uz sejām, taču sistēmu var apmācīt ģenerēt jebkādus objektus, piemēram, ainavas un automašīnas. Turklāt tiek nodrošināti rīki neironu tīkla pašmācībai, izmantojot jūsu attēlu kolekcijas. Nepieciešama viena vai vairākas NVIDIA grafiskās kartes (ieteicams Tesla V100 vai A100 GPU), vismaz 12 GB RAM, PyTorch 1.9 un CUDA 11.1+ rīku komplekts. Lai noteiktu iegūto seju mākslīgo raksturu, tiek izstrādāts īpašs detektors.

Sistēma ļauj sintezēt jaunas sejas attēlu, balstoties uz vairāku seju īpašību interpolāciju, apvienojot tām raksturīgās iezīmes, kā arī pielāgojot gala attēlu vajadzīgajam vecumam, dzimumam, matu garumam, smaida raksturam, deguna formai, ādas krāsa, brilles un fotografēšanas leņķis. Ģenerators attēlu uzskata par stilu kolekciju, automātiski atdala raksturīgās detaļas (vasaras raibumus, matus, brilles) no parastajiem augsta līmeņa atribūtiem (poza, dzimums, vecuma izmaiņas) un ļauj tos kombinēt jebkurā formā ar dominējošā stāvokļa noteikšanu. īpašības, izmantojot svēršanas koeficientus. Rezultātā tiek ģenerēti attēli, kas nav atšķirami no īstām fotogrāfijām.

NVIDIA Open-Code StyleGAN3, mašīnmācīšanās sistēma sejas sintēzei

Pirmā StyleGAN tehnoloģijas versija tika publicēta 2019. gadā, pēc tam 2020. gadā tika piedāvāts uzlabots StyleGAN2 izdevums, kas ļāva uzlabot attēla kvalitāti un novērst dažus artefaktus. Tajā pašā laikā sistēma palika statiska, t.i. neļāva sasniegt reālistisku animāciju un sejas kustību. Izstrādājot StyleGAN3, galvenais mērķis bija pielāgot tehnoloģiju tās izmantošanai animācijā un video.

StyleGAN3 izmanto pārveidotu attēlu ģenerēšanas arhitektūru, bez aizstājvārda, un piedāvā jaunus neironu tīklu apmācības scenārijus. Tas ietver jaunas utilītas interaktīvai vizualizācijai (visualizer.py), analīzei (avg_spectra.py) un video ģenerēšanai (gen_video.py). Ieviešana arī samazina atmiņas patēriņu un paātrina mācību procesu.

NVIDIA Open-Code StyleGAN3, mašīnmācīšanās sistēma sejas sintēzei

StyleGAN3 arhitektūras galvenā iezīme bija pāreja uz visu neironu tīkla signālu interpretāciju nepārtrauktu procesu veidā, kas ļāva, veidojot daļas, manipulēt ar relatīvajām pozīcijām, kas nav saistītas ar atsevišķu pikseļu absolūtajām koordinātām. attēlu, bet fiksēts uz attēloto objektu virsmas. StyleGAN un StyleGAN2 saistīšanās ar pikseļiem ģenerēšanas laikā radīja problēmas dinamiskās renderēšanas laikā, piemēram, kad attēls tika pārvietots, radās sīku detaļu, piemēram, grumbu un matiņu, neatbilstība, kas, šķiet, pārvietojās atsevišķi no pārējās sejas daļas. . StyleGAN3 šīs problēmas ir atrisinātas, un tehnoloģija ir kļuvusi diezgan piemērota video ģenerēšanai.

Turklāt mēs varam atzīmēt NVIDIA un Microsoft paziņojumu par lielākā valodas modeļa MT-NLG izveidi, kura pamatā ir dziļais neironu tīkls ar "transformatora" arhitektūru. Modelis aptver 530 miljardus parametru, un apmācībai tika izmantots 4480 GPU (560 DGX A100 serveri ar 8 A100 80 GB GPU katrā). Modeļa pielietojumi ietver dabiskās valodas apstrādes problēmu risināšanu, piemēram, nepabeigtu teikumu pabeigšanas prognozēšanu, atbildes uz jautājumiem, lasīšanas izpratni, secinājumu izdarīšanu dabiskajā valodā un vārdu nozīmes atdalīšanu.

NVIDIA Open-Code StyleGAN3, mašīnmācīšanās sistēma sejas sintēzei


Avots: opennet.ru

Pievieno komentāru