🥇NVIDIA odprtokodni StyleGAN3, sistem za strojno učenje za sintezo obrazov

NVIDIA je objavila izvorno kodo za StyleGAN3, sistem strojnega učenja, ki temelji na generativni kontradiktorni nevronski mreži (GAN), katere namen je sintetizirati realistične slike obrazov ljudi. Koda je napisana v Pythonu z uporabo ogrodja PyTorch in se distribuira pod licenco izvorne kode NVIDIA, ki nalaga omejitve komercialne uporabe.

Za prenos so na voljo tudi že pripravljeni usposobljeni modeli, usposobljeni za zbirko Flickr-Faces-HQ (FFHQ), ki vključuje 70 tisoč visokokakovostnih (1024x1024) PNG slik obrazov ljudi. Poleg tega obstajajo modeli, izdelani na podlagi zbirk AFHQv2 (fotografije živalskih obrazov) in Metfaces (podobe obrazov ljudi s portretov klasičnega slikarstva). Razvojni poudarek je na obrazih, vendar je sistem mogoče usposobiti za ustvarjanje poljubnih predmetov, kot so pokrajine in avtomobili. Poleg tega so na voljo orodja za samousposabljanje nevronske mreže z uporabo lastnih zbirk slik. Zahteva eno ali več grafičnih kartic NVIDIA (priporoča se Tesla V100 ali A100 GPU), vsaj 12 GB RAM-a, PyTorch 1.9 in komplet orodij CUDA 11.1+. Za določitev umetne narave nastalih obrazov se razvija poseben detektor.

Sistem vam omogoča, da sintetizirate podobo novega obraza na podlagi interpolacije potez več obrazov, združuje njihove značilne lastnosti, kot tudi prilagajanje končne podobe zahtevani starosti, spolu, dolžini las, značaju nasmeha, obliki nosu, barva kože, očala in kot fotografiranja. Generator obravnava sliko kot zbirko slogov, samodejno loči značilne podrobnosti (pege, lase, očala) od skupnih atributov na visoki ravni (poza, spol, spremembe, povezane s starostjo) in vam omogoča, da jih kombinirate v poljubni obliki z odločnostjo. prevladujočih lastnosti prek utežnih koeficientov. Posledično se ustvarijo slike, ki jih ni mogoče razlikovati od resničnih fotografij.

NVIDIA odprtokodni StyleGAN3, sistem strojnega učenja za sintezo obraza

Prva različica tehnologije StyleGAN je bila objavljena leta 2019, nato pa je bila leta 2020 predlagana izboljšana izdaja StyleGAN2, ki omogoča izboljšano kakovost slike in odpravo nekaterih artefaktov. Hkrati je sistem ostal statičen, tj. ni omogočal doseganja realistične animacije in gibanja obraza. Pri razvoju StyleGAN3 je bil glavni cilj prilagoditi tehnologijo za njeno uporabo v animaciji in videu.

StyleGAN3 uporablja preoblikovano arhitekturo za generiranje slik brez vzdevkov in predlaga nove scenarije za usposabljanje nevronske mreže. Vključuje nove pripomočke za interaktivno vizualizacijo (visualizer.py), analizo (avg_spectra.py) in ustvarjanje videa (gen_video.py). Izvedba tudi zmanjša porabo pomnilnika in pospeši učni proces.

Ključna značilnost arhitekture StyleGAN3 je bil prehod na tolmačenje vseh signalov v nevronski mreži v obliki kontinuiranih procesov, kar je omogočilo pri oblikovanju delov manipulacijo relativnih položajev, ki niso vezani na absolutne koordinate posameznih pikslov v podobo, vendar pritrjeno na površino upodobljenih predmetov. V StyleGAN in StyleGAN2 je vezava na slikovne pike med ustvarjanjem povzročila težave med dinamičnim upodabljanjem, na primer, ko se je slika premikala, je prišlo do neusklajenosti majhnih podrobnosti, kot so gube in dlake, za katere se je zdelo, da se premikajo ločeno od preostalega obraza. . V StyleGAN3 so bili ti problemi rešeni in tehnologija je postala zelo primerna za ustvarjanje videa.

Poleg tega je vredno omeniti napoved podjetij NVIDIA in Microsoft o vzpostavitvi največjega jezikovnega modela MT-NLG, ki temelji na globoki nevronski mreži s »transformatorsko« arhitekturo. Model zajema 530 milijard parametrov in gručo 4480 grafičnih procesorjev (560 strežniki DGX A100 (vsak z osmimi grafičnimi procesorji A100 80 GB) se uporablja za naloge obdelave naravnega jezika, kot so napovedovanje dokončanja stavkov, odgovarjanje na vprašanja, bralno razumevanje, sklepanje o naravnem jeziku in analiza dvoumnosti besed.

Vir: opennet.ru

NVIDIA odprtokodni StyleGAN3, sistem strojnega učenja za sintezo obraza