🥇NVIDIA nyílt forráskódú gépi tanulási rendszer, amely szintetizálja a tájakat vázlatokból

Az NVIDIA kiadta SPADE (GauGAN) gépi tanulási rendszerének forráskódját, amely valósághű tájképeket szintetizál vázlatokból, valamint kapcsolódó, betanítatlan modellekből. A rendszert márciusban mutatták be a GTC 2019 konferencián, de a kód csak tegnap jelent meg. A munka nyílt forráskódú a Creative Commons Nevezd meg! – Ne add el! – Így add tovább! 4.0 (CC BY-NC-SA 4.0) licenc alatt, amely csak nem kereskedelmi célú felhasználást tesz lehetővé. A kód Pythonban íródott a PyTorch keretrendszer használatával.

Az NVIDIA megnyitja a gépi tanulási rendszer kódját, amely vázlatokból szintetizálja a tájképeket

A vázlatok szegmentált térképként jelennek meg, amelyek meghatározzák az objektumok hozzávetőleges elhelyezkedését a jelenetben. A létrehozott objektumok jellegét színjelölők határozzák meg. Például egy kék kitöltés az eget, a kék a vizet, a sötétzöld a fákat, a világoszöld a füvet, a világosbarna a sziklákat, a sötétbarna a hegyeket, a szürke a havat, a barna vonal az utat, a kék vonal pedig a folyót ábrázolja. Ezenkívül az általános kompozíciós stílust és a napszakot a referenciaképek kiválasztása határozza meg. Ez a virtuális világok létrehozására szolgáló eszköz számos szakember számára hasznos lehet, az építészektől és városrendezőktől kezdve a játékfejlesztőkön és tájépítészeken át.

Az objektumokat egy generatív adverzális neurális hálózat (GAN) szintetizálja, amely egy sematikus szegmentált térkép alapján valósághű képeket hoz létre, részleteket kölcsönözve egy több millió fényképen előre betanított modellből. A korábban kifejlesztett képszintézis rendszerekkel ellentétben a javasolt módszer adaptív térbeli transzformáción, majd gépi tanuláson alapuló transzformáción alapul. A szegmentált térkép szemantikus jelölés helyett történő feldolgozása lehetővé teszi az eredmény pontos illesztését és a stílusvezérlést.

A realizmus elérése érdekében két neurális hálózat verseng egymással: egy generátor és egy diszkriminátor. A generátor valódi fényképek elemeinek keverése alapján állít elő képeket, a diszkriminátor pedig azonosítja a valós képektől való esetleges eltéréseket. Ennek eredményeként visszacsatolás jön létre, amely alapján a generátor egyre jobb mintákat kezd összeállítani, amíg a diszkriminátor meg nem különbözteti azokat a valódiaktól.

Forrás: opennet.ru

Az NVIDIA megnyitja a gépi tanulási rendszer kódját, amely vázlatokból szintetizálja a tájképeket