NVIDIA ಓಪನ್ ಸೋರ್ಸ್ಡ್ StyleGAN3, ಮುಖದ ಸಂಶ್ಲೇಷಣೆಗಾಗಿ ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆ

ಜನರ ಮುಖಗಳ ನೈಜ ಚಿತ್ರಗಳನ್ನು ಸಂಶ್ಲೇಷಿಸುವ ಗುರಿಯನ್ನು ಹೊಂದಿರುವ ಜನರೇಟಿವ್ ಅಡ್ವರ್ಸರಿಯಲ್ ನ್ಯೂರಲ್ ನೆಟ್‌ವರ್ಕ್ (GAN) ಆಧಾರಿತ ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಯಾದ StyleGAN3 ಗಾಗಿ NVIDIA ಮೂಲ ಕೋಡ್ ಅನ್ನು ಪ್ರಕಟಿಸಿದೆ. PyTorch ಚೌಕಟ್ಟನ್ನು ಬಳಸಿಕೊಂಡು ಪೈಥಾನ್‌ನಲ್ಲಿ ಕೋಡ್ ಅನ್ನು ಬರೆಯಲಾಗಿದೆ ಮತ್ತು NVIDIA ಮೂಲ ಕೋಡ್ ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ವಿತರಿಸಲಾಗುತ್ತದೆ, ಇದು ವಾಣಿಜ್ಯ ಬಳಕೆಯ ಮೇಲೆ ನಿರ್ಬಂಧಗಳನ್ನು ವಿಧಿಸುತ್ತದೆ.

ಜನರ ಮುಖಗಳ 70 ಸಾವಿರ ಉತ್ತಮ ಗುಣಮಟ್ಟದ (1024x1024) PNG ಚಿತ್ರಗಳನ್ನು ಒಳಗೊಂಡಿರುವ Flickr-Faces-HQ (FFHQ) ಸಂಗ್ರಹಣೆಯಲ್ಲಿ ತರಬೇತಿ ಪಡೆದ ಸಿದ್ಧ-ತಯಾರಿಸಿದ ಮಾದರಿಗಳು ಸಹ ಡೌನ್‌ಲೋಡ್‌ಗೆ ಲಭ್ಯವಿದೆ. ಇದರ ಜೊತೆಗೆ, AFHQv2 (ಪ್ರಾಣಿಗಳ ಮುಖಗಳ ಫೋಟೋಗಳು) ಮತ್ತು ಮೆಟ್ಫೇಸಸ್ (ಶಾಸ್ತ್ರೀಯ ಚಿತ್ರಕಲೆಯ ಭಾವಚಿತ್ರಗಳಿಂದ ಜನರ ಮುಖಗಳ ಚಿತ್ರಗಳು) ಸಂಗ್ರಹಗಳ ಆಧಾರದ ಮೇಲೆ ನಿರ್ಮಿಸಲಾದ ಮಾದರಿಗಳು ಇವೆ. ಅಭಿವೃದ್ಧಿಯ ಗಮನವು ಮುಖಗಳ ಮೇಲೆ ಇದೆ, ಆದರೆ ಭೂದೃಶ್ಯಗಳು ಮತ್ತು ಕಾರುಗಳಂತಹ ಯಾವುದೇ ವಸ್ತುಗಳನ್ನು ಉತ್ಪಾದಿಸಲು ವ್ಯವಸ್ಥೆಯನ್ನು ತರಬೇತಿ ಮಾಡಬಹುದು. ಹೆಚ್ಚುವರಿಯಾಗಿ, ನಿಮ್ಮ ಸ್ವಂತ ಚಿತ್ರ ಸಂಗ್ರಹಗಳನ್ನು ಬಳಸಿಕೊಂಡು ನರಮಂಡಲದ ಸ್ವಯಂ-ತರಬೇತಿಗಾಗಿ ಉಪಕರಣಗಳನ್ನು ಒದಗಿಸಲಾಗಿದೆ. ಒಂದು ಅಥವಾ ಹೆಚ್ಚಿನ NVIDIA ಗ್ರಾಫಿಕ್ಸ್ ಕಾರ್ಡ್‌ಗಳು (ಟೆಸ್ಲಾ V100 ಅಥವಾ A100 GPU ಶಿಫಾರಸು ಮಾಡಲಾಗಿದೆ), ಕನಿಷ್ಠ 12 GB RAM, PyTorch 1.9 ಮತ್ತು CUDA 11.1+ ಟೂಲ್‌ಕಿಟ್‌ನ ಅಗತ್ಯವಿದೆ. ಪರಿಣಾಮವಾಗಿ ಮುಖಗಳ ಕೃತಕ ಸ್ವಭಾವವನ್ನು ನಿರ್ಧರಿಸಲು, ವಿಶೇಷ ಶೋಧಕವನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಗುತ್ತಿದೆ.

ಹಲವಾರು ಮುಖಗಳ ವೈಶಿಷ್ಟ್ಯಗಳ ಇಂಟರ್ಪೋಲೇಶನ್, ಅವುಗಳ ವಿಶಿಷ್ಟ ಲಕ್ಷಣಗಳನ್ನು ಸಂಯೋಜಿಸುವುದು, ಹಾಗೆಯೇ ಅಂತಿಮ ಚಿತ್ರವನ್ನು ಅಗತ್ಯವಿರುವ ವಯಸ್ಸು, ಲಿಂಗ, ಕೂದಲಿನ ಉದ್ದ, ಸ್ಮೈಲ್ ಪಾತ್ರ, ಮೂಗಿನ ಆಕಾರಕ್ಕೆ ಹೊಂದಿಕೊಳ್ಳುವ ಆಧಾರದ ಮೇಲೆ ಹೊಸ ಮುಖದ ಚಿತ್ರವನ್ನು ಸಂಶ್ಲೇಷಿಸಲು ಸಿಸ್ಟಮ್ ನಿಮಗೆ ಅನುಮತಿಸುತ್ತದೆ. ಚರ್ಮದ ಬಣ್ಣ, ಕನ್ನಡಕ ಮತ್ತು ಛಾಯಾಚಿತ್ರ ಕೋನ. ಜನರೇಟರ್ ಚಿತ್ರವನ್ನು ಶೈಲಿಗಳ ಸಂಗ್ರಹವೆಂದು ಪರಿಗಣಿಸುತ್ತದೆ, ಸಾಮಾನ್ಯ ಉನ್ನತ ಮಟ್ಟದ ಗುಣಲಕ್ಷಣಗಳಿಂದ (ಭಂಗಿ, ಲಿಂಗ, ವಯಸ್ಸಿನ ಬದಲಾವಣೆಗಳು) ವಿಶಿಷ್ಟ ವಿವರಗಳನ್ನು (ನಸುಕಂದು ಮಚ್ಚೆಗಳು, ಕೂದಲು, ಕನ್ನಡಕ) ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಪ್ರತ್ಯೇಕಿಸುತ್ತದೆ ಮತ್ತು ಪ್ರಬಲವಾದ ನಿರ್ಣಯದೊಂದಿಗೆ ಯಾವುದೇ ರೂಪದಲ್ಲಿ ಅವುಗಳನ್ನು ಸಂಯೋಜಿಸಲು ನಿಮಗೆ ಅನುಮತಿಸುತ್ತದೆ. ತೂಕದ ಗುಣಾಂಕಗಳ ಮೂಲಕ ಗುಣಲಕ್ಷಣಗಳು. ಪರಿಣಾಮವಾಗಿ, ನೈಜ ಛಾಯಾಚಿತ್ರಗಳಿಂದ ಪ್ರತ್ಯೇಕಿಸಲಾಗದ ಚಿತ್ರಗಳನ್ನು ರಚಿಸಲಾಗುತ್ತದೆ.

NVIDIA ಓಪನ್ ಸೋರ್ಸ್ಡ್ StyleGAN3, ಮುಖದ ಸಂಶ್ಲೇಷಣೆಗಾಗಿ ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆ

StyleGAN ತಂತ್ರಜ್ಞಾನದ ಮೊದಲ ಆವೃತ್ತಿಯನ್ನು 2019 ರಲ್ಲಿ ಪ್ರಕಟಿಸಲಾಯಿತು, ಅದರ ನಂತರ StyleGAN2020 ನ ಸುಧಾರಿತ ಆವೃತ್ತಿಯನ್ನು 2 ರಲ್ಲಿ ಪ್ರಸ್ತಾಪಿಸಲಾಯಿತು, ಇದು ಚಿತ್ರದ ಗುಣಮಟ್ಟವನ್ನು ಸುಧಾರಿಸಲು ಮತ್ತು ಕೆಲವು ಕಲಾಕೃತಿಗಳನ್ನು ತೆಗೆದುಹಾಕಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ. ಅದೇ ಸಮಯದಲ್ಲಿ, ವ್ಯವಸ್ಥೆಯು ಸ್ಥಿರವಾಗಿ ಉಳಿಯಿತು, ಅಂದರೆ. ವಾಸ್ತವಿಕ ಅನಿಮೇಷನ್ ಮತ್ತು ಮುಖದ ಚಲನೆಯನ್ನು ಸಾಧಿಸಲು ಅನುಮತಿಸಲಿಲ್ಲ. StyleGAN3 ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವಾಗ, ಅನಿಮೇಷನ್ ಮತ್ತು ವೀಡಿಯೊದಲ್ಲಿ ಅದರ ಬಳಕೆಗಾಗಿ ತಂತ್ರಜ್ಞಾನವನ್ನು ಅಳವಡಿಸಿಕೊಳ್ಳುವುದು ಮುಖ್ಯ ಗುರಿಯಾಗಿದೆ.

StyleGAN3 ಮರುವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ಚಿತ್ರ ರಚನೆಯ ಆರ್ಕಿಟೆಕ್ಚರ್ ಅನ್ನು ಬಳಸುತ್ತದೆ, ಅಲಿಯಾಸಿಂಗ್ ಮುಕ್ತವಾಗಿದೆ ಮತ್ತು ಹೊಸ ನ್ಯೂರಲ್ ನೆಟ್‌ವರ್ಕ್ ತರಬೇತಿ ಸನ್ನಿವೇಶಗಳನ್ನು ಪ್ರಸ್ತಾಪಿಸುತ್ತದೆ. ಇದು ಸಂವಾದಾತ್ಮಕ ದೃಶ್ಯೀಕರಣ (visualizer.py), ವಿಶ್ಲೇಷಣೆ (avg_spectra.py) ಮತ್ತು ವೀಡಿಯೊ ಉತ್ಪಾದನೆ (gen_video.py) ಗಾಗಿ ಹೊಸ ಉಪಯುಕ್ತತೆಗಳನ್ನು ಒಳಗೊಂಡಿದೆ. ಅನುಷ್ಠಾನವು ಮೆಮೊರಿ ಬಳಕೆಯನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ ಮತ್ತು ಕಲಿಕೆಯ ಪ್ರಕ್ರಿಯೆಯನ್ನು ವೇಗಗೊಳಿಸುತ್ತದೆ.

NVIDIA ಓಪನ್ ಸೋರ್ಸ್ಡ್ StyleGAN3, ಮುಖದ ಸಂಶ್ಲೇಷಣೆಗಾಗಿ ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆ

StyleGAN3 ಆರ್ಕಿಟೆಕ್ಚರ್‌ನ ಪ್ರಮುಖ ಲಕ್ಷಣವೆಂದರೆ ನರಗಳ ಜಾಲದಲ್ಲಿನ ಎಲ್ಲಾ ಸಂಕೇತಗಳನ್ನು ನಿರಂತರ ಪ್ರಕ್ರಿಯೆಗಳ ರೂಪದಲ್ಲಿ ಅರ್ಥೈಸುವ ಪರಿವರ್ತನೆಯಾಗಿದೆ, ಇದು ಭಾಗಗಳನ್ನು ರಚಿಸುವಾಗ, ಪ್ರತ್ಯೇಕ ಪಿಕ್ಸೆಲ್‌ಗಳ ಸಂಪೂರ್ಣ ನಿರ್ದೇಶಾಂಕಗಳಿಗೆ ಸಂಬಂಧಿಸದ ಸಂಬಂಧಿತ ಸ್ಥಾನಗಳನ್ನು ಕುಶಲತೆಯಿಂದ ನಿರ್ವಹಿಸಲು ಸಾಧ್ಯವಾಗಿಸಿತು. ಚಿತ್ರ, ಆದರೆ ಚಿತ್ರಿಸಿದ ವಸ್ತುಗಳ ಮೇಲ್ಮೈಗೆ ಸ್ಥಿರವಾಗಿದೆ. StyleGAN ಮತ್ತು StyleGAN2 ನಲ್ಲಿ, ಪೀಳಿಗೆಯ ಸಮಯದಲ್ಲಿ ಪಿಕ್ಸೆಲ್‌ಗಳಿಗೆ ಬಂಧಿಸುವಿಕೆಯು ಡೈನಾಮಿಕ್ ರೆಂಡರಿಂಗ್ ಸಮಯದಲ್ಲಿ ಸಮಸ್ಯೆಗಳಿಗೆ ಕಾರಣವಾಯಿತು, ಉದಾಹರಣೆಗೆ, ಚಿತ್ರ ಚಲಿಸಿದಾಗ, ಸುಕ್ಕುಗಳು ಮತ್ತು ಕೂದಲಿನಂತಹ ಸಣ್ಣ ವಿವರಗಳ ಹೊಂದಾಣಿಕೆಯಿಲ್ಲ, ಅದು ಮುಖದ ಉಳಿದ ಭಾಗದಿಂದ ಪ್ರತ್ಯೇಕವಾಗಿ ಚಲಿಸುವಂತೆ ತೋರುತ್ತಿದೆ. . StyleGAN3 ನಲ್ಲಿ, ಈ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಲಾಗಿದೆ ಮತ್ತು ತಂತ್ರಜ್ಞಾನವು ವೀಡಿಯೊ ಉತ್ಪಾದನೆಗೆ ಸಾಕಷ್ಟು ಸೂಕ್ತವಾಗಿದೆ.

ಹೆಚ್ಚುವರಿಯಾಗಿ, "ಟ್ರಾನ್ಸ್ಫಾರ್ಮರ್" ಆರ್ಕಿಟೆಕ್ಚರ್ನೊಂದಿಗೆ ಆಳವಾದ ನರಮಂಡಲದ ಆಧಾರದ ಮೇಲೆ ಅತಿದೊಡ್ಡ ಭಾಷಾ ಮಾದರಿ MT-NLG ಯ NVIDIA ಮತ್ತು ಮೈಕ್ರೋಸಾಫ್ಟ್ನಿಂದ ರಚನೆಯ ಪ್ರಕಟಣೆಯನ್ನು ನಾವು ಗಮನಿಸಬಹುದು. ಮಾದರಿಯು 530 ಶತಕೋಟಿ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿದೆ, ಮತ್ತು 4480 GPUಗಳ ಕ್ಲಸ್ಟರ್ (560 DGX A100 ಸರ್ವರ್‌ಗಳು 8 A100 80GB GPUಗಳು ಪ್ರತಿ) ತರಬೇತಿಗಾಗಿ ಬಳಸಲಾಗಿದೆ. ಮಾದರಿಯ ಅನ್ವಯಗಳು ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣಾ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸುವುದನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ, ಉದಾಹರಣೆಗೆ ಅಪೂರ್ಣ ವಾಕ್ಯಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸುವುದನ್ನು ಊಹಿಸುವುದು, ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರಿಸುವುದು, ಗ್ರಹಿಕೆಯನ್ನು ಓದುವುದು, ನೈಸರ್ಗಿಕ ಭಾಷೆಯಲ್ಲಿ ತೀರ್ಮಾನಗಳನ್ನು ಸೆಳೆಯುವುದು ಮತ್ತು ಪದಗಳ ಅರ್ಥವನ್ನು ಅಸ್ಪಷ್ಟಗೊಳಿಸುವುದು.

NVIDIA ಓಪನ್ ಸೋರ್ಸ್ಡ್ StyleGAN3, ಮುಖದ ಸಂಶ್ಲೇಷಣೆಗಾಗಿ ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆ


ಮೂಲ: opennet.ru

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ