NVIDIA منبع باز StyleGAN3، یک سیستم یادگیری ماشینی برای سنتز چهره

NVIDIA کد منبع StyleGAN3 را منتشر کرده است، یک سیستم یادگیری ماشینی مبتنی بر یک شبکه عصبی متخاصم مولد (GAN) که هدف آن ترکیب تصاویر واقعی از چهره افراد است. این کد در پایتون با استفاده از چارچوب PyTorch نوشته شده است و تحت مجوز کد منبع NVIDIA توزیع شده است که محدودیت هایی را برای استفاده تجاری اعمال می کند.

مدل های آماده آموزش دیده آموزش دیده در مجموعه Flickr-Faces-HQ (FFHQ) که شامل 70 هزار تصویر PNG با کیفیت بالا (1024x1024) از چهره افراد می باشد نیز برای دانلود قرار داده شده است. علاوه بر این، مدل‌هایی وجود دارد که بر اساس مجموعه‌های AFHQv2 (عکس‌های صورت حیوانات) و Metfaces (تصاویر چهره افراد از پرتره‌های نقاشی کلاسیک) ساخته شده‌اند. تمرکز توسعه روی چهره‌ها است، اما سیستم را می‌توان برای تولید هر شی، مانند مناظر و ماشین‌ها، آموزش داد. علاوه بر این، ابزارهایی برای خودآموزی یک شبکه عصبی با استفاده از مجموعه‌های تصویری خودتان ارائه شده است. به یک یا چند کارت گرافیک NVIDIA (GPU توصیه شده Tesla V100 یا A100)، حداقل 12 گیگابایت رم، PyTorch 1.9 و CUDA 11.1+ نیاز دارد. برای تعیین ماهیت مصنوعی صورت های حاصل، یک آشکارساز ویژه در حال توسعه است.

این سیستم به شما امکان می دهد تصویری از یک چهره جدید را بر اساس درون یابی ویژگی های چندین چهره، ترکیب ویژگی های مشخصه آنها و همچنین تطبیق تصویر نهایی با سن، جنسیت، طول مو، شخصیت لبخند، شکل بینی، ترکیب کنید. رنگ پوست، عینک و زاویه عکس. ژنراتور تصویر را به عنوان مجموعه ای از سبک ها در نظر می گیرد، به طور خودکار جزئیات مشخصه (کک و مک، مو، عینک) را از ویژگی های معمولی سطح بالا (ژست، جنسیت، تغییرات سن) جدا می کند و به شما امکان می دهد آنها را به هر شکلی با تعیین غالب ترکیب کنید. خواص از طریق ضرایب وزنی در نتیجه، تصاویری تولید می شوند که از عکس های واقعی قابل تشخیص نیستند.

NVIDIA منبع باز StyleGAN3، یک سیستم یادگیری ماشینی برای سنتز چهره

اولین نسخه از فناوری StyleGAN در سال 2019 منتشر شد، پس از آن نسخه بهبود یافته StyleGAN2020 در سال 2 پیشنهاد شد که امکان بهبود کیفیت تصویر و حذف برخی از مصنوعات را فراهم می کرد. در همان زمان، سیستم ثابت باقی ماند، یعنی. اجازه دستیابی به انیمیشن واقع گرایانه و حرکت صورت را نمی دهد. هنگام توسعه StyleGAN3، هدف اصلی تطبیق این فناوری برای استفاده از آن در انیمیشن و ویدیو بود.

StyleGAN3 از معماری تولید تصویر بازطراحی شده، بدون الایاس استفاده می کند و سناریوهای آموزشی شبکه عصبی جدیدی را پیشنهاد می کند. این شامل ابزارهای جدید برای تجسم تعاملی (visualizer.py)، تجزیه و تحلیل (avg_spectra.py) و تولید ویدیو (gen_video.py) است. این پیاده سازی همچنین مصرف حافظه را کاهش می دهد و روند یادگیری را سرعت می بخشد.

NVIDIA منبع باز StyleGAN3، یک سیستم یادگیری ماشینی برای سنتز چهره

یکی از ویژگی‌های کلیدی معماری StyleGAN3 انتقال به تفسیر همه سیگنال‌ها در شبکه عصبی در قالب فرآیندهای پیوسته بود که این امکان را فراهم می‌کرد که هنگام تشکیل قطعات، موقعیت‌های نسبی را که به مختصات مطلق پیکسل‌های منفرد مرتبط نیستند، دستکاری کنیم. تصویر، اما بر روی سطح اشیاء به تصویر کشیده شده است. در StyleGAN و StyleGAN2، اتصال به پیکسل ها در طول تولید منجر به مشکلاتی در حین رندر پویا می شد، به عنوان مثال، هنگام حرکت تصویر، عدم تطابق جزئیات کوچک مانند چین و چروک و مو وجود داشت، که به نظر می رسید جدا از بقیه قسمت های صورت حرکت می کند. . در StyleGAN3 این مشکلات حل شده و فناوری برای تولید ویدئو کاملا مناسب شده است.

علاوه بر این، می‌توان به اعلام ایجاد بزرگترین مدل زبان MT-NLG توسط NVIDIA و مایکروسافت بر اساس یک شبکه عصبی عمیق با معماری «ترانسفورماتور» اشاره کرد. این مدل 530 میلیارد پارامتر را پوشش می‌دهد و مجموعه‌ای از 4480 پردازنده گرافیکی (560 سرور DGX A100 با 8 پردازنده گرافیکی 100 گیگابایتی A80) برای آموزش استفاده شد. کاربردهای این مدل شامل حل مشکلات پردازش زبان طبیعی، مانند پیش‌بینی تکمیل جملات ناتمام، پاسخ به سؤالات، درک مطلب، استنتاج به زبان طبیعی، و ابهام‌زدایی از معنای کلمات است.

NVIDIA منبع باز StyleGAN3، یک سیستم یادگیری ماشینی برای سنتز چهره


منبع: opennet.ru

اضافه کردن نظر