NVIDIA کد منبع StyleGAN3 را منتشر کرده است، یک سیستم یادگیری ماشینی مبتنی بر یک شبکه عصبی متخاصم مولد (GAN) که هدف آن ترکیب تصاویر واقعی از چهره افراد است. این کد در پایتون با استفاده از چارچوب PyTorch نوشته شده است و تحت مجوز کد منبع NVIDIA توزیع شده است که محدودیت هایی را برای استفاده تجاری اعمال می کند.
مدل های آماده آموزش دیده آموزش دیده در مجموعه Flickr-Faces-HQ (FFHQ) که شامل 70 هزار تصویر PNG با کیفیت بالا (1024x1024) از چهره افراد می باشد نیز برای دانلود قرار داده شده است. علاوه بر این، مدلهایی وجود دارد که بر اساس مجموعههای AFHQv2 (عکسهای صورت حیوانات) و Metfaces (تصاویر چهره افراد از پرترههای نقاشی کلاسیک) ساخته شدهاند. تمرکز توسعه روی چهرهها است، اما سیستم را میتوان برای تولید هر شی، مانند مناظر و ماشینها، آموزش داد. علاوه بر این، ابزارهایی برای خودآموزی یک شبکه عصبی با استفاده از مجموعههای تصویری خودتان ارائه شده است. به یک یا چند کارت گرافیک NVIDIA (GPU توصیه شده Tesla V100 یا A100)، حداقل 12 گیگابایت رم، PyTorch 1.9 و CUDA 11.1+ نیاز دارد. برای تعیین ماهیت مصنوعی صورت های حاصل، یک آشکارساز ویژه در حال توسعه است.
این سیستم به شما امکان می دهد تصویری از یک چهره جدید را بر اساس درون یابی ویژگی های چندین چهره، ترکیب ویژگی های مشخصه آنها و همچنین تطبیق تصویر نهایی با سن، جنسیت، طول مو، شخصیت لبخند، شکل بینی، ترکیب کنید. رنگ پوست، عینک و زاویه عکس. ژنراتور تصویر را به عنوان مجموعه ای از سبک ها در نظر می گیرد، به طور خودکار جزئیات مشخصه (کک و مک، مو، عینک) را از ویژگی های معمولی سطح بالا (ژست، جنسیت، تغییرات سن) جدا می کند و به شما امکان می دهد آنها را به هر شکلی با تعیین غالب ترکیب کنید. خواص از طریق ضرایب وزنی در نتیجه، تصاویری تولید می شوند که از عکس های واقعی قابل تشخیص نیستند.
اولین نسخه از فناوری StyleGAN در سال 2019 منتشر شد، پس از آن نسخه بهبود یافته StyleGAN2020 در سال 2 پیشنهاد شد که امکان بهبود کیفیت تصویر و حذف برخی از مصنوعات را فراهم می کرد. در همان زمان، سیستم ثابت باقی ماند، یعنی. اجازه دستیابی به انیمیشن واقع گرایانه و حرکت صورت را نمی دهد. هنگام توسعه StyleGAN3، هدف اصلی تطبیق این فناوری برای استفاده از آن در انیمیشن و ویدیو بود.
StyleGAN3 از معماری تولید تصویر بازطراحی شده، بدون الایاس استفاده می کند و سناریوهای آموزشی شبکه عصبی جدیدی را پیشنهاد می کند. این شامل ابزارهای جدید برای تجسم تعاملی (visualizer.py)، تجزیه و تحلیل (avg_spectra.py) و تولید ویدیو (gen_video.py) است. این پیاده سازی همچنین مصرف حافظه را کاهش می دهد و روند یادگیری را سرعت می بخشد.
یکی از ویژگیهای کلیدی معماری StyleGAN3 انتقال به تفسیر همه سیگنالها در شبکه عصبی در قالب فرآیندهای پیوسته بود که این امکان را فراهم میکرد که هنگام تشکیل قطعات، موقعیتهای نسبی را که به مختصات مطلق پیکسلهای منفرد مرتبط نیستند، دستکاری کنیم. تصویر، اما بر روی سطح اشیاء به تصویر کشیده شده است. در StyleGAN و StyleGAN2، اتصال به پیکسل ها در طول تولید منجر به مشکلاتی در حین رندر پویا می شد، به عنوان مثال، هنگام حرکت تصویر، عدم تطابق جزئیات کوچک مانند چین و چروک و مو وجود داشت، که به نظر می رسید جدا از بقیه قسمت های صورت حرکت می کند. . در StyleGAN3 این مشکلات حل شده و فناوری برای تولید ویدئو کاملا مناسب شده است.
علاوه بر این، میتوان به اعلام ایجاد بزرگترین مدل زبان MT-NLG توسط NVIDIA و مایکروسافت بر اساس یک شبکه عصبی عمیق با معماری «ترانسفورماتور» اشاره کرد. این مدل 530 میلیارد پارامتر را پوشش میدهد و مجموعهای از 4480 پردازنده گرافیکی (560 سرور DGX A100 با 8 پردازنده گرافیکی 100 گیگابایتی A80) برای آموزش استفاده شد. کاربردهای این مدل شامل حل مشکلات پردازش زبان طبیعی، مانند پیشبینی تکمیل جملات ناتمام، پاسخ به سؤالات، درک مطلب، استنتاج به زبان طبیعی، و ابهامزدایی از معنای کلمات است.
منبع: opennet.ru