NVIDIA اوپن سورس StyleGAN3، چہرے کی ترکیب کے لیے مشین لرننگ سسٹم

NVIDIA نے StyleGAN3 کے لیے سورس کوڈ شائع کیا ہے، ایک مشین لرننگ سسٹم جو کہ جنریٹیو ایڈورسریل نیورل نیٹ ورک (GAN) پر مبنی ہے جس کا مقصد لوگوں کے چہروں کی حقیقت پسندانہ تصاویر کی ترکیب کرنا ہے۔ کوڈ PyTorch فریم ورک کا استعمال کرتے ہوئے Python میں لکھا گیا ہے اور NVIDIA سورس کوڈ لائسنس کے تحت تقسیم کیا گیا ہے، جو تجارتی استعمال پر پابندیاں عائد کرتا ہے۔

Flickr-Faces-HQ (FFHQ) مجموعہ پر تربیت یافتہ تیار شدہ تربیت یافتہ ماڈل، جس میں لوگوں کے چہروں کی 70 ہزار اعلیٰ معیار کی (1024x1024) PNG تصاویر شامل ہیں، بھی ڈاؤن لوڈ کے لیے دستیاب ہیں۔ اس کے علاوہ، AFHQv2 (جانوروں کے چہروں کی تصاویر) اور Metfaces (کلاسیکی پینٹنگ کے پورٹریٹ سے لوگوں کے چہروں کی تصاویر) کے مجموعوں کی بنیاد پر بنائے گئے ماڈلز ہیں۔ ترقی کی توجہ چہروں پر ہے، لیکن نظام کو کسی بھی چیز، جیسے کہ مناظر اور کاریں بنانے کی تربیت دی جا سکتی ہے۔ مزید برآں، آپ کے اپنے تصویری مجموعوں کا استعمال کرتے ہوئے نیورل نیٹ ورک کی خود تربیت کے لیے ٹولز فراہم کیے جاتے ہیں۔ ایک یا زیادہ NVIDIA گرافکس کارڈز کی ضرورت ہے (Tesla V100 یا A100 GPU تجویز کردہ)، کم از کم 12 GB RAM، PyTorch 1.9 اور CUDA 11.1+ ٹول کٹ۔ نتیجے میں آنے والے چہروں کی مصنوعی نوعیت کا تعین کرنے کے لیے، ایک خصوصی ڈیٹیکٹر تیار کیا جا رہا ہے۔

یہ نظام آپ کو متعدد چہروں کی خصوصیات کے انٹرپولیشن کی بنیاد پر ایک نئے چہرے کی تصویر بنانے کی اجازت دیتا ہے، ان کی خصوصیت کو یکجا کر کے، ساتھ ہی حتمی تصویر کو مطلوبہ عمر، جنس، بالوں کی لمبائی، مسکراہٹ کے کردار، ناک کی شکل، جلد کا رنگ، شیشے، اور تصویر کا زاویہ۔ جنریٹر تصویر کو شیلیوں کا مجموعہ سمجھتا ہے، خود بخود خصوصیت کی تفصیلات (فریکلز، بال، شیشے) کو عام اعلیٰ درجے کی صفات (پوز، جنس، عمر میں تبدیلی) سے الگ کرتا ہے اور آپ کو غالب کے تعین کے ساتھ کسی بھی شکل میں ان کو جوڑنے کی اجازت دیتا ہے۔ وزن کے گتانک کے ذریعے خصوصیات۔ نتیجے کے طور پر، تصاویر تیار ہوتی ہیں جو حقیقی تصویروں سے الگ نہیں ہوتی ہیں۔

NVIDIA اوپن سورس StyleGAN3، چہرے کی ترکیب کے لیے مشین لرننگ سسٹم

StyleGAN ٹیکنالوجی کا پہلا ورژن 2019 میں شائع ہوا تھا، جس کے بعد 2020 میں StyleGAN2 کا ایک بہتر ایڈیشن تجویز کیا گیا تھا، جس سے تصویر کے معیار کو بہتر بنانے اور کچھ نمونوں کو ختم کرنے کی اجازت دی گئی تھی۔ ایک ہی وقت میں، نظام جامد رہا، یعنی حقیقت پسندانہ حرکت پذیری اور چہرے کی حرکت کو حاصل کرنے کی اجازت نہیں دی۔ StyleGAN3 تیار کرتے وقت، بنیادی مقصد ٹیکنالوجی کو حرکت پذیری اور ویڈیو میں اس کے استعمال کے لیے ڈھالنا تھا۔

StyleGAN3 ایک نئے ڈیزائن کردہ امیج جنریشن آرکیٹیکچر کا استعمال کرتا ہے، جو کہ عرفیت سے پاک ہے، اور نیورل نیٹ ورک ٹریننگ کے نئے منظرنامے تجویز کرتا ہے۔ اس میں انٹرایکٹو ویژولائزیشن (visualizer.py)، تجزیہ (avg_spectra.py) اور ویڈیو جنریشن (gen_video.py) کے لیے نئی افادیتیں شامل ہیں۔ اس پر عمل درآمد میموری کی کھپت کو بھی کم کرتا ہے اور سیکھنے کے عمل کو تیز کرتا ہے۔

NVIDIA اوپن سورس StyleGAN3، چہرے کی ترکیب کے لیے مشین لرننگ سسٹم

StyleGAN3 فن تعمیر کی ایک اہم خصوصیت عصبی نیٹ ورک میں تمام سگنلز کی مسلسل عمل کی شکل میں تشریح کرنے کی منتقلی تھی، جس نے حصوں کی تشکیل کے دوران، رشتہ دار پوزیشنوں میں ہیرا پھیری کو ممکن بنایا جو انفرادی پکسلز کے مطلق نقاط سے منسلک نہیں ہیں۔ تصویر، لیکن دکھایا گیا اشیاء کی سطح پر فکسڈ. StyleGAN اور StyleGAN2 میں، جنریشن کے دوران پکسلز کے پابند ہونے کی وجہ سے ڈائنامک رینڈرنگ کے دوران مسائل پیدا ہوئے، مثال کے طور پر، جب تصویر منتقل ہوتی ہے، تو چھوٹی چھوٹی تفصیلات، جیسے کہ جھریاں اور بال، جو چہرے کے باقی حصوں سے الگ ہوتے دکھائی دیتے تھے، کی مماثلت نہیں تھی۔ . StyleGAN3 میں یہ مسائل حل ہو گئے ہیں اور ٹیکنالوجی ویڈیو جنریشن کے لیے کافی موزوں ہو گئی ہے۔

مزید برآں، ہم NVIDIA اور Microsoft کی طرف سے "ٹرانسفارمر" فن تعمیر کے ساتھ ایک گہرے نیورل نیٹ ورک پر مبنی زبان کے سب سے بڑے ماڈل MT-NLG کی تخلیق کے اعلان کو نوٹ کر سکتے ہیں۔ یہ ماڈل 530 بلین پیرامیٹرز پر محیط ہے، اور 4480 GPUs کا ایک کلسٹر (560 DGX A100 سرور ہر 8 A100 80GB GPUs کے ساتھ) تربیت کے لیے استعمال کیا گیا تھا۔ ماڈل کی ایپلی کیشنز میں قدرتی زبان کی پروسیسنگ کے مسائل کو حل کرنا شامل ہے، جیسے کہ نامکمل جملوں کی تکمیل کی پیشین گوئی، سوالات کے جوابات، فہم کو پڑھنا، فطری زبان میں نقاط کھینچنا، اور الفاظ کے معنی کو واضح کرنا۔

NVIDIA اوپن سورس StyleGAN3، چہرے کی ترکیب کے لیے مشین لرننگ سسٹم


ماخذ: opennet.ru

نیا تبصرہ شامل کریں