د NVIDIA خلاص سرچینه سټایل GAN3 ، د مخ ترکیب لپاره د ماشین زده کړې سیسټم

NVIDIA د StyleGAN3 لپاره د سرچینې کوډ خپور کړی، د ماشین زده کړې سیسټم چې د تولید ضد عصبي شبکې (GAN) پراساس دی چې هدف یې د خلکو د مخونو ریښتیني عکسونو ترکیب کول دي. کوډ د PyTorch چوکاټ په کارولو سره په Python کې لیکل شوی او د NVIDIA سرچینې کوډ لایسنس لاندې توزیع شوی ، کوم چې په سوداګریز کارولو محدودیتونه وضع کوي.

د Flickr-Faces-HQ (FFHQ) ټولګه کې روزل شوي چمتو شوي چمتو شوي ماډلونه چې د خلکو د مخونو 70 زره لوړ کیفیت (1024x1024) PNG عکسونه پکې شامل دي د ډاونلوډ لپاره هم شتون لري. برسېره پردې، د AFHQv2 (د څارویو د مخونو عکسونه) او میټفیسس (د خلکو د مخونو انځورونه د کلاسیک نقاشیو له انځورونو څخه) ټولګه پر بنسټ جوړ شوي ماډلونه شتون لري. د پراختیا تمرکز په مخونو دی، مګر سیسټم روزل کیدی شي چې هر ډول شیان تولید کړي، لکه منظرې او موټرې. برسیره پردې، ستاسو د خپل عکس راټولولو په کارولو سره د عصبي شبکې د ځان روزنې لپاره وسایل چمتو شوي. یو یا ډیرو NVIDIA ګرافیک کارتونو ته اړتیا لري (Tesla V100 یا A100 GPU وړاندیز شوی)، لږترلږه 12 GB رام، PyTorch 1.9 او CUDA 11.1+ Toolkit. د نتیجې د مخونو د مصنوعي ماهیت معلومولو لپاره، یو ځانګړی کشف کونکي رامینځته کیږي.

سیسټم تاسو ته اجازه درکوي د څو مخونو ځانګړتیاو د مینځلو پراساس د نوي مخ عکس ترکیب کړئ ، د دوی ځانګړتیاوې ترکیب کړئ ، په بیله بیا وروستی عکس د اړین عمر ، جنس ، ویښتو اوږدوالي ، د موسکا کرکټر ، پوزې شکل ، د پوستکي رنګ، شیشې، او د عکس زاویه. جنریټر عکس د سټایلونو ټولګه ګڼي ، په اوتومات ډول د ځانګړتیا توضیحات (فریکلز ، ویښتان ، شیشې) د عام لوړې کچې ځانګړتیاو (پوز ، جنډر ، عمر بدلون) څخه جلا کوي او تاسو ته اجازه درکوي چې دا په هر ډول د غالب عزم سره یوځای کړئ. د وزن کولو کوفیفینټس له لارې ځانګړتیاوې. د پایلې په توګه، عکسونه تولید شوي چې د اصلي عکسونو څخه د توپیر وړ ندي.

د NVIDIA خلاص سرچینه سټایل GAN3 ، د مخ ترکیب لپاره د ماشین زده کړې سیسټم

د StyleGAN ټیکنالوژۍ لومړۍ نسخه په 2019 کې خپره شوه، وروسته له هغې چې په 2020 کې د StyleGAN2 اصلاح شوې نسخه وړاندیز شوه، د عکس کیفیت ښه کولو او ځینې هنري اثارو له منځه وړلو ته اجازه ورکوي. په ورته وخت کې، سیسټم جامد پاتې دی، i.e. د حقیقي حرکت او مخ حرکت ته اجازه نه ورکوي. کله چې د StyleGAN3 رامینځته کول ، اصلي هدف دا و چې ټیکنالوژي په انیمیشن او ویډیو کې د هغې کارولو لپاره تطبیق کړي.

StyleGAN3 د بیا ډیزاین شوي عکس نسل جوړښت کاروي، له علایمو څخه پاک، او د نوي عصبي شبکې روزنې سناریو وړاندیز کوي. پدې کې د متقابل لید لید (visualizer.py) ، تحلیل (avg_spectra.py) او ویډیو تولید (gen_video.py) لپاره نوې اسانتیاوې شاملې دي. پلي کول د حافظې مصرف هم کموي او د زده کړې پروسه ګړندۍ کوي.

د NVIDIA خلاص سرچینه سټایل GAN3 ، د مخ ترکیب لپاره د ماشین زده کړې سیسټم

د StyleGAN3 جوړښت کلیدي ځانګړتیا د دوامداره پروسو په بڼه په عصبي شبکه کې د ټولو سیګنالونو تشریح کولو لیږد و ، کوم چې دا امکان رامینځته کړی کله چې برخې رامینځته کوي ، د نسبي موقعیتونو اداره کول چې د انفرادي پکسلونو مطلق همغږي پورې تړلي ندي. انځور، مګر د انځور شوي شیانو سطح ته ټاکل شوی. په StyleGAN او StyleGAN2 کې، د نسل په جریان کې د پکسلونو پابند کول د متحرک رینډینګ په جریان کې د ستونزو لامل شوي، د بیلګې په توګه، کله چې عکس حرکت کوي، د کوچنیو توضیحاتو سره سمون نه درلود، لکه د ویښتو او ویښتو، چې داسې ښکاري چې د پاتې مخ څخه جلا حرکت کوي. . په StyleGAN3 کې، دا ستونزې حل شوي او ټیکنالوژي د ویډیو تولید لپاره خورا مناسبه شوې.

سربیره پردې ، موږ کولی شو د "ټرانسفارمر" معمارۍ سره د ژور عصبي شبکې پراساس د NVIDIA او مایکروسافټ ترټولو لوی ژبې ماډل MT-NLG لخوا د رامینځته کیدو اعلان یادونه وکړو. ماډل 530 ملیارد پیرامیټونه پوښي، او د 4480 GPUs کلستر (560 DGX A100 سرورونه د 8 A100 80GB GPUs سره هر یو) د روزنې لپاره کارول شوي. د ماډل غوښتنلیکونو کې د طبیعي ژبې پروسس کولو ستونزې حل کول شامل دي ، لکه د نیمګړو جملو بشپړیدو وړاندوینه ، پوښتنو ته ځواب ویل ، د پوهیدو لوستل ، په طبیعي ژبه کې د انعکاس رسمول ، او د کلمو معنی روښانه کول.

د NVIDIA خلاص سرچینه سټایل GAN3 ، د مخ ترکیب لپاره د ماشین زده کړې سیسټم


سرچینه: opennet.ru

Add a comment