د کمپیوټر لید کې عصبي شبکې په فعاله توګه وده کوي ، ډیری ستونزې لاهم د حل کیدو څخه لرې دي. ستاسو په ساحه کې د رجحان کیدو لپاره، یوازې په ټویټر کې نفوذ کونکي تعقیب کړئ او په arXiv.org کې اړونده مقالې ولولئ. خو موږ دا فرصت درلود چې د کمپیوټر ویژن (ICCV) 2019 نړیوال کنفرانس ته لاړ شو. سږکال دا په سویلي کوریا کې ترسره کیږي. اوس موږ غواړو هغه څه چې موږ ولیدل او زده کړل د حبر لوستونکو سره شریک کړو.
د Yandex څخه دلته زموږ څخه ډیری شتون درلود: د ځان چلولو موټرو پراختیا کونکي ، څیړونکي او هغه څوک چې په خدماتو کې د CV دندو سره معامله کوي. مګر اوس موږ غواړو زموږ د ټیم یو څه موضوعي نقطه وړاندې کړو - د ماشین استخباراتو لابراتوار (Yandex MILAB). نورو هلکانو شاید کنفرانس ته د خپل زاویې څخه وکتل.
لابراتوار څه کوي؟موږ د ساتیرۍ موخو لپاره د عکسونو او میوزیک تولید پورې اړوند تجربې پروژې ترسره کوو. موږ په ځانګړي توګه د عصبي شبکو سره علاقه لرو چې تاسو ته اجازه درکوي د کارونکي څخه مینځپانګه بدله کړئ (د عکسونو لپاره ، دا کار د عکس مینځلو په نوم یادیږي).
دلته ډیری ساینسي کنفرانسونه شتون لري ، مګر لوړ یې څرګند دي ، د A * کنفرانسونو په نوم یادیږي ، چیرې چې معمولا د خورا په زړه پورې او مهم ټیکنالوژیو مقالې خپریږي. د A* کنفرانسونو دقیق لیست شتون نلري، دلته یو اټکل شوی او نیمګړی لیست دی: NeurIPS (پخوانی NIPS)، ICML، SIGIR، WWW، WSDM، KDD، ACL، CVPR، ICCV، ECCV. وروستي درې د CV موضوع کې تخصص لري.
ICCV په نظر کې: پوسټرونه، درسونه، ورکشاپونه، سټینډونه
کانفرانس ته ۱۰۷۵ مقالې تر لاسه شوې چې ۷۵۰۰ تنو پکې برخه اخیستې وه، ۱۰۳ تنه له روسیې څخه راغلي وو، د یاندیکس، سکالټیک، سامسنګ AI سنټر مسکو او سمارا پوهنتون د کارکوونکو مقالې وې. سږکال، ډیری لوړ پوړو څیړونکو ICCV څخه لیدنه نه ده کړې، مګر، د بیلګې په توګه، الیکسي (الیوشا) ایفروس، چې تل ډیری خلک جذبوي:
Статистика
په دې ټولو کنفرانسونو کې مقالې د پوسترونو په بڼه وړاندې کیږي (
دلته د روسیې څخه ځینې کارونه دي
د لارښوونو سره تاسو کولی شئ د یوې ځانګړې موضوع ساحې ته لاړ شئ؛ دا په پوهنتون کې د لیکچر یادونه کوي. دا د یو کس لخوا لوستل کیږي، معمولا د ځانګړو کارونو په اړه خبرې کولو پرته. د ښه ښوونې یوه بیلګه (
په ورکشاپونو کې، برعکس، دوی د مقالو په اړه خبرې کوي. معمولا دا په ځینو محدودو موضوعاتو کې اثار دي، د لابراتوار د رییسانو کیسې د زده کونکو د ټولو وروستیو کارونو په اړه، یا هغه مقالې چې اصلي کنفرانس ته نه دي منل شوي.
سپانسر کونکي شرکتونه د سټینډونو سره ICCV ته راځي. سږکال، ګوګل، فیسبوک، ایمیزون او ډیری نور نړیوال شرکتونه راغلل، او همدارنګه د پیل کولو لوی شمیر - کوریایي او چینایي. په ځانګړي توګه ډیری پیل شوي چې د ډیټا ټګ کولو کې تخصص لري. په سټینډونو کې نندارتونونه شتون لري، تاسو کولی شئ سوداګریز واخلئ او پوښتنې وکړئ. د ښکار موخو لپاره، سپانسر شرکتونه ګوندونه لري. تاسو کولی شئ دوی ته ورشئ که تاسو ګمارونکي قانع کړئ چې تاسو علاقه لرئ او دا چې تاسو په بالقوه توګه مرکې پاس کولی شئ. که تاسو یوه مقاله خپره کړې وي (یا سربیره پردې ، وړاندې یې کړې) ، د پی ایچ ډی پیل یا پای ته رسوي ، دا یو پلس دی ، مګر ځینې وختونه تاسو د شرکت انجینرانو ته په زړه پورې پوښتنو په کولو سره په موقف کې خبرې کولی شئ.
رجحانات
کنفرانس تاسو ته اجازه درکوي چې د CV ټول ډګر ته یو نظر وګورئ. د یوې ځانګړې موضوع په اړه د پوسترونو شمیر، تاسو کولی شئ ارزونه وکړئ چې موضوع څومره ګرمه ده. ځینې پایلې پخپله د کلیمو پراساس وړاندیز کوي:
صفر شاټ، یو شاټ، څو شاټ، ځان څارل او نیمه څارل: د اوږدې مطالعې دندو لپاره نوې لارې
خلک په اغیزمنه توګه د معلوماتو کارولو زده کوي. د مثال په توګه، په
3D او 360°
هغه ستونزې چې ډیری یې د عکسونو لپاره حل شوي (برخه کول، کشف کول) د 3D ماډلونو او پینورامیک ویډیوګانو لپاره اضافي څیړنې ته اړتیا لري. موږ د RGB او RGB-D 3D ته د بدلولو په اړه ډیری مقالې لیدلي دي. ځینې ستونزې، لکه د انسان پوز اټکل، د 3D ماډلونو ته د تګ له لارې په طبیعي توګه حل کیدی شي. مګر لاهم پدې اړه هیڅ توافق شتون نلري چې څنګه په ریښتیا د XNUMXD ماډلونو استازیتوب وکړي - د میش ، پوائنټ کلاوډ ، ووکسلز یا SDF په بڼه. دلته یو بل اختیار دی:
په پینوراما کې، په ساحه کې کنډولونه په فعاله توګه وده کوي (وګورئ.
د پوز کشف او د انسان حرکت وړاندوینه
په 2D کې د پوز کشف کولو کې دمخه پرمختګونه شوي - اوس تمرکز د ډیری کیمرونو او 3D سره کار کولو ته اړول شوی. د مثال په توګه، تاسو کولی شئ د Wi-Fi سیګنال کې د بدلونونو تعقیب کولو سره د دیوال له لارې کنکال هم کشف کړئ ځکه چې دا د انسان بدن ته تیریږي.
د لاسي کیلي پوائنټ کشف په برخه کې ډیر کار ترسره شوی. نوي ډیټاسیټونه څرګند شوي ، پشمول د دوه خلکو ترمینځ د خبرو اترو ویډیوګانو پراساس - اوس تاسو کولی شئ د خبرو اترو آډیو یا متن څخه د لاس اشارو وړاندوینه وکړئ! د سترګو د تعقیب په کارونو کې ورته پرمختګ شوی دی (د سترګو اټکل).
یو څوک کولی شي د انساني حرکت وړاندوینې پورې اړوند د کارونو لوی کلستر هم وپیژني (د مثال په توګه ،
په عکسونو او ویډیوګانو کې د خلکو سره لاسوهنه، د مجازی فټینګ خونه
اصلي رجحان د تشریح وړ پیرامیټونو سره سم د مخ عکسونو بدلول دي. نظرونه: د یو عکس پراساس ډیپ فیک ، د مخ رینډینګ پراساس بیان بدلول (
د سکیچ / ګرافونو څخه تولید
د نظر پراختیا "اجازه راکړئ چې د تیرو تجربو پراساس یو څه رامینځته کړي" بل شو: "راځئ هغه گرډ وښیو چې کوم انتخاب زموږ سره علاقه لري."
د ICCV لپاره د 25 Adobe مقالو څخه یوه د دوه GANs ترکیب کوي: یو د کارونکي لپاره سکیچ بشپړوي ، بل یې له سکیچ څخه عکس العمل عکس رامینځته کوي (
پخوا، د انځور جوړولو لپاره ګرافونو ته اړتیا نه وه، مګر اوس دوی د صحنې په اړه د پوهې کانټینر جوړ شوي. د ICCV د پایلو پراساس د غوره کاغذ اعزازي ذکر جایزه هم د مقالې لخوا وګټله
د خلکو او موټرو بیا پیژندنه، د خلکو د اندازې شمیرل (!)
ډیری مقالې د خلکو تعقیب او د خلکو او ماشینونو بیا پیژندلو ته وقف شوي. مګر هغه څه چې موږ یې حیران کړل د خلکو شمیرنې په اړه د مقالو یوه ډله وه ، ټول د چین څخه.
پوسټرونه
مګر فیسبوک، برعکس، عکس پټوي. او دا په زړه پورې طریقه ترسره کوي: دا عصبي شبکه روزي ترڅو د ځانګړي توضیحاتو پرته مخ رامینځته کړي - ورته ، مګر دومره ورته ندي چې د مخ پیژندنې سیسټمونو لخوا په سمه توګه پیژندل کیدی شي.
د مخالفو بریدونو په وړاندې محافظت
په ریښتیني نړۍ کې د کمپیوټر لید غوښتنلیکونو پراختیا سره (د ځان چلولو موټرو کې ، د مخ پیژندنې کې) ، د داسې سیسټمونو اعتبار په زیاتیدونکي ډول راپورته کیږي. د CV په بشپړه توګه کارولو لپاره، تاسو اړتیا لرئ ډاډ ترلاسه کړئ چې سیسټم د مخالفو بریدونو په وړاندې مقاومت لري - له همدې امله د ځان د بریدونو په پرتله د دوی په وړاندې د محافظت په اړه لږ مقالې شتون نلري. د شبکې وړاندوینې تشریح کولو کې ډیر کار شوی دی (د پام وړ نقشه) او په پایله کې د باور اندازه کول.
ګډې دندې
په ډیری دندو کې د یو هدف سره، د کیفیت د ښه کولو امکانات په عملي توګه پای ته رسیدلي؛ د کیفیت د زیاتوالي لپاره یو له نویو لارښوونو څخه یو د عصبي شبکو درس ورکول دي ترڅو په ورته وخت کې ډیری ورته ستونزې حل کړي. بېلګې:
- د عمل وړاندوینه + د نظری جریان وړاندوینه
- ویډیو پریزنټشن + د ژبې پریزنټشن (
-
دلته د قطع کولو ، د پوز ټاکل او د څارویو بیا پیژندنې په اړه مقالې هم شتون لري!
لوړوالی
نږدې ټولې مقالې مخکې له مخکې پیژندل شوې وې، متن په arXiv.org کې شتون درلود. له همدې امله، د داسې کارونو وړاندې کول لکه هرڅوک نڅا اوس، FUNIT، Image2StyleGAN خورا عجيب ښکاري - دا خورا ګټور کارونه دي، مګر نوي ندي. داسې بریښي چې د ساینسي خپرونو کلاسیک بهیر دلته ماتیږي - ساینس خورا ګړندی روان دی.
دا خورا ستونزمن کار دی چې غوره کارونه وټاکي - ډیری یې شتون لري، مضامین مختلف دي. څو مقالې ترلاسه شوې
موږ غواړو هغه کارونه په ګوته کړو چې د عکس مینځلو له لید څخه په زړه پوري دي ، ځکه چې دا زموږ موضوع ده. دوی زموږ لپاره خورا تازه او په زړه پوري وګرځیدل (موږ د هدف وړ نه بولو).
SinGAN (د غوره کاغذ جایزه) او InGAN
سنګان:
انګان:
د دیمیتري اولیانوف، اندریا ویدالدي او ویکتور لیمپیتسکي څخه د ژور عکس مخکینۍ مفکورې پراختیا. د ډیټا سیټ په اړه د GAN روزنې پرځای، شبکې د ورته انځور له ټوټو څخه زده کوي ترڅو د هغې دننه احصایې په یاد وساتي. روزل شوې شبکه تاسو ته اجازه درکوي عکسونه ایډیټ او متحرک کړئ (SingGAN) یا د اصلي عکس له جوړښت څخه د هرې اندازې نوي عکسونه رامینځته کړئ ، د محلي جوړښت (InGAN) ساتنه.
سنګان:
انګان:
وګورئ چې GAN نشي تولید کولی
عصبي شبکې چې عکسونه تولیدوي اکثرا د تصادفي شور ویکتور د ان پټ په توګه اخلي. په یوه روزل شوي شبکه کې، ډیری ان پټ ویکتورونه یو ځای جوړوي، کوچني حرکتونه چې په انځور کې د کوچنیو بدلونونو المل ګرځي. د اصلاح کولو په کارولو سره ، تاسو کولی شئ معکوس ستونزه حل کړئ: د ریښتیني نړۍ څخه د عکس لپاره مناسب ان پټ ویکتور ومومئ. لیکوال ښیې چې دا تقریبا هیڅکله امکان نلري چې په عصبي شبکه کې په بشپړ ډول مطابقت لرونکي عکس ومومئ. په انځور کې ځینې شیان نه تولید شوي (په ښکاره ډول د دې شیانو د لوی تغیر له امله).
لیکوال فرض کوي چې GAN د عکسونو ټول ځای نه پوښي ، مګر یوازې یو څه فرعي سیټ ، د سوري سره ډک شوي ، لکه پنیر. کله چې موږ په دې کې د ریښتینې نړۍ عکسونو موندلو هڅه کوو، موږ به تل ناکام شو، ځکه چې GAN لاهم په بشپړ ډول ریښتیني عکسونه نه تولیدوي. د ریښتیني او تولید شوي عکسونو ترمینځ توپیر یوازې د شبکې وزن بدلولو سره له مینځه وړل کیدی شي ، دا د ځانګړي عکس لپاره د بیا روزنې له لارې.
کله چې شبکه د ځانګړي عکس لپاره اضافي روزل کیږي ، تاسو کولی شئ د دې عکس سره مختلف لاسوهنې هڅه وکړئ. په لاندې مثال کې، په عکس کې یوه کړکۍ اضافه شوه، او شبکې سربیره پردې د پخلنځي واحد کې انعکاس تولید کړ. دا پدې مانا ده چې شبکه، حتی د عکس اخیستنې لپاره اضافي روزنې وروسته، په صحنه کې د شیانو ترمنځ د اړیکو لیدلو وړتیا له لاسه نه ورکوي.
GANalize: د ادراکي انځور ملکیتونو بصري تعریفونو ته
د دې کار څخه د تګلارې په کارولو سره، تاسو کولی شئ هغه څه چې عصبي شبکې زده کړي وي لیدل او تحلیل کړئ. لیکوالان وړاندیز کوي چې GAN ته روزنه ورکړي ترڅو عکسونه رامینځته کړي د کوم لپاره چې شبکه به مشخص وړاندوینې رامینځته کړي. مقاله د مثال په توګه ډیری شبکې کارولې، په شمول د MemNet، کوم چې د عکس یادښت وړاندوینه کوي. دا معلومه شوه چې د ښه یادښت لپاره، په عکس کې اعتراض باید:
- مرکز ته نږدې اوسئ
- ډیر ګردي یا مربع شکل او ساده جوړښت ولري،
- په یونیفورم پس منظر کې اوسئ،
- څرګندې سترګې لري (لږترلږه د سپي عکسونو لپاره)
- روښانه وي، ډیر سیر شوي، په ځینو مواردو کې، سور.
د مایع وارپینګ GAN: د انسان حرکت تقلید، ظاهري لیږد او د ناول لید ترکیب لپاره یو متحد چوکاټ
د خلکو د عکسونو د تولید لپاره پایپ لاین په یو وخت کې یو عکس. لیکوالان د یو کس بل ته د حرکت لیږد، د خلکو ترمنځ د جامو لیږدولو او د یو شخص نوي زاویې رامینځته کولو بریالي مثالونه ښیي - ټول د یو عکس څخه. د پخوانیو کارونو برخلاف ، دلته موږ په 2D (پوز) کې کلیدي ټکي نه کاروو ، مګر د شرایطو رامینځته کولو لپاره د بدن 3D میش (پوز + شکل) کاروو. لیکوالانو دا هم معلومه کړه چې څنګه معلومات له اصلي عکس څخه تولید شوي عکس ته لیږدول کیږي (د مایع وارپینګ بلاک). پایلې ښې ښکاري، مګر د پایلې عکس حل یوازې 256x256 دی. د پرتله کولو لپاره ، vid2vid ، کوم چې یو کال دمخه څرګند شوی ، د 2048x1024 په ریزولوشن کې رامینځته کولو وړ دی ، مګر دا د ډیټاسیټ په توګه د 10 دقیقو ویډیو ثبتولو ته اړتیا لري.
FSGAN: موضوع اګنوسټیک د مخ بدلول او بیا عمل کول
په لومړي سر کې داسې ښکاري چې هیڅ غیر معمولي شتون نلري: د ډیر یا لږ نورمال کیفیت سره ژوره. مګر د کار اصلي لاسته راوړنه د یو انځور څخه د مخونو بدیل دی. د پخوانیو کارونو برعکس، د یو ځانګړي کس د ډیری عکسونو روزنې ته اړتیا وه. پایپ لاین پیچلی وګرځیده (د بیا فعالولو او قطع کولو ، لید انټرپولیشن ، نقاشۍ ، مخلوط) او د ډیری تخنیکي هکونو سره ، مګر پایله یې ارزښت لري.
د عکس ریسسینټیسس له لارې غیر متوقع کشف کول
ډرون څنګه پوهیدلی شي چې یو څیز ناڅاپه د هغې مخې ته راښکاره شوی چې د سیمانټیک قطع کولو ټولګي کې نه راځي؟ ډیری میتودونه شتون لري، مګر لیکوالان یو نوی، رواني الګوریتم وړاندیز کوي چې د مخکینیو څخه غوره کار کوي. د سیمنټیک سیګمینټیشن د ان پټ سړک عکس څخه وړاندوینه کیږي. دا GAN (pix2pixHD) ته د ننوتلو په توګه تغذیه کیږي ، کوم چې هڅه کوي اصلي عکس یوازې د سیمانټیک نقشې څخه بیرته راولي. بې نظمۍ چې په هیڅ یوه برخه کې نه راځي د تولید او تولید شوي عکس کې به د پام وړ توپیر ولري. درې انځورونه (اصلي، قطع کول، او بیارغول شوي) بیا په بل شبکه کې تغذیه شوي چې د ګډوډۍ وړاندوینه کوي. د دې لپاره ډیټاسیټ د مشهور ښار سکیپ ډیټاسیټ څخه رامینځته شوی ، په تصادفي ډول په سیمانټیک برخو کې ټولګي بدلوي. په زړه پورې، په دې ترتیب کې، یو سپی چې د سړک په منځ کې ولاړ دی، مګر په سمه توګه طبقه بندي شوی (د دې معنی لري چې د هغې لپاره ټولګي شتون لري)، بې نظمۍ نده، ځکه چې سیسټم د دې پیژندلو توان درلود.
پایلې
د کنفرانس څخه دمخه، دا مهمه ده چې پوه شئ چې ستاسو ساینسي ګټې څه دي، تاسو په کوم پریزنټشنونو کې ګډون کول غواړئ، او له چا سره خبرې وکړئ. بیا به هرڅه ډیر ګټور وي.
ICCV، لومړی او تر ټولو مهم، شبکه ده. تاسو پوهیږئ چې دلته لوړ انستیتیوتونه او لوړ ساینسي څانګې شتون لري، تاسو پدې پوهیدل پیل کړئ، خلک وپیژنئ. او تاسو کولی شئ په arXiv کې مقالې ولولی - او په هرصورت، دا خورا ښه دی چې تاسو اړتیا نلرئ د پوهې ترلاسه کولو لپاره چیرته لاړ شئ.
سربیره پردې ، په کنفرانس کې تاسو کولی شئ هغه موضوعاتو ته ژور ډوب کړئ چې تاسو ته نږدې ندي او رجحانات وګورئ. ښه، د لوستلو لپاره د مقالو لیست ولیکئ. که تاسو زده کونکی یاست، دا ستاسو لپاره یو فرصت دی چې د یو احتمالي ښوونکي سره لیدنه وکړئ، که تاسو د صنعت څخه یاست، نو د نوي کارمند سره، او که یو شرکت، نو خپل ځان ښکاره کړئ.
ګډون وکړئ
سرچینه: www.habr.com