شبکه های عصبی در بینایی کامپیوتری به طور فعال در حال توسعه هستند، بسیاری از مشکلات هنوز تا حل شدن فاصله دارند. برای اینکه در رشته خود ترند شوید، کافی است اینفلوئنسرها را در توییتر دنبال کنید و مقالات مرتبط را در arXiv.org بخوانید. اما ما این فرصت را داشتیم که به کنفرانس بین المللی بینایی کامپیوتر (ICCV) 2019 برویم. امسال در کره جنوبی برگزار می شود. اکنون می خواهیم آنچه را که دیدیم و آموختیم با خوانندگان Habr به اشتراک بگذاریم.
ما تعداد زیادی از Yandex آنجا بودیم: توسعه دهندگان اتومبیل های خودران، محققان و کسانی که با وظایف CV در خدمات سروکار دارند، آمدند. اما اکنون می خواهیم یک دیدگاه کمی ذهنی از تیم خود ارائه دهیم - آزمایشگاه هوش ماشینی (Yandex MILAB). بقیه بچه ها احتمالا از زاویه خودشان به کنفرانس نگاه کردند.
آزمایشگاه چه کار می کند؟ما پروژه های آزمایشی مربوط به تولید تصاویر و موسیقی را برای اهداف سرگرمی انجام می دهیم. ما به خصوص به شبکه های عصبی علاقه مند هستیم که به شما امکان می دهند محتوا را از کاربر تغییر دهید (برای عکس ها به این کار دستکاری تصویر می گویند).
کنفرانس های علمی زیادی وجود دارد، اما برترین ها برجسته هستند، به اصطلاح کنفرانس های A* که معمولاً مقالاتی در مورد جالب ترین و مهم ترین فناوری ها منتشر می شود. لیست دقیقی از کنفرانس های A* وجود ندارد، در اینجا یک لیست تقریبی و ناقص آمده است: NeurIPS (که قبلا NIPS)، ICML، SIGIR، WWW، WSDM، KDD، ACL، CVPR، ICCV، ECCV. سه مورد آخر در موضوع CV تخصص دارند.
ICCV در نگاه: پوستر، آموزش، کارگاه، غرفه
کنفرانس 1075 مقاله دریافت کرد، 7500 شرکت کننده، 103 نفر از روسیه آمده بودند، مقالاتی از کارکنان Yandex، Skoltech، Samsung AI Center مسکو و دانشگاه سامارا وجود داشت. امسال، تعداد زیادی از محققان برتر از ICCV بازدید نکردند، اما، به عنوان مثال، الکسی (آلیوشا) افروس، که همیشه افراد زیادی را به خود جذب می کند:
آمار
در تمامی این کنفرانس ها، مقالات به صورت پوستر ارائه می شود (
در ادامه تعدادی از آثار روسیه را مشاهده می کنید
با آموزشها میتوانید در یک حوزه موضوعی خاص شیرجه بزنید؛ این موضوع یادآور سخنرانی در دانشگاه است. معمولاً بدون صحبت در مورد آثار خاصی توسط یک نفر خوانده می شود. نمونه ای از یک آموزش جالب (
برعکس، در کارگاه ها درباره مقالات صحبت می کنند. معمولاً اینها آثاری در برخی موضوعات محدود، داستانهایی از سران آزمایشگاه درباره آخرین کارهای دانشجویان یا مقالاتی هستند که در کنفرانس اصلی پذیرفته نشدهاند.
شرکت های حامی با غرفه هایی به ICCV می آیند. امسال، گوگل، فیس بوک، آمازون و بسیاری از شرکت های بین المللی دیگر و همچنین تعداد زیادی استارت آپ - کره ای و چینی وارد شدند. به خصوص استارتاپ های زیادی وجود داشتند که در برچسب گذاری داده ها تخصص داشتند. در غرفه ها اجراهایی وجود دارد، می توانید کالاها را بگیرید و سؤال کنید. برای اهداف شکار، شرکت های اسپانسر مهمانی می گیرند. اگر استخدام کنندگان را متقاعد کنید که علاقه مند هستید و به طور بالقوه می توانید مصاحبه ها را پشت سر بگذارید، می توانید وارد آنها شوید. اگر مقاله ای منتشر کرده اید (یا علاوه بر این، آن را ارائه کرده اید)، یک دکترا را شروع کرده اید یا در حال اتمام آن هستید، این یک امتیاز مثبت است، اما گاهی اوقات می توانید با پرسیدن سوالات جالب از مهندسان شرکت در غرفه مذاکره کنید.
روند
این کنفرانس به شما امکان می دهد نگاهی به کل زمینه CV بیندازید. با توجه به تعداد پوسترهای یک موضوع خاص، می توانید میزان داغ بودن موضوع را ارزیابی کنید. برخی از نتایج خود را بر اساس کلمات کلیدی نشان می دهد:
شات صفر، یک شلیک، چند تیر، خود نظارت و نیمه نظارت: رویکردهای جدید برای کارهای طولانی مطالعه شده
مردم در حال یادگیری استفاده موثرتر از داده ها هستند. به عنوان مثال، در
3 بعدی و 360 درجه
مشکلاتی که بیشتر برای عکس ها حل شد (بخش بندی، تشخیص) نیاز به تحقیقات بیشتری برای مدل های سه بعدی و فیلم های پانوراما دارد. ما مقالات زیادی در مورد تبدیل RGB و RGB-D به سه بعدی دیده ایم. برخی از مشکلات، مانند تخمین ژست انسان، با حرکت به مدلهای سهبعدی بهطور طبیعیتر قابل حل هستند. اما هنوز در مورد نحوه دقیق نمایش مدلهای سه بعدی - به شکل مش، ابر نقطه، وکسل یا SDF توافق نظر وجود ندارد. در اینجا یک گزینه دیگر وجود دارد:
در پانوراما، پیچشهای کره به طور فعال در حال توسعه هستند (نگاه کنید به.
تشخیص پوس و پیش بینی حرکت انسان
در حال حاضر پیشرفت هایی در تشخیص پوس در دو بعدی وجود داشته است - اکنون تمرکز به سمت کار با دوربین های متعدد و سه بعدی تغییر کرده است. به عنوان مثال، شما همچنین می توانید یک اسکلت را از طریق دیوار با ردیابی تغییرات سیگنال Wi-Fi هنگام عبور از بدن انسان تشخیص دهید.
کارهای زیادی در زمینه تشخیص نقطه کلید دستی انجام شده است. مجموعه دادههای جدیدی ظاهر شدهاند، از جمله آنهایی که بر اساس ویدئوهای دیالوگ بین دو نفر است - اکنون میتوانید حرکات دست را از روی صدا یا متن یک مکالمه پیشبینی کنید! همین پیشرفت در وظایف ردیابی چشم (تخمین نگاه) صورت گرفته است.
همچنین می توان مجموعه بزرگی از آثار مرتبط با پیش بینی حرکت انسان را شناسایی کرد (به عنوان مثال،
دستکاری با افراد در عکس ها و فیلم ها، اتاق های اتصال مجازی
روند اصلی تغییر تصاویر چهره با توجه به پارامترهای قابل تفسیر است. ایده ها: دیپ فیک بر اساس یک عکس، تغییر بیان بر اساس رندر صورت (
تولید از طرح ها / نمودارها
توسعه ایده "اجازه دهید شبکه چیزی بر اساس تجربه قبلی تولید کند" به دیگری تبدیل شد: "بیایید به شبکه نشان دهیم کدام گزینه به ما علاقه دارد."
یکی از 25 مقاله Adobe برای ICCV دو GAN را ترکیب می کند: یکی طرح را برای کاربر کامل می کند، دیگری یک تصویر واقعی واقعی از طرح ایجاد می کند.
قبلاً در تولید تصویر نیازی به نمودارها نبود، اما اکنون آنها را محفظه ای از دانش در مورد صحنه کرده اند. جایزه بهترین مقاله افتخاری بر اساس نتایج ICCV نیز برنده این مقاله شد
شناسایی مجدد افراد و خودروها با احتساب جمعیت (!)
مقالات زیادی به ردیابی افراد و شناسایی مجدد افراد و ماشین ها اختصاص داده شده است. اما چیزی که ما را شگفت زده کرد، مجموعه ای از مقالات در مورد جمعیت شماری بود که همه از چین بودند.
پوسترها
اما فیس بوک، برعکس، عکس را ناشناس می کند. و این کار را به شیوهای جالب انجام میدهد: شبکه عصبی را آموزش میدهد تا چهرهای بدون جزئیات منحصربهفرد ایجاد کند - مشابه، اما نه چندان مشابه که بتوان آن را به درستی توسط سیستمهای تشخیص چهره شناسایی کرد.
حفاظت در برابر حملات متخاصم
با توسعه برنامه های بینایی رایانه ای در دنیای واقعی (در اتومبیل های خودران، در تشخیص چهره)، سؤال در مورد قابلیت اطمینان چنین سیستم هایی به طور فزاینده ای مطرح می شود. برای استفاده کامل از CV، باید مطمئن باشید که سیستم در برابر حملات متخاصم مقاوم است - به همین دلیل است که مقالاتی در مورد محافظت در برابر آنها کمتر از خود حملات وجود ندارد. کارهای زیادی روی توضیح پیشبینیهای شبکه (نقشه برجسته) و اندازهگیری اعتماد به نتیجه انجام شده است.
وظایف ترکیبی
در اکثر وظایف با یک هدف، امکانات بهبود کیفیت عملاً به پایان می رسد؛ یکی از جهت گیری های جدید برای افزایش بیشتر کیفیت، آموزش شبکه های عصبی برای حل چندین مشکل مشابه به طور همزمان است. مثال ها:
- پیش بینی عمل + پیش بینی جریان نوری،
- ارائه ویدئو + ارائه زبان (
-
همچنین مقالاتی در مورد تقسیم بندی، تعیین ژست و شناسایی مجدد حیوانات وجود دارد!
نکات برجسته
تقریباً همه مقالات از قبل شناخته شده بودند، متن در arXiv.org در دسترس بود. بنابراین، ارائه آثاری مانند Everybody Dance Now، FUNIT، Image2StyleGAN نسبتاً عجیب به نظر می رسد - اینها آثار بسیار مفیدی هستند، اما جدید نیستند. به نظر می رسد که روند کلاسیک انتشارات علمی در اینجا شکسته می شود - علم خیلی سریع در حال حرکت است.
تعیین بهترین آثار بسیار دشوار است - تعداد زیادی از آنها وجود دارد، موضوعات متفاوت است. چندین مقاله دریافت شد
ما می خواهیم کارهایی را برجسته کنیم که از نظر دستکاری تصویر جالب هستند، زیرا این موضوع ماست. آنها برای ما کاملاً تازه و جالب بودند (ما تظاهر به عینی بودن نمی کنیم).
SinGAN (جایزه بهترین مقاله) و InGAN
SingGAN:
InGAN:
توسعه ایده قبلی تصویر عمیق از دیمیتری اولیانوف، آندره آ ودالدی و ویکتور لمپیتسکی. به جای آموزش یک GAN بر روی یک مجموعه داده، شبکه ها از قطعات یک تصویر یاد می گیرند تا آمار درون آن را به خاطر بسپارند. شبکه آموزش دیده به شما امکان می دهد عکس ها را ویرایش و متحرک کنید (SinGAN) یا تصاویر جدیدی با هر اندازه ای از بافت های تصویر اصلی ایجاد کنید و ساختار محلی (InGAN) را حفظ کنید.
SingGAN:
InGAN:
مشاهده آنچه که یک GAN نمی تواند ایجاد کند
شبکههای عصبی که تصاویر تولید میکنند اغلب بردار نویز تصادفی را به عنوان ورودی میگیرند. در یک شبکه آموزشدیده، بسیاری از بردارهای ورودی فضایی را تشکیل میدهند، حرکات کوچکی که در طول آن منجر به تغییرات کوچکی در تصویر میشود. با استفاده از بهینه سازی، می توانید مسئله معکوس را حل کنید: یک بردار ورودی مناسب برای یک عکس از دنیای واقعی پیدا کنید. نویسنده نشان می دهد که تقریباً هرگز نمی توان یک تصویر کاملاً منطبق را در یک شبکه عصبی پیدا کرد. برخی از اشیاء در تصویر تولید نمی شوند (ظاهراً به دلیل تنوع زیاد این اشیاء).
نویسنده فرض می کند که GAN کل فضای تصاویر را پوشش نمی دهد، بلکه فقط برخی از زیر مجموعه ها را پوشش می دهد که با سوراخ هایی مانند پنیر پر شده اند. وقتی سعی می کنیم عکس هایی از دنیای واقعی در آن پیدا کنیم، همیشه شکست می خوریم، زیرا GAN هنوز هم عکس های کاملا واقعی تولید نمی کند. تنها با تغییر وزن شبکه، یعنی با آموزش مجدد آن برای یک عکس خاص، می توان بر تفاوت بین تصاویر واقعی و تولید شده غلبه کرد.
هنگامی که شبکه برای یک عکس خاص آموزش داده می شود، می توانید دستکاری های مختلفی را با این تصویر امتحان کنید. در مثال زیر، یک پنجره به عکس اضافه شد و شبکه علاوه بر این بازتاب هایی را در واحد آشپزخانه ایجاد کرد. این بدان معنی است که شبکه حتی پس از آموزش های اضافی برای عکاسی، توانایی دیدن ارتباط بین اشیاء در صحنه را از دست نداد.
GANAlyze: به سوی تعاریف بصری ویژگی های تصویر شناختی
با استفاده از رویکرد این کار، می توانید آنچه را که شبکه عصبی آموخته است تجسم و تجزیه و تحلیل کنید. نویسندگان پیشنهاد میکنند که GAN را برای ایجاد تصاویری که شبکه پیشبینیهای مشخصی را برای آنها ایجاد کند، آموزش دهند. این مقاله از چندین شبکه به عنوان مثال استفاده کرد، از جمله MemNet، که خاطرهانگیز بودن عکس را پیشبینی میکند. معلوم شد که برای به خاطر سپردن بهتر، شیء موجود در عکس باید:
- به مرکز نزدیکتر باشد
- دارای شکل گردتر یا مربعی و ساختاری ساده،
- روی یک پس زمینه یکنواخت باشد،
- حاوی چشم های رسا (حداقل برای عکس های سگ)،
- روشن تر، اشباع تر، در برخی موارد قرمزتر باشد.
Liquid Warping GAN: چارچوب یکپارچه برای تقلید حرکت انسان، انتقال ظاهر و ترکیب نمای بدیع
خط لوله برای تولید عکس افراد در یک زمان. نویسندگان نمونه های موفقی از انتقال حرکت یک فرد به فرد دیگر، انتقال لباس بین افراد و ایجاد زوایای جدید از یک فرد - همه از یک عکس را نشان می دهند. برخلاف کارهای قبلی، در اینجا از نقاط کلیدی در حالت دو بعدی (ژست) استفاده نمی کنیم، بلکه از یک مش سه بعدی بدنه (ژست + شکل) برای ایجاد شرایط استفاده می کنیم. نویسندگان همچنین نحوه انتقال اطلاعات از تصویر اصلی به تصویر تولید شده (Liquid Warping Block) را کشف کردند. نتایج مناسب به نظر می رسند، اما وضوح تصویر حاصل تنها 2x3 است. برای مقایسه، vid256vid که یک سال پیش ظاهر شد، قادر به تولید با وضوح 256x2 است، اما به عنوان مجموعه داده به 2048 دقیقه فیلمبرداری نیاز دارد.
FSGAN: مبادله و بازسازی صورت آگنوستیک موضوعی
در ابتدا به نظر می رسد که هیچ چیز غیرعادی وجود ندارد: یک دیپ فیک با کیفیت کم و بیش عادی. اما دستاورد اصلی کار، جایگزینی چهره ها از یک عکس است. بر خلاف کارهای قبلی، آموزش روی بسیاری از عکس های یک شخص خاص مورد نیاز بود. خط لوله دست و پا گیر بود (بازآفرینی و تقسیم بندی، درونیابی نمایش، رنگ آمیزی، ترکیب) و با هک های فنی فراوان، اما نتیجه ارزشش را دارد.
تشخیص موارد غیرمنتظره از طریق سنتز مجدد تصویر
چگونه یک پهپاد می تواند بفهمد که یک شی به طور ناگهانی در مقابل آن ظاهر شده است که در هیچ کلاس تقسیم بندی معنایی قرار نمی گیرد؟ چندین روش وجود دارد، اما نویسندگان یک الگوریتم جدید و شهودی را پیشنهاد میکنند که بهتر از نسخههای قبلی خود کار میکند. تقسیم بندی معنایی از تصویر جاده ورودی پیش بینی می شود. به عنوان ورودی به GAN (pix2pixHD)، که سعی می کند تصویر اصلی را فقط از نقشه معنایی بازیابی کند، تغذیه می شود. ناهنجاری هایی که در هیچ یک از بخش ها قرار نمی گیرند، به طور قابل توجهی در خروجی و تصویر تولید شده متفاوت خواهند بود. سپس سه تصویر (اصلی، تقسیمبندی و بازسازیشده) به شبکه دیگری وارد میشوند که ناهنجاریها را پیشبینی میکند. مجموعه داده برای این از مجموعه داده معروف Cityscapes تولید شد و به طور تصادفی کلاسهای تقسیمبندی معنایی را تغییر داد. جالب اینجاست که در این تنظیمات، سگی که در وسط جاده ایستاده است، اما به درستی قطعه بندی شده است (یعنی یک کلاس برای آن وجود دارد)، یک ناهنجاری نیست، زیرا سیستم قادر به تشخیص آن بود.
نتیجه
قبل از کنفرانس، مهم است که بدانید علایق علمی شما چیست، در چه سخنرانی هایی می خواهید شرکت کنید و با چه کسی صحبت کنید. سپس همه چیز بسیار سازنده تر خواهد بود.
ICCV قبل از هر چیز شبکه است. شما درک می کنید که موسسات برتر و بخش های علمی برتر وجود دارد، شما شروع به درک این موضوع می کنید، با مردم آشنا می شوید. و می توانید مقالاتی را در arXiv بخوانید - و به هر حال، بسیار جالب است که برای کسب دانش نیازی به رفتن به جایی ندارید.
علاوه بر این، در کنفرانس می توانید عمیقاً در موضوعاتی که به شما نزدیک نیستند غوطه ور شوید و روندها را ببینید. خوب، فهرستی از مقالات برای خواندن بنویسید. اگر دانش آموز هستید، این فرصتی است برای شما که با یک معلم بالقوه آشنا شوید، اگر اهل صنعت هستید، سپس با یک کارفرمای جدید و اگر یک شرکت هستید، پس خود را نشان دهید.
مشترک شدن در
منبع: www.habr.com