Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Компьютерлік көрудегі нейрондық желілер белсенді дамып келеді, көптеген мәселелер әлі де шешілмейді. Өз салаңызда трендте болу үшін Twitter-дегі ықпал етушілерді қадағалаңыз және arXiv.org сайтындағы сәйкес мақалаларды оқыңыз. Бірақ бізде 2019 жылы компьютерлік көру бойынша халықаралық конференцияға бару мүмкіндігі болды. Биыл ол Оңтүстік Кореяда өтіп жатыр. Енді біз Хабр оқырмандарымен көрген-білгенімізді бөліскіміз келеді.

Онда Яндекстен біз көп болдык: өзін-өзі басқаратын көліктерді жасаушылар, зерттеушілер және қызметтерде түйіндеме тапсырмаларымен айналысатындар келді. Бірақ қазір біз өз командамыздың аздап субъективті көзқарасын ұсынғымыз келеді - Machine Intelligence Laboratory (Yandex MILAB). Басқа жігіттер конференцияға өз қырынан қараса керек.

Зертхана не істейді?Біз ойын-сауық мақсатында бейнелер мен музыканы генерациялауға қатысты эксперименттік жобаларды жасаймыз. Бізді әсіресе пайдаланушыдан мазмұнды өзгертуге мүмкіндік беретін нейрондық желілер қызықтырады (фотосуреттер үшін бұл тапсырма кескінді өңдеу деп аталады). Мысал: YaC 2019 конференциясындағы жұмысымыздың нәтижесі.
Ғылыми конференциялар өте көп, бірақ ең маңыздылары әдетте ең қызықты және маңызды технологиялар туралы мақалалар жарияланатын А* конференциялары деп аталады. A* конференцияларының нақты тізімі жоқ, мұнда шамамен және толық емес тізім: NeurIPS (бұрынғы NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Соңғы үшеуі түйіндеме тақырыбына маманданған.

ICCV бір қарағанда: плакаттар, оқулықтар, семинарлар, стендтер

Конференцияға 1075 баяндама келіп түсті, 7500 қатысушы.Ресейден 103 адам келді, Яндекс, Сколтех, Samsung AI орталығы Мәскеу және Самара университеті қызметкерлерінің мақалалары болды. Биыл ICCV-ге көптеген жетекші зерттеушілер келмеді, бірақ, мысалы, Алексей (Алеша) Ефрос, ол әрқашан көптеген адамдарды тартады:

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Статистика Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Осындай конференциялардың барлығында мақалалар постер түрінде ұсынылады (көбірек пішімі туралы), ал үздіктері де қысқаша есептер түрінде берілген.

Міне, Ресейден келген кейбір туындылар Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Оқулықтардың көмегімен белгілі бір пән саласына сүңгуге болады; бұл университеттегі лекцияны еске түсіреді. Оны әдетте нақты шығармалар туралы айтпай-ақ бір адам оқиды. Керемет оқулықтың мысалы (Майкл Браун, Түсті түсіну және компьютерлік көру үшін камерадағы кескінді өңдеу құбыры):

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Семинарларда, керісінше, мақалалар туралы айтады. Әдетте бұл қандай да бір тар тақырыптағы жұмыстар, студенттердің соңғы жұмыстары туралы зертхана меңгерушілерінің әңгімелері немесе негізгі конференцияға қабылданбаған мақалалар.

Демеуші компаниялар ICCV-ге стендтермен келеді. Осы жылы Google, Facebook, Amazon және басқа да көптеген халықаралық компаниялар келді, сонымен қатар көптеген стартаптар - корей және қытай. Әсіресе деректерді белгілеуге маманданған көптеген стартаптар болды. Стендтерде қойылымдар бар, сіз тауар алып, сұрақтар қоя аласыз. Аңшылық мақсатында демеуші компаниялар кештер өткізеді. Егер сіз рекрутерлерді сізді қызықтыратындығыңызға және сұхбаттардан өтуге болатындығына сендірсеңіз, сіз оларға кіре аласыз. Егер сіз мақала жариялаған болсаңыз (немесе оны ұсынған болсаңыз), PhD докторантурасын бастаған болсаңыз немесе аяқтасаңыз, бұл плюс, бірақ кейде компания инженерлеріне қызықты сұрақтар қою арқылы стендте келіссөздер жүргізе аласыз.

Трендтер

Конференция түйіндеменің толық өрісін қарауға мүмкіндік береді. Белгілі бір тақырыптағы постер саны бойынша тақырыптың қаншалықты қызу екенін бағалауға болады. Кейбір қорытындылар түйінді сөздерге негізделген:

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Нөлдік ату, бір ату, аз ату, өзін-өзі бақылау және жартылай бақылау: ұзақ уақыт бойы зерттелген тапсырмаларға жаңа тәсілдер

Адамдар деректерді тиімдірек пайдалануды үйренеді. Мысалы, в ФУНИТ оқу жинағында болмаған жануарлардың мимикасын жасауға болады (қолдануда, бірнеше анықтамалық суреттерді беру арқылы). Deep Image Prior идеялары әзірленді, енді GAN желілерін бір суретте оқытуға болады - бұл туралы төменде айтатын боламыз. маңызды сәттерде. Өзін-өзі бақылауды алдын ала жаттығу үшін (суреттің айналу бұрышын болжау сияқты тураланған деректерді синтездеуге болатын мәселені шешу) немесе белгіленген және таңбаланбаған деректерден бір уақытта үйренуге болады. Осы тұрғыдан мақаланы жаратылыс тәжі деуге болады S4L: Өзін-өзі басқаратын жартылай бақылаудағы оқыту. Міне, ImageNet-те алдын ала тренинг әрдайым емес көмектеседі.

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

3D және 360°

Көбінесе фотосуреттер үшін шешілген мәселелер (сегменттеу, анықтау) 3D үлгілері мен панорамалық бейнелер үшін қосымша зерттеулерді қажет етеді. Біз RGB және RGB-D 3D форматына түрлендіру туралы көптеген мақалаларды көрдік. Адам позасын бағалау сияқты кейбір мәселелерді 3D үлгілеріне көшу арқылы табиғи түрде шешуге болады. Бірақ XNUMXD модельдерін тор, нүктелік бұлт, воксель немесе SDF түрінде қалай көрсету керектігі туралы әлі консенсус жоқ. Міне, тағы бір нұсқа:

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Панорамаларда сферадағы конвульсиялар белсенді дамып келеді (қараңыз. Икосаэдр сфераларында бағдарланған семантикалық сегментация) және кадрдағы негізгі нысандарды іздеңіз.

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Позаны анықтау және адам қозғалысын болжау

2D режимінде позаны анықтауда ілгерілеушіліктер болды - енді назар бірнеше камералармен және 3D режимінде жұмыс істеуге ауысты. Мысалы, адам денесі арқылы өтетін Wi-Fi сигналындағы өзгерістерді қадағалау арқылы қабырға арқылы қаңқаны да анықтауға болады.

Қолдың негізгі нүктелерін анықтау саласында көп жұмыс жасалды. Жаңа деректер жинақтары пайда болды, соның ішінде екі адам арасындағы диалогтар бейнелеріне негізделген - енді сіз сөйлесудің аудио немесе мәтінінен қол қимылдарын болжай аласыз! Дәл осындай ілгерілеу көзді бақылау тапсырмаларында (көзді бағалау) орындалды.

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Сондай-ақ адам қозғалысын болжаумен байланысты жұмыстардың үлкен кластерін анықтауға болады (мысалы, Кеңістік-уақыттық бояу арқылы адамның қозғалысын болжау немесе Құрылымдық болжау адамның 3D қозғалысын модельдеуге көмектеседі). Тапсырма маңызды және авторлармен әңгімелесуге негізделген, көбінесе автономды жүргізу кезінде жаяу жүргіншілердің мінез-құлқын талдау үшін қолданылады.

Фотосуреттер мен бейнелердегі адамдармен манипуляциялар, виртуалды фитинг бөлмелері

Негізгі тренд - интерпретацияланатын параметрлерге сәйкес бет кескіндерін өзгерту. Идеялар: бір суретке негізделген deepfake, бет әлпетіне негізделген өрнекті өзгерту (Қуыршақ ГАН), алға жіберу — параметрлерді өзгерту (мысалы, жас). Стильдік трансферттер тақырып тақырыбынан шығарманың қолданылуына көшті. Виртуалды монтаждау бөлмелері - бұл басқа оқиға; олар әрдайым дерлік нашар жұмыс істейді, міне мысал демонстрациялар.

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Эскиз/графиктерден құру

«Тордың алдыңғы тәжірибеге негізделген бірдеңе жасауына рұқсат етіңіз» идеясының дамуы тағы бір болды: «Бізді қай опция қызықтыратынын торды көрсетейік».

SC-FEGAN бағдарланған бояуды жасауға мүмкіндік береді: пайдаланушы суреттің өшірілген аймағында бет бөлігін бояуды аяқтай алады және аяқталуына байланысты қалпына келтірілген суретті ала алады.

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

ICCV-ге арналған 25 Adobe мақаласының бірі екі GAN біріктіреді: біреуі пайдаланушы үшін эскизді аяқтайды, екіншісі эскизден фотореалистік кескінді жасайды (жоба беті).

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Бұрын графиктер кескінді құру үшін қажет емес еді, бірақ қазір олар көрініс туралы білім контейнеріне айналды. Сондай-ақ ICCV нәтижелері бойынша «Үздік мақаланың құрметті марапаттары» марапатын мақала жеңіп алды Интерактивті көріністі құруда нысан атрибуттары мен қатынастарды көрсету. Жалпы, оларды әртүрлі тәсілдермен қолдануға болады: суреттерден графиктер құру немесе графиктерден суреттер мен мәтіндерді құру.

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Адамдар мен көліктерді қайта сәйкестендіру, жиналғандардың санын санау (!)

Көптеген мақалалар адамдарды қадағалауға және адамдар мен машиналарды қайта анықтауға арналған. Бірақ бізді таң қалдырғаны – Қытайдан келген халықты санау туралы көптеген мақалалар.

Плакаттар Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері
Бірақ Facebook, керісінше, фотоны анонимдейді. Және бұл мұны қызықты түрде жасайды: ол нейрондық желіні бірегей бөлшектері жоқ бетті генерациялауға үйретеді - ұқсас, бірақ оны бетті тану жүйелері арқылы дұрыс анықтауға болатындай ұқсас емес.

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Қарсылас шабуылдардан қорғау

Нақты әлемде компьютерлік көру қосымшаларының дамуымен (өзін-өзі басқаратын автомобильдерде, бет-әлпетті тануда) мұндай жүйелердің сенімділігі туралы мәселе барған сайын туындайды. Түйіндемені толығымен пайдалану үшін жүйенің қарсыластық шабуылдарына төзімді екеніне сенімді болуыңыз керек - сондықтан олардан қорғау туралы мақалалар шабуылдардың өздері туралы емес. Желілік болжамдарды түсіндіру (салықтық картасы) және нәтижеге сенімділікті өлшеу бойынша көп жұмыс жүргізілді.

Біріктірілген тапсырмалар

Бір мақсатты тапсырмалардың көпшілігінде сапаны жақсарту мүмкіндіктері іс жүзінде таусылған, сапаны одан әрі арттырудың жаңа бағыттарының бірі нейрондық желілерді бірнеше ұқсас мәселелерді бір уақытта шешуге үйрету болып табылады. Мысалдар:
— әрекетті болжау + оптикалық ағынды болжау,
— бейне презентация + тілдік презентация (БейнеБЕРТ),
- жоғары ажыратымдылық + HDR.

Сондай-ақ сегменттеу, позаны анықтау және жануарларды қайта сәйкестендіру туралы мақалалар бар!

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Маңызды жерлер

Барлық дерлік мақалалар алдын ала белгілі болды, мәтін arXiv.org сайтында болды. Сондықтан Everybody Dance Now, FUNIT, Image2StyleGAN сияқты жұмыстардың тұсаукесері біртүрлі болып көрінеді - бұл өте пайдалы жұмыстар, бірақ жаңа емес. Бұл жерде ғылыми басылымдардың классикалық процесі бұзылып жатқан сияқты – ғылым тым жылдам жүріп жатыр.

Ең жақсы жұмыстарды анықтау өте қиын - олардың саны көп, тақырыптары әртүрлі. Бірнеше мақалалар алынды марапаттары мен атақтары.

Біз суретті манипуляциялау тұрғысынан қызықты жұмыстарды атап өткіміз келеді, өйткені бұл біздің тақырыбымыз. Олар біз үшін өте жаңа және қызықты болды (біз объективті деп көрсетпейміз).

SinGAN (үздік қағаз сыйлығы) және InGAN

Синган: жоба беті, arXiv, код.
Инган: жоба беті, arXiv, код.

Терең бейнені дамыту Дмитрий Ульянов, Андреа Ведалди және Виктор Лемпицкийдің алдыңғы идеясы. Деректер жиынында GAN-ды оқытудың орнына, желілер оның ішіндегі статистиканы есте сақтау үшін бір суреттің фрагменттерінен үйренеді. Оқытылған желі жергілікті құрылымды (InGAN) сақтай отырып, фотосуреттерді өңдеуге және жандандыруға (SinGAN) немесе түпнұсқа кескіннің текстурасынан кез келген өлшемдегі жаңа кескіндерді жасауға мүмкіндік береді.

Синган:

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Инган:

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

GAN не жасай алмайтынын көру

Жоба беті.

Кескіндерді жасайтын нейрондық желілер жиі кездейсоқ шу векторын кіріс ретінде қабылдайды. Оқытылған желіде көптеген кіріс векторлары кеңістікті құрайды, олардың бойындағы шағын қозғалыстар суреттегі шағын өзгерістерге әкеледі. Оңтайландыруды пайдалана отырып, сіз кері есепті шеше аласыз: нақты әлемнен сурет үшін қолайлы кіріс векторын табыңыз. Автор нейрондық желіде толығымен сәйкес келетін суретті табу ешқашан мүмкін емес екенін көрсетеді. Суреттегі кейбір нысандар жасалмайды (шамасы, бұл нысандардың үлкен өзгергіштігіне байланысты).

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Автор GAN кескіндердің барлық кеңістігін қамтымайды, бірақ ірімшік сияқты тесіктермен толтырылған кейбір ішкі жиынтықты ғана болжайды. Біз ондағы нақты әлемнен фотосуреттерді табуға тырысқанда, біз әрқашан сәтсіздікке ұшыраймыз, өйткені GAN әлі де толығымен нақты емес фотосуреттерді жасайды. Нақты және генерацияланған суреттер арасындағы айырмашылықтарды желінің салмақтарын өзгерту арқылы ғана жеңуге болады, яғни оны белгілі бір фотосуретке қайта даярлау арқылы.

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Желі белгілі бір фотосуретке қосымша дайындалған кезде, сіз осы суретпен әртүрлі манипуляцияларды жасай аласыз. Төмендегі мысалда фотосуретке терезе қосылды және желі ас үй бөлігінде қосымша шағылыстар жасады. Бұл желі суретке түсіру бойынша қосымша жаттығулардан кейін де сахнадағы объектілер арасындағы байланысты көру мүмкіндігін жоғалтпағанын білдіреді.

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

GANAlyze: когнитивтік кескін қасиеттерінің визуалды анықтамаларына

Жоба беті, arXiv.

Осы жұмыстағы тәсілді пайдалана отырып, сіз нейрондық желі не үйренгенін көзбен көріп, талдай аласыз. Авторлар GAN-ды желі белгілі болжамдар жасайтын суреттер жасауға үйретуді ұсынады. Мақалада мысалдар ретінде бірнеше желі қолданылған, соның ішінде фотосуреттің есте қалуын болжайтын MemNet. Жақсырақ есте қалу үшін фотодағы нысан мыналар болуы керек екені белгілі болды:

  • орталыққа жақынырақ болыңыз
  • дөңгелек немесе шаршы пішіні және қарапайым құрылымы бар,
  • біркелкі фонда болу,
  • мәнерлі көздері бар (кем дегенде ит фотолары үшін),
  • жарқынырақ, қаныққан, кейбір жағдайларда қызылырақ болады.

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Liquid Warping GAN: Адам қозғалысына еліктеу, сыртқы көріністі тасымалдау және жаңа көрініс синтезі үшін бірыңғай негіз

Жоба беті, arXiv, код.

Бір уақытта адамдардың фотосуреттерін жасауға арналған құбыр желісі. Авторлар бір адамның қозғалысын екіншісіне ауыстырудың, адамдар арасындағы киімдерді ауыстырудың және адамның жаңа бұрыштарын жасаудың сәтті мысалдарын көрсетеді - барлығы бір фотосуреттен. Алдыңғы жұмыстардан айырмашылығы, мұнда жағдай жасау үшін 2D (поза) негізгі нүктелерін емес, 3D дене торын (поза + пішін) пайдаланамыз. Сондай-ақ авторлар ақпаратты бастапқы кескіннен жасалған кескінге (Liquid Warping Block) қалай тасымалдау керектігін анықтады. Нәтижелер лайықты көрінеді, бірақ алынған кескіннің рұқсаты тек 256x256. Салыстыру үшін, бір жыл бұрын пайда болған vid2vid 2048x1024 ажыратымдылықта жасауға қабілетті, бірақ ол деректер жиынтығы ретінде 10 минуттық бейне жазуды қажет етеді.

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

FSGAN: Субъектінің агностикалық бет-әлпетін ауыстыру және қайта жаңғырту

Жоба беті, arXiv.

Алғашында ерекше ештеңе жоқ сияқты: сапасы көп немесе аз қалыпты терең фейк. Бірақ жұмыстың басты жетістігі - бір суреттегі беттерді алмастыру. Алдыңғы жұмыстардан айырмашылығы, белгілі бір адамның көптеген фотосуреттері бойынша оқыту қажет болды. Құбыр өте қиын болды (қайтадан шығару және сегменттеу, интерполяцияны қарау, бояу, араластыру) және көптеген техникалық бұзулармен, бірақ нәтиже тұрарлық.

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

Кескінді қайта синтездеу арқылы күтпегенді анықтау

arXiv.

Кез келген семантикалық сегментация класына жатпайтын нысанның оның алдында кенеттен пайда болғанын дрон қалай түсінуге болады? Бірнеше әдістер бар, бірақ авторлар алдыңғыларға қарағанда жақсы жұмыс істейтін жаңа, интуитивті алгоритмді ұсынады. Семантикалық сегментация жолдың кіріс кескінінен болжалады. Ол бастапқы кескінді тек семантикалық картадан қалпына келтіруге тырысатын GAN (pix2pixHD) кірісі ретінде беріледі. Сегменттердің ешқайсысына түспейтін аномалиялар шығыс пен жасалған кескінде айтарлықтай ерекшеленеді. Содан кейін үш кескін (түпнұсқа, сегменттеу және қайта құрастырылған) ауытқуларды болжайтын басқа желіге беріледі. Бұл үшін деректер жиынтығы семантикалық сегментациядағы сыныптарды кездейсоқ өзгерте отырып, белгілі Cityscapes деректер жинағынан жасалды. Бір қызығы, бұл жағдайда жолдың ортасында тұрған, бірақ дұрыс сегменттелген ит (бұл оның класы бар дегенді білдіреді) аномалия емес, өйткені жүйе оны тани алды.

Компьютерлік көру тенденциялары. ICCV 2019 маңызды сәттері

қорытынды

Конференция алдында сіздің ғылыми қызығушылықтарыңыз қандай екенін, қандай презентацияларға қатысқыңыз келетінін және кіммен сөйлесу керектігін білу маңызды. Сонда бәрі әлдеқайда өнімді болады.

ICCV - бұл, ең алдымен, желі. Сіз жоғарғы институттар мен жетекші ғылыми кафедралар бар екенін түсінесіз, сіз мұны түсіне бастайсыз, адамдармен танысасыз. Сіз arXiv сайтында мақалаларды оқи аласыз - және айтпақшы, білім алу үшін ешқайда барудың қажеті жоқ өте керемет.

Сонымен қатар, конференцияда өзіңізге жақын емес тақырыптарға терең бойлап, трендтерді көре аласыз. Оқылатын мақалалар тізімін жазыңыз. Егер сіз студент болсаңыз, бұл сізге әлеуетті мұғаліммен кездесуге, егер сіз саладан болсаңыз, онда жаңа жұмыс берушімен, ал компания болса, өзіңізді көрсетуге мүмкіндік береді.

жазылу @loss_function_porn! Бұл жеке жоба: біз онымен бірге жетекшілік етеміз карфли. Конференция барысында ұнаған жұмыстардың барлығын осында орналастырдық: @loss_function_live.

Ақпарат көзі: www.habr.com

пікір қалдыру