Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Neŭralaj retoj en komputila vizio aktive disvolviĝas, multaj problemoj ankoraŭ estas malproksimaj de esti solvitaj. Por esti en tendenco en via kampo, simple sekvu influantojn en Twitter kaj legu koncernajn artikolojn en arXiv.org. Sed ni havis la ŝancon iri al la Internacia Konferenco pri Komputila Vidado (ICCV) 2019. Ĉi-jare ĝi okazas en Sud-Koreio. Nun ni volas dividi kun Habr-legantoj tion, kion ni vidis kaj lernis.

От Яндекса нас там было много: приехали разработчики беспилотного автомобиля, исследователи, те, кто занимается задачами CV в сервисах. Но сейчас мы хотим представить немного субъективную точку зрения нашей команды — лаборатории машинного интеллекта (Yandex MILAB). Другие ребята наверняка смотрели на конференцию под своим углом.

Kion faras la laboratorio?Ni faras eksperimentajn projektojn rilatajn al la generacio de bildoj kaj muziko por distraj celoj. Ni precipe interesiĝas pri neŭralaj retoj, kiuj permesas vin ŝanĝi enhavon de la uzanto (por fotoj, ĉi tiu tasko nomiĝas bildmanipulado). Ekzemplo: la rezulto de nia laboro de la konferenco YaC 2019.
Estas multe da sciencaj konferencoj, sed elstaras la plej bonaj, la tiel nomataj A*-konferencoj, kie oni kutime eldonas artikolojn pri la plej interesaj kaj gravaj teknologioj. Ne ekzistas preciza listo de A*-konferencoj, jen proksimuma kaj nekompleta listo: NeurIPS (antaŭe NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. La lastaj tri specialiĝas pri la CV-temo.

ICCV ĉe ekrigardo: afiŝoj, lerniloj, laborrenkontiĝoj, standoj

La konferenco ricevis 1075 artikolojn, estis partoprenantoj 7500. Venis 103 homoj el Rusio, estis artikoloj de dungitoj de Yandex, Skoltech, Samsung AI Center Moskvo kaj Samara University. Ĉi-jare, ne multaj ĉefaj esploristoj vizitis ICCV, sed, ekzemple, Aleksej (Aljoŝa) Efros, kiu ĉiam altiras multajn homojn:

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Статистика Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Ĉe ĉiuj tiaj konferencoj, artikoloj estas prezentitaj en formo de afiŝoj (pli da informoj pri la formato), kaj la plej bonaj estas ankaŭ prezentitaj en formo de mallongaj raportoj.

Jen kelkaj el la verkoj el Rusio Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Kun lerniloj vi povas plonĝi en apartan temon; ĝi memorigas pri prelego en universitato. Ĝin legas unu persono, kutime sen paroli pri specifaj verkoj. Ekzemplo de bonega lernilo (Michael Brown, Understanding Colour and the In-Camera Image Processing Pipeline for Computer Vision):

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

На воркшопах, напротив, рассказывают про статьи. Обычно это работы в какой-то узкой теме, рассказы от руководителей лабораторий о всех последних работах студентов, либо статьи, которые не были приняты на основную конференцию.

Sponsorantaj kompanioj venas al ICCV kun standoj. Ĉi-jare venis Guglo, Fejsbuko, Amazon kaj multaj aliaj internaciaj kompanioj, kaj ankaŭ granda nombro da noventreprenoj – koreaj kaj ĉinaj. Estis precipe multaj noventreprenoj, kiuj specialiĝis pri datumetikedado. Estas prezentoj ĉe la standoj, vi povas preni varojn kaj demandi demandojn. Por ĉasceloj, sponsorantaj kompanioj havas festojn. Vi povas eniri ilin se vi konvinkas rekrutintojn, ke vi interesiĝas kaj ke vi eble povas pasigi intervjuojn. Se vi publikigis artikolon (aŭ, krome, prezentis ĝin), komencis aŭ finas PhD, tio estas pluso, sed foje vi povas negoci ĉe la stando farante interesajn demandojn al la inĝenieroj de la firmao.

Tendencoj

La konferenco permesas al vi rigardi la tutan CV-kampon. Laŭ la nombro da afiŝoj pri aparta temo, vi povas taksi kiom varma estas la temo. Iuj konkludoj sugestas sin surbaze de la ŝlosilvortoj:

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Nul-pafo, unu-pafo, malmultaj-pafoj, mem-kontrolita kaj duon-kontrolita: novaj aliroj al longe studitaj taskoj

Homoj lernas uzi datumojn pli efike. Ekzemple, en AMUZO можно генерировать выражение лиц животных, которых не было в обучающей выборке (в применении подавая несколько референсных картинок). Идеи Deep Image Prior получили развитие, и теперь сети GAN удаётся обучать на одной картинке — мы ещё расскажем об этом ниже en kulminaĵoj. Можно использовать self-supervision для предобучения (решая задачу, для которой можно синтезировать выровненные данные, например предсказывать угол поворота картинки) или учиться одновременно на размеченных и неразмеченных данных. В этом смысле венцом творения можно считать статью S4L: Mem-kontrolita Duonkontrolita Lernado. Kaj jen la antaŭtrejnado ĉe ImageNet ne ĉiam helpas.

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

3D kaj 360°

Problemoj, kiuj estis plejparte solvitaj por fotoj (segmentado, detekto) postulas plian esploradon por 3D-modeloj kaj panoramaj filmetoj. Ni vidis multajn artikolojn pri konvertado de RGB kaj RGB-D al 3D. Kelkaj problemoj, kiel homa pozotakso, povas esti solvitaj pli nature per moviĝado al 3D modeloj. Sed ankoraŭ ne ekzistas konsento pri kiel ĝuste reprezenti XNUMXD-modelojn - en la formo de maŝo, punktonubo, vokseloj aŭ SDF. Jen alia opcio:

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

En panoramoj, kunvolucioj sur la sfero aktive disvolviĝas (vidu. Orientiĝo-konscia Semantika Segmentado sur Ikozaedraj Sferoj) kaj serĉu ŝlosilajn objektojn en la kadro.

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Pozo-detekto kaj homa movada prognozo

С тем, чтобы определять позу в 2D, уже есть успехи — теперь фокус сместился в сторону работы с несколькими камерами и в 3D. Ещё, например, можно определять скелет сквозь стену, отслеживая изменения в сигнале Wi-Fi при его прохождении сквозь тело человека.

Multe da laboro estis farita en la kampo de manklavpunktodetekto. Aperis novaj datumaroj, inkluzive de tiuj bazitaj sur filmetoj de dialogoj inter du homoj - nun vi povas antaŭdiri mangestojn el la aŭdo aŭ teksto de konversacio! La sama progreso estis farita en taskoj pri okulspurado (rigarda takso).

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Oni ankaŭ povas identigi grandan areton da verkoj ligitaj al homa movada prognozo (ekzemple, Human Motion Prediction via Spatio-Temporal InpaintingStrukturita Antaŭdiro Helpas 3D Homa Movada Modelado). La tasko estas grava kaj, surbaze de konversacioj kun la aŭtoroj, plej ofte estas uzata por analizi la konduton de piedirantoj en aŭtonoma veturado.

Manipuladoj kun homoj en fotoj kaj filmetoj, virtualaj vestoĉambroj

La ĉefa tendenco estas ŝanĝi vizaĝajn bildojn laŭ interpreteblaj parametroj. Ideoj: deepfalse bazita sur unu bildo, ŝanĝanta esprimon surbaze de vizaĝa bildigo (PuppetGAN), feedforward-изменение параметров (например, aĝo). Stilaj translokigoj moviĝis de la titolo de la temo al la aplikado de la verko. Virtualaj vestoĉambroj estas malsama rakonto; ili preskaŭ ĉiam funkcias malbone, jen ekzemplo демки.

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Generacio el skizoj/grafikaĵoj

La evoluo de la ideo "Lasu la kradon generi ion bazitan sur antaŭa sperto" fariĝis alia: "Ni montru al la krado, kiu opcio interesas nin."

SC-FEGAN permesas vin fari gviditan enpaintaĵon: la uzanto povas fini pentri parton de la vizaĝo en la forigita areo de la bildo kaj akiri restarigitan bildon depende de la kompletigo.

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Unu el 25 Adobe-artikoloj por ICCV kombinas du GANojn: unu kompletigas la skizon por la uzanto, la alia generas fotorealisman bildon el la skizo (projekto paĝo).

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Раньше в генерации изображений были не нужны графы, а теперь их сделали контейнером знаний о сцене. Награду Best Paper Honorable Mentions по итогам ICCV завоевала в том числе статья Specifante Objektajn Atributojn kaj Rilatojn en Interaga Scengeneracio. Ĝenerale, vi povas uzi ilin en malsamaj manieroj: generi grafikaĵojn el bildoj, aŭ bildojn kaj tekstojn el grafikaĵoj.

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Reidentigo de homoj kaj aŭtoj, kalkulante la grandecon de la homamaso (!)

Много статей посвящено трекингу людей и реидентификации людей и машин. Но что нас удивило, так это куча статей по подсчёту людей в толпе, и все из Китая.

Постеры Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj
Sed Fejsbuko, male, anonimigas la foton. Kaj ĝi faras tion en interesa maniero: ĝi trejnas la neŭralan reton por generi vizaĝon sen unikaj detaloj - simila, sed ne tiom simila ke ĝi povas esti ĝuste identigita per vizaĝrekonaj sistemoj.

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Protekto kontraŭ kontraŭaj atakoj

С развитием применений компьютерного зрения в реальном мире (в беспилотных авто, в распознавании лиц) всё чаще встает вопрос о надёжности таких систем. Для полноценного использования CV нужна уверенность, что система устойчива к adversarial-атакам — поэтому статей про защиту от них было не меньше, чем про сами атаки. Много работ было про объяснение предсказаний сетей (saliency map) и измерение уверенности в результате.

Совмещённые задачи

En la plej multaj taskoj kun unu celo, la eblecoj por plibonigi kvaliton estas preskaŭ elĉerpitaj; unu el la novaj indikoj por plia pliiĝanta kvalito estas instrui neŭralajn retojn solvi plurajn similajn problemojn samtempe. Ekzemploj:
- antaŭdiro de ago + antaŭdiro de optika fluo,
— videoprezento + lingva prezento (VideoBERT),
- super-rezolucio + HDR.

Estas ankaŭ artikoloj pri segmentado, pozodetermino kaj besta reidentigo!

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Elstaraĵoj

Preskaŭ ĉiuj artikoloj estis antaŭsciitaj, la teksto estis havebla ĉe arXiv.org. Tial, la prezento de tiaj verkoj kiel Everybody Dance Now, FUNIT, Image2StyleGAN ŝajnas sufiĉe stranga - ĉi tiuj estas tre utilaj verkoj, sed ne novaj. Ŝajnas, ke ĉi tie rompiĝas la klasika procezo de sciencaj publikaĵoj – tro rapide moviĝas scienco.

Определить лучшие работы очень сложно — их много, тематики разные. Несколько статей получили premioj kaj mencioj.

Мы хотим выделить работы, интересные с точки зрения манипуляции изображениями, так как это наша тема. Они оказались для нас достаточно свежими и интересными (мы не претендуем на объективность).

SinGAN (best paper award) и InGAN

SinGAN: projekto paĝo, arXiv, kodo.
InGAN: projekto paĝo, arXiv, kodo.

Evoluo de la Deep Image Antaŭa ideo de Dmitry Ulyanov, Andrea Vedaldi kaj Victor Lempitsky. Anstataŭ trejni GAN sur datumaro, la retoj lernas de fragmentoj de la sama bildo por memori la statistikojn en ĝi. La trejnita reto permesas redakti kaj vigligi fotojn (SinGAN) aŭ generi novajn bildojn de ajna grandeco el la teksturoj de la originala bildo, konservante la lokan strukturon (InGAN).

SinGAN:

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

InGAN:

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Seeing What a GAN Cannot Generate

Projekta Paĝo.

Neŭralaj retoj kiuj generas bildojn ofte prenas vektoron de hazarda bruo kiel enigaĵo. En trejnita reto, multaj enigvektoroj formas spacon, malgrandaj movoj laŭ kiuj kondukas al malgrandaj ŝanĝoj en la bildo. Per optimumigo, vi povas solvi la inversan problemon: trovi taŭgan enigvektoron por bildo de la reala mondo. La aŭtoro montras, ke preskaŭ neniam eblas trovi tute kongruan bildon en neŭrala reto. Kelkaj objektoj en la bildo ne estas generitaj (ŝajne pro la granda ŝanĝebleco de tiuj objektoj).

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

La aŭtoro hipotezas, ke GAN ne kovras la tutan spacon de bildoj, sed nur iun subaron, plenigitan per truoj, kiel fromaĝo. Kiam ni provos trovi en ĝi fotojn el la reala mondo, ni ĉiam malsukcesos, ĉar GAN ankoraŭ generas ne tute realajn fotojn. La diferencoj inter realaj kaj generitaj bildoj povas esti venkitaj nur ŝanĝante la pezojn de la reto, tio estas, retrejnante ĝin por specifa foto.

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Когда сеть дообучена под конкретное фото, можно пробовать проводить с этим изображением различные манипуляции. В примере ниже на фото добавили окно, и сеть дополнительно сгенерировала отблески на кухонном гарнитуре. Значит, сеть и после дообучения под фотографию не потеряла способность видеть связь между объектами сцены.

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

GANalyze: Al Vidaj Difinoj de Kognaj Bildaj Propraĵoj

Projekta Paĝo, arXiv.

С помощью подхода из этой работы можно визуализировать и анализировать, что выучила нейросеть. Авторы предлагают обучить GAN создавать картинки, для которых сеть будет генерировать заданные предсказания. В качестве примеров в статье использовали несколько сетей, в том числе MemNet, предсказывающий запоминаемость фото. Выяснилось, что для лучшей запоминаемости объект на фото должен:

  • estu pli proksime al la centro
  • havas pli rondan aŭ kvadratan formon kaj simplan strukturon,
  • находиться на однородном фоне,
  • enhavas esprimplenajn okulojn (almenaŭ por hundofotoj),
  • estu pli hela, pli saturita, en iuj kazoj, pli ruĝa.

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Liquid Warping GAN: Unuigita Kadro por Homa Movada Imito, Ŝajno-Translokigo kaj Romana Vida Sintezo

Projekta Paĝo, arXiv, kodo.

Dukto por generi fotojn de homoj po unu foton. La aŭtoroj montras sukcesajn ekzemplojn de translokado de la movado de unu persono al alia, translokado de vestaĵoj inter homoj kaj generado de novaj anguloj de homo - ĉio el unu foto. Male al antaŭaj verkoj, ĉi tie ni uzas ne ŝlosilajn punktojn en 2D (pozo), sed 3D-reton de la korpo (pozo + formo) por krei kondiĉojn. La aŭtoroj ankaŭ eltrovis kiel translokigi informojn de la originala bildo al la generita (Liquid Warping Block). La rezultoj aspektas decaj, sed la rezolucio de la rezulta bildo estas nur 256x256. Por komparo, vid2vid, kiu aperis antaŭ unu jaro, kapablas generi en rezolucio de 2048x1024, sed ĝi postulas eĉ 10 minutojn da videoregistrado kiel datumaro.

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

FSGAN: Subject Agnostic Face Swapping and Reenactment

Projekta Paĝo, arXiv.

Komence ŝajnas, ke estas nenio nekutima: deepfalso kun pli-malpli normala kvalito. Sed la ĉefa atingo de la verko estas la anstataŭigo de vizaĝoj el unu bildo. Male al antaŭaj verkoj, trejnado estis postulata sur multaj fotoj de specifa persono. La dukto montriĝis maloportuna (reprezentiĝo kaj segmentigo, vido-interpolado, enpentrado, miksado) kaj kun multaj teknikaj hakoj, sed la rezulto valoras ĝin.

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

Detecting The Unexpected via Image Resynthesis

arXiv.

Kiel virabelo povas kompreni, ke antaŭ ĝi subite aperis objekto, kiu ne falas en iun semantikan segmentan klason? Estas pluraj metodoj, sed la aŭtoroj proponas novan intuician algoritmon, kiu funkcias pli bone ol ĝiaj antaŭuloj. Semantika segmentigo estas antaŭdirita de la eniga vojbildo. Ĝi estas provizita kiel enigo al la GAN (pix2pixHD), kiu provas restarigi la originan bildon nur de la semantika mapo. Anomalioj kiuj ne falas en neniun el la segmentoj signife diferencos en la eligo kaj la generita bildo. La tri bildoj (originalo, segmentado kaj rekonstruita) tiam estas provizitaj en alian reton kiu antaŭdiras anomaliojn. La datumaro por tio estis generita de la konata Cityscapes-datumserio, hazarde ŝanĝante la klasojn pri la semantika segmentigo. Kurioze, en ĉi tiu medio, hundo staranta meze de la vojo, sed ĝuste segmentita (kio signifas ke ekzistas klaso por ĝi), ne estas anomalio, ĉar la sistemo povis rekoni ĝin.

Tendencoj en komputila vizio. ICCV 2019 Kulminaĵoj

konkludo

Antaŭ la konferenco, gravas scii, kiaj estas viaj sciencaj interesoj, kiujn prezentojn vi ŝatus ĉeesti kaj kun kiu paroli. Tiam ĉio estos multe pli produktiva.

ICCV — это прежде всего нетворкинг. Понимаешь, что есть топовые институты и топовые научруки, начинаешь в этом разбираться, знакомиться с людьми. А статьи можно и на arXiv почитать — и кстати, это очень круто, что за знаниями можно никуда не ехать.

Krome, ĉe la konferenco vi povas plonĝi profunde en temojn kiuj ne estas proksimaj al vi kaj vidi tendencojn. Nu, skribu liston de legindaj artikoloj. Se vi estas studento, ĉi tio estas ŝanco por vi renkonti potencialan instruiston, se vi estas de la industrio, tiam kun nova dunganto, kaj se kompanio, tiam montri vin.

Abonu @loss_function_porn! Ĉi tio estas persona projekto: ni gvidas ĝin kune kun karfly. Ni afiŝis ĉi tie ĉiujn verkojn, kiujn ni ŝatis dum la konferenco: @loss_function_live.

fonto: www.habr.com

Aldoni komenton