Neŭralaj retoj en komputila vizio aktive disvolviĝas, multaj problemoj ankoraŭ estas malproksimaj de esti solvitaj. Por esti en tendenco en via kampo, simple sekvu influantojn en Twitter kaj legu koncernajn artikolojn en arXiv.org. Sed ni havis la ŝancon iri al la Internacia Konferenco pri Komputila Vidado (ICCV) 2019. Ĉi-jare ĝi okazas en Sud-Koreio. Nun ni volas dividi kun Habr-legantoj tion, kion ni vidis kaj lernis.
От Яндекса нас там было много: приехали разработчики беспилотного автомобиля, исследователи, те, кто занимается задачами CV в сервисах. Но сейчас мы хотим представить немного субъективную точку зрения нашей команды — лаборатории машинного интеллекта (Yandex MILAB). Другие ребята наверняка смотрели на конференцию под своим углом.
Kion faras la laboratorio?Ni faras eksperimentajn projektojn rilatajn al la generacio de bildoj kaj muziko por distraj celoj. Ni precipe interesiĝas pri neŭralaj retoj, kiuj permesas vin ŝanĝi enhavon de la uzanto (por fotoj, ĉi tiu tasko nomiĝas bildmanipulado).
Estas multe da sciencaj konferencoj, sed elstaras la plej bonaj, la tiel nomataj A*-konferencoj, kie oni kutime eldonas artikolojn pri la plej interesaj kaj gravaj teknologioj. Ne ekzistas preciza listo de A*-konferencoj, jen proksimuma kaj nekompleta listo: NeurIPS (antaŭe NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. La lastaj tri specialiĝas pri la CV-temo.
ICCV ĉe ekrigardo: afiŝoj, lerniloj, laborrenkontiĝoj, standoj
La konferenco ricevis 1075 artikolojn, estis partoprenantoj 7500. Venis 103 homoj el Rusio, estis artikoloj de dungitoj de Yandex, Skoltech, Samsung AI Center Moskvo kaj Samara University. Ĉi-jare, ne multaj ĉefaj esploristoj vizitis ICCV, sed, ekzemple, Aleksej (Aljoŝa) Efros, kiu ĉiam altiras multajn homojn:
Статистика
Ĉe ĉiuj tiaj konferencoj, artikoloj estas prezentitaj en formo de afiŝoj (
Jen kelkaj el la verkoj el Rusio
Kun lerniloj vi povas plonĝi en apartan temon; ĝi memorigas pri prelego en universitato. Ĝin legas unu persono, kutime sen paroli pri specifaj verkoj. Ekzemplo de bonega lernilo (
На воркшопах, напротив, рассказывают про статьи. Обычно это работы в какой-то узкой теме, рассказы от руководителей лабораторий о всех последних работах студентов, либо статьи, которые не были приняты на основную конференцию.
Sponsorantaj kompanioj venas al ICCV kun standoj. Ĉi-jare venis Guglo, Fejsbuko, Amazon kaj multaj aliaj internaciaj kompanioj, kaj ankaŭ granda nombro da noventreprenoj – koreaj kaj ĉinaj. Estis precipe multaj noventreprenoj, kiuj specialiĝis pri datumetikedado. Estas prezentoj ĉe la standoj, vi povas preni varojn kaj demandi demandojn. Por ĉasceloj, sponsorantaj kompanioj havas festojn. Vi povas eniri ilin se vi konvinkas rekrutintojn, ke vi interesiĝas kaj ke vi eble povas pasigi intervjuojn. Se vi publikigis artikolon (aŭ, krome, prezentis ĝin), komencis aŭ finas PhD, tio estas pluso, sed foje vi povas negoci ĉe la stando farante interesajn demandojn al la inĝenieroj de la firmao.
Tendencoj
La konferenco permesas al vi rigardi la tutan CV-kampon. Laŭ la nombro da afiŝoj pri aparta temo, vi povas taksi kiom varma estas la temo. Iuj konkludoj sugestas sin surbaze de la ŝlosilvortoj:
Nul-pafo, unu-pafo, malmultaj-pafoj, mem-kontrolita kaj duon-kontrolita: novaj aliroj al longe studitaj taskoj
Homoj lernas uzi datumojn pli efike. Ekzemple, en
3D kaj 360°
Problemoj, kiuj estis plejparte solvitaj por fotoj (segmentado, detekto) postulas plian esploradon por 3D-modeloj kaj panoramaj filmetoj. Ni vidis multajn artikolojn pri konvertado de RGB kaj RGB-D al 3D. Kelkaj problemoj, kiel homa pozotakso, povas esti solvitaj pli nature per moviĝado al 3D modeloj. Sed ankoraŭ ne ekzistas konsento pri kiel ĝuste reprezenti XNUMXD-modelojn - en la formo de maŝo, punktonubo, vokseloj aŭ SDF. Jen alia opcio:
En panoramoj, kunvolucioj sur la sfero aktive disvolviĝas (vidu.
Pozo-detekto kaj homa movada prognozo
С тем, чтобы определять позу в 2D, уже есть успехи — теперь фокус сместился в сторону работы с несколькими камерами и в 3D. Ещё, например, можно определять скелет сквозь стену, отслеживая изменения в сигнале Wi-Fi при его прохождении сквозь тело человека.
Multe da laboro estis farita en la kampo de manklavpunktodetekto. Aperis novaj datumaroj, inkluzive de tiuj bazitaj sur filmetoj de dialogoj inter du homoj - nun vi povas antaŭdiri mangestojn el la aŭdo aŭ teksto de konversacio! La sama progreso estis farita en taskoj pri okulspurado (rigarda takso).
Oni ankaŭ povas identigi grandan areton da verkoj ligitaj al homa movada prognozo (ekzemple,
Manipuladoj kun homoj en fotoj kaj filmetoj, virtualaj vestoĉambroj
La ĉefa tendenco estas ŝanĝi vizaĝajn bildojn laŭ interpreteblaj parametroj. Ideoj: deepfalse bazita sur unu bildo, ŝanĝanta esprimon surbaze de vizaĝa bildigo (
Generacio el skizoj/grafikaĵoj
La evoluo de la ideo "Lasu la kradon generi ion bazitan sur antaŭa sperto" fariĝis alia: "Ni montru al la krado, kiu opcio interesas nin."
Unu el 25 Adobe-artikoloj por ICCV kombinas du GANojn: unu kompletigas la skizon por la uzanto, la alia generas fotorealisman bildon el la skizo (
Раньше в генерации изображений были не нужны графы, а теперь их сделали контейнером знаний о сцене. Награду Best Paper Honorable Mentions по итогам ICCV завоевала в том числе статья
Reidentigo de homoj kaj aŭtoj, kalkulante la grandecon de la homamaso (!)
Много статей посвящено трекингу людей и реидентификации людей и машин. Но что нас удивило, так это куча статей по подсчёту людей в толпе, и все из Китая.
Постеры
Sed Fejsbuko, male, anonimigas la foton. Kaj ĝi faras tion en interesa maniero: ĝi trejnas la neŭralan reton por generi vizaĝon sen unikaj detaloj - simila, sed ne tiom simila ke ĝi povas esti ĝuste identigita per vizaĝrekonaj sistemoj.
Protekto kontraŭ kontraŭaj atakoj
С развитием применений компьютерного зрения в реальном мире (в беспилотных авто, в распознавании лиц) всё чаще встает вопрос о надёжности таких систем. Для полноценного использования CV нужна уверенность, что система устойчива к adversarial-атакам — поэтому статей про защиту от них было не меньше, чем про сами атаки. Много работ было про объяснение предсказаний сетей (saliency map) и измерение уверенности в результате.
Совмещённые задачи
En la plej multaj taskoj kun unu celo, la eblecoj por plibonigi kvaliton estas preskaŭ elĉerpitaj; unu el la novaj indikoj por plia pliiĝanta kvalito estas instrui neŭralajn retojn solvi plurajn similajn problemojn samtempe. Ekzemploj:
- antaŭdiro de ago + antaŭdiro de optika fluo,
— videoprezento + lingva prezento (
-
Estas ankaŭ artikoloj pri segmentado, pozodetermino kaj besta reidentigo!
Elstaraĵoj
Preskaŭ ĉiuj artikoloj estis antaŭsciitaj, la teksto estis havebla ĉe arXiv.org. Tial, la prezento de tiaj verkoj kiel Everybody Dance Now, FUNIT, Image2StyleGAN ŝajnas sufiĉe stranga - ĉi tiuj estas tre utilaj verkoj, sed ne novaj. Ŝajnas, ke ĉi tie rompiĝas la klasika procezo de sciencaj publikaĵoj – tro rapide moviĝas scienco.
Определить лучшие работы очень сложно — их много, тематики разные. Несколько статей получили
Мы хотим выделить работы, интересные с точки зрения манипуляции изображениями, так как это наша тема. Они оказались для нас достаточно свежими и интересными (мы не претендуем на объективность).
SinGAN (best paper award) и InGAN
SinGAN:
InGAN:
Evoluo de la Deep Image Antaŭa ideo de Dmitry Ulyanov, Andrea Vedaldi kaj Victor Lempitsky. Anstataŭ trejni GAN sur datumaro, la retoj lernas de fragmentoj de la sama bildo por memori la statistikojn en ĝi. La trejnita reto permesas redakti kaj vigligi fotojn (SinGAN) aŭ generi novajn bildojn de ajna grandeco el la teksturoj de la originala bildo, konservante la lokan strukturon (InGAN).
SinGAN:
InGAN:
Seeing What a GAN Cannot Generate
Neŭralaj retoj kiuj generas bildojn ofte prenas vektoron de hazarda bruo kiel enigaĵo. En trejnita reto, multaj enigvektoroj formas spacon, malgrandaj movoj laŭ kiuj kondukas al malgrandaj ŝanĝoj en la bildo. Per optimumigo, vi povas solvi la inversan problemon: trovi taŭgan enigvektoron por bildo de la reala mondo. La aŭtoro montras, ke preskaŭ neniam eblas trovi tute kongruan bildon en neŭrala reto. Kelkaj objektoj en la bildo ne estas generitaj (ŝajne pro la granda ŝanĝebleco de tiuj objektoj).
La aŭtoro hipotezas, ke GAN ne kovras la tutan spacon de bildoj, sed nur iun subaron, plenigitan per truoj, kiel fromaĝo. Kiam ni provos trovi en ĝi fotojn el la reala mondo, ni ĉiam malsukcesos, ĉar GAN ankoraŭ generas ne tute realajn fotojn. La diferencoj inter realaj kaj generitaj bildoj povas esti venkitaj nur ŝanĝante la pezojn de la reto, tio estas, retrejnante ĝin por specifa foto.
Когда сеть дообучена под конкретное фото, можно пробовать проводить с этим изображением различные манипуляции. В примере ниже на фото добавили окно, и сеть дополнительно сгенерировала отблески на кухонном гарнитуре. Значит, сеть и после дообучения под фотографию не потеряла способность видеть связь между объектами сцены.
GANalyze: Al Vidaj Difinoj de Kognaj Bildaj Propraĵoj
С помощью подхода из этой работы можно визуализировать и анализировать, что выучила нейросеть. Авторы предлагают обучить GAN создавать картинки, для которых сеть будет генерировать заданные предсказания. В качестве примеров в статье использовали несколько сетей, в том числе MemNet, предсказывающий запоминаемость фото. Выяснилось, что для лучшей запоминаемости объект на фото должен:
- estu pli proksime al la centro
- havas pli rondan aŭ kvadratan formon kaj simplan strukturon,
- находиться на однородном фоне,
- enhavas esprimplenajn okulojn (almenaŭ por hundofotoj),
- estu pli hela, pli saturita, en iuj kazoj, pli ruĝa.
Liquid Warping GAN: Unuigita Kadro por Homa Movada Imito, Ŝajno-Translokigo kaj Romana Vida Sintezo
Dukto por generi fotojn de homoj po unu foton. La aŭtoroj montras sukcesajn ekzemplojn de translokado de la movado de unu persono al alia, translokado de vestaĵoj inter homoj kaj generado de novaj anguloj de homo - ĉio el unu foto. Male al antaŭaj verkoj, ĉi tie ni uzas ne ŝlosilajn punktojn en 2D (pozo), sed 3D-reton de la korpo (pozo + formo) por krei kondiĉojn. La aŭtoroj ankaŭ eltrovis kiel translokigi informojn de la originala bildo al la generita (Liquid Warping Block). La rezultoj aspektas decaj, sed la rezolucio de la rezulta bildo estas nur 256x256. Por komparo, vid2vid, kiu aperis antaŭ unu jaro, kapablas generi en rezolucio de 2048x1024, sed ĝi postulas eĉ 10 minutojn da videoregistrado kiel datumaro.
FSGAN: Subject Agnostic Face Swapping and Reenactment
Komence ŝajnas, ke estas nenio nekutima: deepfalso kun pli-malpli normala kvalito. Sed la ĉefa atingo de la verko estas la anstataŭigo de vizaĝoj el unu bildo. Male al antaŭaj verkoj, trejnado estis postulata sur multaj fotoj de specifa persono. La dukto montriĝis maloportuna (reprezentiĝo kaj segmentigo, vido-interpolado, enpentrado, miksado) kaj kun multaj teknikaj hakoj, sed la rezulto valoras ĝin.
Detecting The Unexpected via Image Resynthesis
Kiel virabelo povas kompreni, ke antaŭ ĝi subite aperis objekto, kiu ne falas en iun semantikan segmentan klason? Estas pluraj metodoj, sed la aŭtoroj proponas novan intuician algoritmon, kiu funkcias pli bone ol ĝiaj antaŭuloj. Semantika segmentigo estas antaŭdirita de la eniga vojbildo. Ĝi estas provizita kiel enigo al la GAN (pix2pixHD), kiu provas restarigi la originan bildon nur de la semantika mapo. Anomalioj kiuj ne falas en neniun el la segmentoj signife diferencos en la eligo kaj la generita bildo. La tri bildoj (originalo, segmentado kaj rekonstruita) tiam estas provizitaj en alian reton kiu antaŭdiras anomaliojn. La datumaro por tio estis generita de la konata Cityscapes-datumserio, hazarde ŝanĝante la klasojn pri la semantika segmentigo. Kurioze, en ĉi tiu medio, hundo staranta meze de la vojo, sed ĝuste segmentita (kio signifas ke ekzistas klaso por ĝi), ne estas anomalio, ĉar la sistemo povis rekoni ĝin.
konkludo
Antaŭ la konferenco, gravas scii, kiaj estas viaj sciencaj interesoj, kiujn prezentojn vi ŝatus ĉeesti kaj kun kiu paroli. Tiam ĉio estos multe pli produktiva.
ICCV — это прежде всего нетворкинг. Понимаешь, что есть топовые институты и топовые научруки, начинаешь в этом разбираться, знакомиться с людьми. А статьи можно и на arXiv почитать — и кстати, это очень круто, что за знаниями можно никуда не ехать.
Krome, ĉe la konferenco vi povas plonĝi profunde en temojn kiuj ne estas proksimaj al vi kaj vidi tendencojn. Nu, skribu liston de legindaj artikoloj. Se vi estas studento, ĉi tio estas ŝanco por vi renkonti potencialan instruiston, se vi estas de la industrio, tiam kun nova dunganto, kaj se kompanio, tiam montri vin.
Abonu
fonto: www.habr.com