Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Нейрасеткі ў кампутарным зроку актыўна развіваюцца, многія задачы яшчэ далёкія ад рашэння. Каб быць у трэндзе ў сваёй вобласці, дастаткова падпісацца на інфлюенсераў у Твітары і чытаць рэлевантныя артыкулы на arXiv.org. Але ў нас з'явілася магчымасць з'ездзіць на International Conference on Computer Vision (ICCV) 2019. У гэтым годзе яна праводзіцца ў Паўднёвай Карэі. Цяпер мы хочам падзяліцца з чытачамі Хабра тым, што мы ўбачылі і даведаліся.

Ад Яндэкса нас там было шмат: прыехалі распрацоўшчыкі беспілотнага аўтамабіля, даследчыкі, тыя, хто займаецца задачамі CV у сэрвісах. Але цяпер мы хочам прадставіць крыху суб'ектыўны пункт гледжання нашай каманды – лабараторыі машыннага інтэлекту (Yandex MILAB). Іншыя хлопцы напэўна глядзелі на канферэнцыю пад сваім кутом.

Чым займаецца лабараторыяМы робім эксперыментальныя праекты, звязаныя з генерацыяй малюнкаў і музыкі для забаўляльных мэт. Асабліва нам цікавыя нейрасеткі, якія дазваляюць мяняць кантэнт ад карыстальніка (для фота такая задача называецца image manipulation). Прыклад выніку нашай працы з канферэнцыі YaC 2019 года.
Навуковых канферэнцый вельмі шмат, але з іх вылучаюцца топавыя, так званыя A* канферэнцыі, на якіх звычайна публікуюцца артыкулы пра самыя цікавыя і важныя тэхналогіі. Дакладнага спісу A * канферэнцый няма, вось прыкладны і няпоўны: NeurIPS (раней NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Апошнія тры спецыялізуюцца на тэме CV.

ICCV at glance: постэры, тутарыялы, воркшопы, стэнды

На канферэнцыю прынялі 1075 работ, удзельнікаў было 7500. З Расіі прыехалі 103 чалавекі, былі артыкулы ад супрацоўнікаў Яндэкса, Скалтэха, Samsung AI Center Moscow і Самарскага ўніверсітэта. У гэтым годзе ICCV наведала не так шмат топавых даследчыкаў, але вось, напрыклад, Аляксей (Алёша) Эфрос, які заўсёды збірае шмат народа:

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Статыстыка Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

На ўсіх падобных канферэнцыях артыкулы прадстаўляюць у выглядзе постэраў.больш падрабязна аб фармаце), а лепшыя прэзентуюць яшчэ і ў выглядзе кароткіх дакладаў.

Вось частка работ з Расіі Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

На тутарыял можна пагрузіцца ў нейкую прадметную вобласць, гэта нагадвае лекцыю ў ВНУ. Яе чытае адзін чалавек, звычайна не расказваючы аб канкрэтных работах. Прыклад класнага тутарыялу (Міхаэль Браун, падземны колер і на Camera Image Processing Pipeline for Computer Vision):

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

На воркшопах, наадварот, расказваюць пра артыкулы. Звычайна гэта працы ў нейкай вузкай тэме, апавяданні ад кіраўнікоў лабараторый пра ўсе апошнія працы студэнтаў, альбо артыкулы, якія не былі прыняты на асноўную канферэнцыю.

Кампаніі-фундатары прыязджаюць на ICCV са стэндамі. У гэтым годзе прыехалі Google, Facebook, Amazon і шмат іншых міжнародных кампаній, а таксама вялікая колькасць стартапаў - карэйскіх і кітайскіх. Асабліва шмат было стартапаў, якія спецыялізуюцца на разметцы даных. На стэндах праходзяць свае выступленні, можна браць мерч, задаваць пытанні. Для хантынгу ў кампаній-спонсараў бываюць вечарынкі. На іх атрымоўваецца патрапіць, калі пераканаць рекрутеры, што вам цікава і што вы патэнцыйна можаце прайсці гутаркі. Калі вы апублікавалі артыкул (ці, тым больш, выступілі з ім), пачалі ці сканчаеце PhD – гэта плюс, але часам можна дамовіцца на стэндзе, задаўшы цікавыя пытанні інжынерам кампаніі.

трэнды

Канферэнцыя дазваляе акінуць вокам усю вобласць CV. Па колькасці постэраў той ці іншай тэматыкі можна ацаніць, наколькі тэма гарачая. Нейкія высновы напрошваюцца ўжо па ключавых словах:

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Zero-shot, one-shot, few-shot, self-supervised і semi-supervised: новыя падыходы да даўно вывучаных задач

Людзі вучацца больш эфектыўна выкарыстоўваць дадзеныя. Напрыклад, у FUNIT можна генераваць выраз твараў жывёл, якіх не было ў навучальнай выбарцы (ва ўжыванні падаючы некалькі референсных малюначкаў). Ідэі Deep Image Prior атрымалі развіццё, і цяпер сеткі GAN атрымоўваецца навучаць на адным малюнку – мы яшчэ раскажам пра гэта ніжэй у хайлайтах. Можна выкарыстоўваць self-supervision для предобучения (вырашаючы задачу, для якой можна сінтэзаваць выраўнаваныя дадзеныя, напрыклад прадказваць кут павароту карцінкі) або вучыцца адначасова на размечаных і неразмечаных дадзеных. У гэтым сэнсе вянком тварэння можна лічыць артыкул S4L: Self-Supervised Semi-Supervised Learning. А вось прадугледжанне на ImageNet не заўсёды дапамагае.

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

3D і 360 °

Задачы, па большай частцы вырашаныя для фота (сегментацыя, дэтэкцыя), патрабуюць дадатковага даследавання для 3D-мадэляў і панарамных відэа. Мы ўбачылі шмат артыкулаў па пераўтварэнні RGB і RGB-D у 3D. Некаторыя задачы, напрыклад вызначэнне паставы чалавека (pose estimation), вырашаюцца больш натуральна, калі перайсці да трохмерных мадэляў. Але пакуль няма адзінага меркавання, як менавіта прадстаўляць 3D-мадэлі – у выглядзе сеткі, аблокі кропак, вокселяў або SDF. Вось яшчэ адзін варыянт:

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

У панарамах актыўна развіваюцца скруткі на сферы (гл. Orientation-aware Semantic Segmentation на Icosahedron Spheres) і пошук ключавых аб'ектаў у кадры.

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Вызначэнне паставы і прадказанне рухаў чалавека

З тым, каб вызначаць позу ў 2D, ужо ёсць поспехі - зараз фокус зрушыўся ў бок працы з некалькімі камерамі і ў 3D. Яшчэ, напрыклад, можна вызначаць шкілет скрозь сцяну, адсочваючы змены ў сігнале Wi-Fi пры ім мінанні скрозь цела чалавека.

Вялікая праца праведзена ў галіне дэтэкцыі ключавых кропак на руцэ (hand keypoint detection). З'явіліся новыя датасеты, у тым ліку на аснове відэа з дыялогамі двух людзей - зараз можна прадказваць жэсты рук па аўдыё або тэксту размовы! Такі ж прагрэс – у задачах адсочвання погляду (gaze estimation).

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Таксама можна вылучыць вялікі кластар прац, злучаных з прадказаннем руху чалавека (напрыклад, Human Motion Prediction via Spatio-Temporal Inpainting або Structured Prediction Helps 3D Human Motion Modelling). Задача важная і, зыходзячы з размоў з аўтарамі, часцей за ўсё прымяняецца для аналізу паводзін пешаходаў у autonomous driving.

Маніпуляцыі з людзьмі на фота і відэа, віртуальныя прымерачныя

Асноўная тэндэнцыя - змяняць выявы асоб па інтэрпрэтаваных параметрах. Ідэі: deepfake па адным малюнку, змена выразы па рэндэры асобы (PuppetGAN), feedforward-змена параметраў (напрыклад, ўзросту). Style transfers перайшлі з назвы тэмы ў прымяненні работ. Асобная гісторыя - віртуальныя прымерачныя, яны працуюць амаль заўсёды дрэнна, вось прыклад дэмкі.

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Генерацыя па скетчам / графам

Развіццём ідэі "Няхай сетка што-небудзь згенеруе зыходзячы з папярэдняга вопыту" стала іншая: "Давайце паказваць сетцы, які варыянт нас цікавіць".

SC-FEGAN дазваляе рабіць guided inpaint: карыстальнік можа дамаляваць частку асобы ў сцёртай вобласці карцінкі і атрымаць адноўленую карцінку ў залежнасці ад дамалёўкі.

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

У адной з 25 артыкулаў Adobe для ICCV аб'яднаны дзве GAN: адна дамалёўвае скетч за карыстача, іншая генеруе з скетча фотарэалістычную карцінку (старонка праекта).

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Раней у генерацыі выяваў былі не патрэбныя графы, а зараз іх зрабілі кантэйнерам ведаў аб сцэне. Узнагароду Best Paper Honorable Mentions па выніках ICCV заваявала ў тым ліку артыкул Specifying Object Attributes and Relations in Interactive Scene Generation. Наогул, можна выкарыстоўваць іх па-рознаму: генераваць графы з малюнкаў, альбо карцінкі і тэксты з графаў.

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Рэіндэнтыфікацыя людзей і машын, падлік колькасці натоўпу (!)

Шмат артыкулаў прысвечана трэкінгу людзей і рэідэнтыфікацыі людзей і машын. Але што нас здзівіла, дык гэта куча артыкулаў па падліку людзей у натоўпе, і ўсё з Кітая.

Постэры Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019
А вось Facebook, наадварот, ананімізуе фота. Прычым робіць гэта цікавым чынам: навучае нейросетку генераваць твар без унікальных дэталяў - падобнае, але не настолькі, каб яго правільна вызначалі сістэмы распазнання асоб.

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Абарона ад adversarial-нападаў

З развіццём ужыванняў кампутарнага зроку ў рэальным міры (у беспілотных аўта, у распазнанні асоб) усё гушчару ўстае пытанне аб надзейнасці такіх сістэм. Для паўнавартаснага выкарыстання CV патрэбна ўпэўненасць, што сістэма ўстойлівая да adversarial-нападам - ​​таму артыкулаў пра абарону ад іх было не менш, чым пра самі напады. Шмат прац было пра тлумачэнне прадказанняў сетак (saliency map) і вымярэнне ўпэўненасці ў выніку.

Сумешчаныя задачы

У большасці задач з адным таргетам магчымасці паляпшэння якасці практычна вычарпаныя, адно з новых напрамкаў далейшага прыросту якасці - вучыць нейросетки вырашаць некалькі падобных задач адначасова. Прыклады:
- прадказанне дзеянняў + прадказанне аптычнага патоку,
- прадстаўленне відэа + прадстаўленне мовы (VideoBERT),
- super-resolution + HDR.

А яшчэ з'явіліся артыкулы па сегментацыі, вызначэнні паставы і рэідэнтыфікацыі жывёл!

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Хайлайты

Амаль усе артыкулы былі вядомыя загадзя, тэкст быў даступны на arXiv.org. Таму прадстаўленне такіх работ, як Everybody Dance Now, FUNIT, Image2StyleGAN, здаецца хутчэй дзіўным - гэта вельмі карысныя працы, але ніяк не новыя. Падобна, класічны працэс навуковых публікацый тут дае збой - навука развіваецца занадта хутка.

Вызначыць лепшыя працы вельмі складана - іх шмат, тэматыкі розныя. Некалькі артыкулаў атрымалі узнагароды і згадкі.

Мы хочам вылучыць працы, цікавыя з пункту гледжання маніпуляцыі выявамі, бо гэта наша тэма. Яны аказаліся для нас дастаткова свежымі і цікавымі (мы не прэтэндуем на аб'ектыўнасць).

SinGAN (best paper award) і InGAN

SinGAN: старонка праекта, ArXiv, код.
InGAN: старонка праекта, ArXiv, код.

Развіццё ідэі Deep Image Prior ад Дзмітрыя Ульянава, Андрэа Ведальдзі і Віктара Лемпіцкага. Замест навучання GAN на датасеце, сеткі вучацца на фрагментах адной і той жа карцінкі, каб запомніць статыстыкі ўнутры яе. Навучаная сетка дазваляе рэдагаваць і анімаваць фатаграфіі (SinGAN) або генераваць новыя выявы любога памеру з тэкстур зыходнага малюнка, захоўваючы лакальную структуру (InGAN).

SinGAN:

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

InGAN:

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Бачачы, што GAN не можа стварыць

Старонка праекту.

Нейрасеткі, якія генеруюць выявы, часта прымаюць на ўваход вектар выпадковага шуму. У навучанай сетцы мноства ўваходных вектараў утворыць прастору, невялікія перасоўванні па якім прыводзяць да невялікіх змен карцінкі. З дапамогай аптымізацыі можна вырашаць адваротную задачу: для карцінкі з рэальнага свету знаходзіць прыдатны ўваходны вектар. Аўтар паказвае, што знайсці ў нейрасеці супадальную цалкам карцінку немагчыма амаль ніколі. Некаторыя аб'екты на малюнку не генеруюцца (мабыць, з-за вялікай варыятыўнасці гэтых аб'ектаў).

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Аўтар высоўвае гіпотэзу, што GAN пакрывае не ўся прастора малюнкаў, а толькі нейкае падмноства, нашпігаванае дзіркамі, як сыр. Пры спробе знайсці ў ім фота з рэальнага свету мы заўсёды будзем трываць няўдачу, таму што GAN генеруе ўсё ж такі не зусім рэальныя фатаграфіі. Пераадолець адрозненні паміж рэальнымі і згенераванымі карцінкамі можна, толькі змяняючы вагі сеткі, гэта значыць данавучаючы яе пад канкрэтнае фота.

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Калі сетка данавучана пад канкрэтнае фота, можна спрабаваць праводзіць з гэтым выявай розныя маніпуляцыі. У прыкладзе ніжэй на фота дадалі акно, і сетка дадаткова згенеравала водбліскі на кухонным гарнітуры. Значыць, сетка і пасля данавучання пад фатаграфію не страціла здольнасць бачыць сувязь паміж аб'ектамі сцэны.

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

GANalyze: Toward Visual Definitions of Cognitive Image Properties

Старонка праекту, ArXiv.

З дапамогай падыходу з гэтай працы можна візуалізаваць і аналізаваць, што вывучыла нейросетку. Аўтары прапануюць навучыць GAN ствараць карцінкі, для якіх сетка будзе генераваць зададзеныя прадказанні. У якасці прыкладаў у артыкуле выкарыстоўвалі некалькі сетак, у тым ліку MemNet, які прадказвае запамінальнасць фота. Высветлілася, што для лепшай запамінальнасці аб'ект на фота павінен:

  • быць бліжэй да цэнтру,
  • мець больш круглую ці квадратную форму і простую структуру,
  • знаходзіцца на аднастайным фоне,
  • змяшчаць выразныя вочы (прынамсі, для фота сабак),
  • быць ярчэй, насычаней, у некаторых выпадках - чырваней.

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis

Старонка праекту, ArXiv, код.

Пайплайн для генерацыі фатаграфій людзей па адной фатаграфіі. Аўтары паказваюць паспяховыя прыклады па пераносе руху аднаго чалавека на іншага, пераносе адзення паміж людзьмі і генерацыі новых ракурсаў чалавека - усё па адной фатаграфіі. У адрозненне ад папярэдніх работ, тут для стварэння ўмоў выкарыстоўваюцца не ключавыя кропкі ў 2D (поза), а 3D-сетка цела (поза + форма). Таксама аўтары прыдумалі, як перанесці інфармацыю з зыходнай выявы на згенераванае (Liquid Warping Block). Вынікі выглядаюць годна, але дазвол атрыманай карцінкі – усяго 256х256. Для параўнання, які з'явіўся год назад vid2vid здольны генераваць у дазволе 2048×1024, але яму трэба цэлых 10 хвілін відэаздымкі ў якасці датасета.

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

FSGAN: Subject Agnostic Face Swapping and Reenactment

Старонка праекту, ArXiv.

Спачатку здаецца, што нічога незвычайнага: deepfake з больш-менш нармальнай якасцю. Але асноўнае дасягненне працы - падстаноўка асоб па адной карцінцы. У адрозненне ад папярэдніх працах патрабавалася навучанне на мностве фатаграфій канкрэтнага чалавека. Пайплайн атрымаўся грувасткім (reenactment and segmentation, view interpolation, inpainting, blending) і з вялікай колькасцю тэхнічных хакаў, але вынік таго варты.

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Вызначае непадпарадкаваную via Image Resynthesis

ArXiv.

Як беспілотніку зразумець, што перад ім нечакана з'явіўся аб'ект, які не пападае ні ў адзін клас семантычнай сегментацыі? Існуе некалькі метадаў, але аўтары прапануюць новы, інтуітыўна зразумелы алгарытм, які працуе лепш за папярэднікаў. Па ўваходным малюнку дарогі прадказваецца семантычная сегментацыя. Яна падаецца на ўваход у GAN (pix2pixHD), які спрабуе аднавіць зыходнае выява толькі па семантычнай карце. Анамаліі, якія не патрапілі ні ў адзін з сегментаў, будуць значна адрознівацца ў зыходам і згенераваным малюнку. Затым тры выявы (зыходнае, сегментацыя і адноўленае) падаюцца ў іншую сетку, якая прадказвае анамаліі. Датасет для гэтага генеравалі з вядомага датасета Cityscapes, выпадкова змяняючы класы на семантычнай сегментацыі. Што цікава, у такой пастаноўцы сабака, стаялая пасярэдзіне дарогі, але правільна адсегментаваная (значыць, для яе ёсць клас), не з'яўляецца анамаліяй, паколькі сістэма змагла яе распазнаць.

Трэнды ў кампутарным зроку. Хайлайты ICCV 2019

Заключэнне

Перад канферэнцыяй важна ведаць, у чым твае навуковыя інтарэсы, на якія выступы хацелася б патрапіць, з кім паразмаўляць. Тады ўсё пройдзе значна больш прадуктыўна.

ICCV - гэта перш за ўсё нетворкінг. Разумееш, што ёсць топавыя інстытуты і топавыя навучэнцы, пачынаеш у гэтым разбірацца, знаёміцца ​​з людзьмі. А артыкулы можна і на arXiv пачытаць - і дарэчы, гэта вельмі крута, што за ведамі можна нікуды не ехаць.

Акрамя таго, на канферэнцыі можна глыбока пагрузіцца ў тэмы, якія табе не блізкія, убачыць трэнды. Ну і выпісаць спіс артыкулаў для чытання. Калі вы студэнт - для вас гэта магчымасць пазнаёміцца ​​з патэнцыйным навучэнцам, калі вы з індустрыі - то з новым працадаўцам, а калі кампанія - то паказаць сябе.

падпісвайцеся на @loss_function_porn! Гэта асабісты праект: вядзем разам з karfly. Усе працы, якія нам падабаліся падчас канферэнцыі, мы пасцілі сюды: @loss_function_live.

Крыніца: habr.com

Дадаць каментар