🥇Datorredzes tendences. ICCV 2019. gada svarīgākie punkti

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Neironu tīkli datorredzē aktīvi attīstās, daudzas problēmas joprojām nav atrisinātas. Lai būtu tendencēs savā jomā, vienkārši sekojiet ietekmētājiem pakalpojumā Twitter un lasiet attiecīgos rakstus vietnē arXiv.org. Taču mums bija iespēja doties uz Starptautisko datoru redzes konferenci (ICCV) 2019. Šogad tā notiek Dienvidkorejā. Tagad mēs vēlamies dalīties ar Habr lasītājiem, ko mēs redzējām un uzzinājām.

Mūsu no Yandex tur bija daudz: ieradās pašbraucošo automašīnu izstrādātāji, pētnieki un tie, kas servisos nodarbojas ar CV uzdevumiem. Bet tagad mēs vēlamies iepazīstināt ar nedaudz subjektīvu mūsu komandas - Mašīnu izlūkošanas laboratorijas (Yandex MILAB) viedokli. Pārējie puiši droši vien paskatījās uz konferenci no sava leņķa.

Ko dara laboratorija?Mēs veicam eksperimentālus projektus, kas saistīti ar attēlu un mūzikas ģenerēšanu izklaides nolūkos. Mūs īpaši interesē neironu tīkli, kas ļauj mainīt saturu no lietotāja (fotogrāfijām šo uzdevumu sauc par attēla manipulāciju). Piemērs mūsu darba rezultāts no YaC 2019 konferences.
Zinātnisko konferenču ir ļoti daudz, bet izceļas topa, tā sauktās A* konferences, kurās parasti tiek publicēti raksti par interesantākajām un svarīgākajām tehnoloģijām. Precīza A* konferenču saraksta nav, šeit ir aptuvens un nepilnīgs saraksts: NeurIPS (agrāk NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Pēdējie trīs specializējas CV tēmā.

ICCV īsumā: plakāti, apmācības, darbnīcas, stendi

Konferencē tika saņemti 1075 referāti, piedalījās 7500 dalībnieku, no Krievijas bija ieradušies 103 cilvēki, bija raksti no Yandex, Skoltech, Samsung AI centra Maskavas un Samaras universitātes. Šogad ICCV viesojās ne daudzi top pētnieki, bet, piemēram, Aleksejs (Alioša) Efross, kurš vienmēr piesaista daudz cilvēku:

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Statistika

Visās šādās konferencēs raksti tiek prezentēti plakātu veidā (vairāk par formātu), un labākie tiek prezentēti arī īsu ziņojumu veidā.

Šeit ir daži no Krievijas darbiem Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Ar pamācībām jūs varat ienirt noteiktā mācību jomā, tas atgādina lekciju universitātē. To lasa viens cilvēks, parasti nerunājot par konkrētiem darbiem. Foršas apmācības piemērs (Maikls Brauns, Krāsu izpratne un kameras attēla apstrādes cauruļvads datora redzei):

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Gluži pretēji, semināros viņi runā par rakstiem. Parasti tie ir darbi kādā šaurā tēmā, laboratoriju vadītāju stāsti par visiem jaunākajiem studentu darbiem vai raksti, kas netika pieņemti galvenajā konferencē.

Sponsorējošie uzņēmumi uz ICCV ierodas ar stendiem. Šogad ieradās Google, Facebook, Amazon un daudzi citi starptautiski uzņēmumi, kā arī liels skaits startup - korejiešu un ķīniešu. Īpaši daudz bija jaunuzņēmumu, kas specializējās datu marķēšanā. Pie stendiem notiek priekšnesumi, var paņemt līdzi preces un uzdot jautājumus. Medību nolūkos sponsorējošās kompānijas rīko ballītes. Jūs varat tajās iekļūt, ja pārliecināsit darbā iekārtotājus, ka jūs interesē un ka varat iziet intervijas. Ja esi publicējis rakstu (vai turklāt prezentējis), sācis vai beidz doktorantūras studijas, tas ir pluss, bet dažkārt vari sarunāties stendā, uzdodot interesējošus jautājumus uzņēmuma inženieriem.

Tendences

Konference ļauj ieskatīties visā CV jomā. Pēc plakātu skaita par konkrētu tēmu varat novērtēt, cik aktuāla ir tēma. Daži secinājumi liecina, pamatojoties uz atslēgvārdiem:

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Zero-shot, one-shot, daži kadri, pašpārraudzīts un daļēji uzraudzīts: jaunas pieejas ilgi pētītiem uzdevumiem

Cilvēki mācās efektīvāk izmantot datus. Piemēram, iekšā IZKLAIDE iespējams ģenerēt tādu dzīvnieku sejas izteiksmes, kas nebija mācību komplektā (pieteikumā, sniedzot vairākus atsauces attēlus). Deep Image Prior idejas ir izstrādātas, un tagad GAN tīklus var apmācīt uz viena attēla - par to mēs runāsim tālāk izcēlumos. Varat izmantot pašpārraudzību iepriekšējai apmācībai (risinot problēmu, kurai varat sintezēt saskaņotus datus, piemēram, paredzēt attēla pagriešanas leņķi) vai vienlaikus mācīties no iezīmētiem un nemarķētiem datiem. Šajā ziņā rakstu var uzskatīt par radīšanas vainagu S4L: Pašuzraudzīta daļēji uzraudzīta mācīšanās. Un šeit ir iepriekšēja apmācība vietnē ImageNet ne vienmēr palīdz.

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

3D un 360°

Problēmas, kas galvenokārt tika atrisinātas fotogrāfijām (segmentēšana, noteikšana), prasa papildu izpēti 3D modeļiem un panorāmas video. Mēs esam redzējuši daudzus rakstus par RGB un RGB-D pārveidošanu 3D formātā. Dažas problēmas, piemēram, cilvēka pozas novērtēšanu, var atrisināt dabiskāk, pārejot uz 3D modeļiem. Taču vēl nav vienprātības par to, kā precīzi attēlot XNUMXD modeļus — sieta, punktu mākoņa, vokseļu vai SDF formātā. Šeit ir vēl viena iespēja:

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Panorāmās sfēras līkumi aktīvi attīstās (sk. Orientējoša semantiskā segmentācija uz ikosaedra sfērām) un meklējiet galvenos objektus kadrā.

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Pozu noteikšana un cilvēka kustību prognozēšana

Pozu noteikšanā 2D jau ir gūti panākumi — tagad uzmanība ir pievērsta darbam ar vairākām kamerām un 3D. Ir iespējams arī, piemēram, atklāt skeletu caur sienu, izsekojot Wi-Fi signāla izmaiņām, kad tas iet cauri cilvēka ķermenim.

Liels darbs ir paveikts rokas atslēgas punktu noteikšanas jomā. Ir parādījušās jaunas datu kopas, tostarp tās, kuru pamatā ir divu cilvēku dialogu video — tagad varat paredzēt roku žestus no sarunas audio vai teksta! Tāds pats progress ir panākts acu izsekošanas uzdevumos (skatiena novērtēšanā).

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Var identificēt arī lielu darbu kopu, kas saistīti ar cilvēka kustību prognozēšanu (piemēram, Cilvēka kustības prognozēšana, izmantojot telpisko un laika gleznojumu vai Strukturētā prognozēšana palīdz 3D cilvēka kustību modelēšanā). Uzdevums ir svarīgs un, balstoties uz sarunām ar autoriem, visbiežāk tiek izmantots, lai analizētu gājēju uzvedību autonomajā braukšanā.

Manipulācijas ar cilvēkiem fotogrāfijās un video, virtuālās pielaikošanas kabīnes

Galvenā tendence ir mainīt sejas attēlus atbilstoši interpretējamiem parametriem. Idejas: dziļa viltošana, pamatojoties uz vienu attēlu, maināma izteiksme, pamatojoties uz sejas atveidojumu (Leļļu GAN), uz priekšu — mainiet parametrus (piemēram, vecums). Stila pārnesumi no tēmas nosaukuma ir pārcēlušies uz darba pielietojumu. Virtuālās pielaikošanas telpas ir cits stāsts, tās gandrīz vienmēr darbojas slikti, šeit ir piemērs demonstrācijas.

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Paaudze no skicēm/grafikiem

Idejas "Ļaujiet režģim ģenerēt kaut ko, pamatojoties uz iepriekšējo pieredzi" attīstība kļuva par citu: "Parādīsim režģim, kurš variants mūs interesē."

SC-FEGAN ļauj veikt krāsošanu ar vadību: lietotājs var pabeigt krāsot daļu sejas attēla izdzēstajā zonā un iegūt atjaunotu attēlu atkarībā no pabeigšanas.

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Viens no 25 Adobe rakstiem ICCV apvieno divus GAN: viens pabeidz skici lietotājam, otrs ģenerē fotoreālistisku attēlu no skices (projekta lapa).

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Iepriekš grafi nebija vajadzīgi attēlu ģenerēšanā, bet tagad tie ir izveidoti kā zināšanu konteiners par notikuma vietu. Raksts ieguva arī balvu par goda rakstiem par labāko grāmatu, pamatojoties uz ICCV rezultātiem Objektu atribūtu un attiecību noteikšana interaktīvo ainu ģenerēšanā. Kopumā tos var izmantot dažādos veidos: ģenerēt grafikus no attēliem vai attēlus un tekstus no grafikiem.

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Cilvēku un automašīnu atkārtota identifikācija, skaitot pūļa lielumu (!)

Daudzi raksti ir veltīti cilvēku izsekošanai un cilvēku un iekārtu atkārtotai identificēšanai. Bet tas, kas mūs pārsteidza, bija virkne rakstu par pūļa skaitīšanu, visi no Ķīnas.

Plakāti Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Bet Facebook, gluži pretēji, anonimizē fotoattēlu. Un tas tiek darīts interesantā veidā: tas apmāca neironu tīklu ģenerēt seju bez unikālām detaļām - līdzīgu, bet ne tik līdzīgu, lai to varētu pareizi identificēt ar sejas atpazīšanas sistēmām.

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Aizsardzība pret pretinieku uzbrukumiem

Attīstoties datorredzes lietojumprogrammām reālajā pasaulē (pašbraucošās automašīnās, sejas atpazīšanā), arvien biežāk rodas jautājums par šādu sistēmu uzticamību. Lai pilnībā izmantotu CV, jums ir jābūt pārliecinātam, ka sistēma ir izturīga pret pretuzbrukumiem – tāpēc par aizsardzību pret tiem bija ne mazāk rakstu kā par pašiem uzbrukumiem. Ir bijis daudz darba, lai izskaidrotu tīkla prognozes (izcilības karte) un izmērītu pārliecību par rezultātu.

Kombinētie uzdevumi

Lielākajā daļā uzdevumu ar vienu mērķi kvalitātes uzlabošanas iespējas ir praktiski izsmeltas, viens no jaunajiem virzieniem tālākai kvalitātes paaugstināšanai ir mācīt neironu tīklus risināt vairākas līdzīgas problēmas vienlaikus. Piemēri:
— darbības prognozēšana + optiskās plūsmas prognozēšana,
— video prezentācija + valodas prezentācija (VideoBERT),
Sākot no super izšķirtspēja + HDR.

Ir arī raksti par segmentāciju, pozas noteikšanu un dzīvnieku atkārtotu identifikāciju!

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Izceļ

Gandrīz visi raksti bija zināmi iepriekš, teksts bija pieejams arXiv.org. Tāpēc diezgan dīvaina šķiet tādu darbu kā Everybody Dance Now, FUNIT, Image2StyleGAN prezentācija - tie ir ļoti noderīgi darbi, bet ne jauni. Šķiet, ka klasiskais zinātnisko publikāciju process te brūk – zinātne virzās pārāk ātri.

Ir ļoti grūti noteikt labākos darbus – to ir daudz, priekšmeti ir dažādi. Saņemti vairāki raksti balvas un pieminējumi.

Mēs vēlamies izcelt darbus, kas ir interesanti no attēlu manipulācijas viedokļa, jo šī ir mūsu tēma. Tie mums izrādījās diezgan svaigi un interesanti (nepretendējam uz objektīviem).

SinGAN (labākā papīra balva) un InGAN

SinGAN: projekta lapa, arXiv, kods.
InGAN: projekta lapa, arXiv, kods.

Dziļā attēla izstrāde Iepriekšēja ideja no Dmitrija Uļjanova, Andrea Vedaldi un Viktora Lempitska. Tā vietā, lai apmācītu GAN datu kopā, tīkli mācās no viena un tā paša attēla fragmentiem, lai atcerētos tajā esošo statistiku. Apmācītais tīkls ļauj rediģēt un animēt fotogrāfijas (SinGAN) vai ģenerēt jaunus jebkura izmēra attēlus no sākotnējā attēla faktūrām, saglabājot lokālo struktūru (InGAN).

SinGAN:

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

InGAN:

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Redzot, ko GAN nevar radīt

Projekta lapa.

Neironu tīkli, kas ģenerē attēlus, bieži izmanto nejauša trokšņa vektoru kā ievadi. Apmācītā tīklā daudzi ievades vektori veido atstarpi, nelielas kustības pa kuru rada nelielas izmaiņas attēlā. Izmantojot optimizāciju, jūs varat atrisināt apgriezto problēmu: atrast piemērotu ievades vektoru attēlam no reālās pasaules. Autore parāda, ka gandrīz nekad nav iespējams atrast pilnīgi atbilstošu attēlu neironu tīklā. Daži attēlā redzamie objekti netiek ģenerēti (acīmredzot šo objektu lielās mainīguma dēļ).

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Autors izvirza hipotēzi, ka GAN neaptver visu attēlu telpu, bet gan tikai kādu apakškopu, kas pildīta ar caurumiem, piemēram, sieru. Mēģinot tajā atrast fotogrāfijas no reālās pasaules, mums vienmēr neizdosies, jo GAN joprojām ģenerē ne gluži īstas fotogrāfijas. Atšķirības starp reāliem un ģenerētiem attēliem var pārvarēt, tikai mainot tīkla svarus, tas ir, pārkvalificējot to konkrētam fotoattēlam.

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Kad tīkls ir papildus apmācīts konkrētam fotoattēlam, varat izmēģināt dažādas manipulācijas ar šo attēlu. Tālāk esošajā piemērā fotoattēlam tika pievienots logs, un tīkls papildus radīja atspulgus uz virtuves iekārtu. Tas nozīmē, ka tīkls pat pēc papildu apmācības fotografēšanai nezaudēja spēju saskatīt saikni starp objektiem ainā.

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

GANalyze: ceļā uz kognitīvā attēla īpašību vizuālajām definīcijām

Projekta lapa, arXiv.

Izmantojot šī darba pieeju, jūs varat vizualizēt un analizēt to, ko neironu tīkls ir iemācījies. Autori ierosina apmācīt GAN izveidot attēlus, kuriem tīkls ģenerēs noteiktas prognozes. Rakstā kā piemēri tika izmantoti vairāki tīkli, tostarp MemNet, kas paredz fotoattēlu iegaumējamību. Izrādījās, ka labākai iegaumēšanai fotoattēlā redzamajam objektam vajadzētu:

būt tuvāk centram
ir apaļāka vai kvadrātveida forma un vienkārša struktūra,
būt uz vienota fona,
satur izteiksmīgas acis (vismaz suņu fotogrāfijām),
būt gaišākai, piesātinātākai, dažos gadījumos sarkanākai.

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Šķidruma deformācijas GAN: vienots ietvars cilvēka kustības imitācijai, izskata pārnešanai un jauna skatījuma sintēzei

Projekta lapa, arXiv, kods.

Cauruļvads cilvēku fotoattēlu ģenerēšanai pa vienam fotoattēlam. Autori rāda veiksmīgus piemērus, kā viena cilvēka kustību pārnest uz otru, pārnēsāt apģērbu starp cilvēkiem un ģenerēt jaunus cilvēka rakursus – tas viss no vienas fotogrāfijas. Atšķirībā no iepriekšējiem darbiem, šeit mēs izmantojam nevis galvenos punktus 2D (poza), bet gan ķermeņa 3D sietu (poza + forma), lai radītu apstākļus. Autori arī izdomāja, kā pārsūtīt informāciju no sākotnējā attēla uz ģenerēto (Liquid Warping Block). Rezultāti izskatās pieklājīgi, taču iegūtā attēla izšķirtspēja ir tikai 256x256. Salīdzinājumam, vid2vid, kas parādījās pirms gada, spēj ģenerēt 2048x1024 izšķirtspējā, taču tam kā datu kopai ir nepieciešamas pat 10 minūtes video ierakstīšanas.

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

FSGAN: priekšmeta agnostiķu seju maiņa un reanaktēšana

Projekta lapa, arXiv.

Sākumā šķiet, ka nav nekā neparasta: deepfake ar vairāk vai mazāk normālu kvalitāti. Bet galvenais darba sasniegums ir seju aizstāšana no viena attēla. Atšķirībā no iepriekšējiem darbiem, apmācība bija nepieciešama daudzās konkrētas personas fotogrāfijās. Cauruļvads izrādījās apgrūtinošs (reinacting un segmentation, view interpolation, inpainting, blending) un ar daudziem tehniskiem uzlauzumiem, taču rezultāts ir tā vērts.

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Negaidītā noteikšana, izmantojot attēla atkārtotu sintēzi

arXiv.

Kā drons saprast, ka tā priekšā pēkšņi ir parādījies objekts, kas neietilpst nevienā semantiskās segmentācijas klasē? Ir vairākas metodes, taču autori piedāvā jaunu, intuitīvu algoritmu, kas darbojas labāk nekā tā priekšgājēji. Semantiskā segmentācija tiek prognozēta no ievadceļa attēla. Tas tiek ievadīts kā ievade GAN (pix2pixHD), kas mēģina atjaunot sākotnējo attēlu tikai no semantiskās kartes. Anomālijas, kas neietilpst nevienā no segmentiem, ievērojami atšķirsies izvadē un ģenerētajā attēlā. Trīs attēli (sākotnējie, segmentētie un rekonstruētie) tiek ievadīti citā tīklā, kas paredz anomālijas. Datu kopa šim nolūkam tika ģenerēta no labi zināmās Cityscapes datu kopas, nejauši mainot klases semantiskajā segmentācijā. Interesanti, ka šajā iestatījumā suns, kas stāv ceļa vidū, bet pareizi segmentēts (tas nozīmē, ka tam ir sava klase), nav anomālija, jo sistēma to spēja atpazīt.

Datorredzes tendences. ICCV 2019. gada svarīgākie notikumi

Secinājums

Pirms konferences ir svarīgi zināt, kādas ir jūsu zinātniskās intereses, kādas prezentācijas vēlaties apmeklēt un ar ko runāt. Tad viss būs daudz produktīvāk.

ICCV, pirmkārt un galvenokārt, ir tīklu veidošana. Jūs saprotat, ka ir augstākie institūti un augstākās zinātniskās nodaļas, jūs sākat to saprast, iepazīstat cilvēkus. Un jūs varat lasīt rakstus par arXiv — un, starp citu, tas ir ļoti forši, ka jums nekur nav jādodas, lai iegūtu zināšanas.

Turklāt konferencē var padziļināti ienirt tēmās, kas tev nav tuvas un saskatīt tendences. Nu, izveidojiet lasāmo rakstu sarakstu. Ja esi students, šī ir iespēja Tev satikt potenciālo skolotāju, ja esi no nozares, tad pie jauna darba devēja, un ja uzņēmums, tad parādīt sevi.

Abonēt @loss_function_porn! Šis ir personisks projekts: mēs to vadām kopā ar karfly. Visus darbus, kas mums patika konferences laikā, ievietojām šeit: @loss_function_live.

Avots: www.habr.com