Trendi v računalniškem vidu. Poudarki ICCV 2019

Trendi v računalniškem vidu. Poudarki ICCV 2019

Nevronske mreže v računalniškem vidu se aktivno razvijajo, številni problemi so še daleč od rešitve. Če želite biti v trendu na svojem področju, samo sledite vplivnežem na Twitterju in preberite ustrezne članke na arXiv.org. Imeli pa smo priložnost iti na Mednarodno konferenco o računalniškem vidu (ICCV) 2019. Letos poteka v Južni Koreji. Zdaj želimo z bralci Habra deliti, kar smo videli in izvedeli.

Tam nas je bilo veliko iz Yandexa: prišli so razvijalci samovozečih avtomobilov, raziskovalci in tisti, ki se ukvarjajo z življenjepisnimi nalogami v storitvah. Zdaj pa želimo predstaviti nekoliko subjektiven pogled naše ekipe - Laboratorija za strojno inteligenco (Yandex MILAB). Ostali fantje so na konferenco verjetno gledali s svojega zornega kota.

Kaj dela laboratorij?Delamo eksperimentalne projekte, povezane z ustvarjanjem slik in glasbe za zabavne namene. Še posebej nas zanimajo nevronske mreže, ki omogočajo spreminjanje vsebine od uporabnika (za fotografije se ta naloga imenuje manipulacija s slikami). Primer rezultat našega dela s konference YaC 2019.
Znanstvenih konferenc je veliko, izstopajo pa tiste vrhunske, tako imenovane A* konference, kjer so običajno objavljeni članki o najbolj zanimivih in najpomembnejših tehnologijah. Natančnega seznama konferenc A* ni, tukaj je približen in nepopoln seznam: NeurIPS (prej NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Zadnji trije so specializirani za temo CV.

ICCV na prvi pogled: plakati, vaje, delavnice, stojnice

Konferenca je prejela 1075 prispevkov, udeležencev je bilo 7500. Iz Rusije so prišli 103 ljudje, bili so članki zaposlenih v Yandexu, Skoltechu, Samsung AI Center Moscow in Samarski univerzi. Letos ICCV ni obiskalo veliko vrhunskih raziskovalcev, ampak na primer Aleksej (Aljoša) Efros, ki vedno privabi veliko ljudi:

Trendi v računalniškem vidu. Poudarki ICCV 2019

statistika Trendi v računalniškem vidu. Poudarki ICCV 2019

Trendi v računalniškem vidu. Poudarki ICCV 2019

Trendi v računalniškem vidu. Poudarki ICCV 2019

Trendi v računalniškem vidu. Poudarki ICCV 2019

Trendi v računalniškem vidu. Poudarki ICCV 2019

Na vseh tovrstnih konferencah so članki predstavljeni v obliki posterjev (več o formatu), najboljši pa so predstavljeni tudi v obliki kratkih poročil.

Tukaj je nekaj del iz Rusije Trendi v računalniškem vidu. Poudarki ICCV 2019

Trendi v računalniškem vidu. Poudarki ICCV 2019

Trendi v računalniškem vidu. Poudarki ICCV 2019

Z vajami se lahko poglobite v določeno predmetno področje; spominja na predavanje na univerzi. Bere ga ena oseba, običajno brez govora o določenih delih. Primer kul vadnice (Michael Brown, Razumevanje barv in cevovoda za obdelavo slik v fotoaparatu za računalniški vid):

Trendi v računalniškem vidu. Poudarki ICCV 2019

Na delavnicah se, nasprotno, pogovarjajo o artiklih. Običajno so to dela v neki ozki temi, zgodbe vodij laboratorijev o vseh najnovejših delih študentov ali članki, ki niso bili sprejeti na glavno konferenco.

Sponzorska podjetja prihajajo na ICCV s stojnicami. Letos so prišli Google, Facebook, Amazon in mnoga druga mednarodna podjetja, pa tudi veliko število startupov – korejskih in kitajskih. Posebno veliko je bilo startupov, ki so se specializirali za označevanje podatkov. Na stojnicah potekajo predstave, lahko vzamete blago in postavljate vprašanja. Za lovske namene organizirajo sponzorske družbe zabave. Vanje lahko pridete, če prepričate zaposlovalce, da vas zanimajo in da potencialno lahko opravite razgovore. Če ste objavili članek (ali ga še več predstavili), začeli ali končujete doktorat, je to plus, včasih pa se lahko pogajate na stojnici tako, da inženirjem podjetja postavite zanimiva vprašanja.

Trendi

Konferenca vam omogoča vpogled v celotno področje življenjepisa. Po številu plakatov na določeno temo lahko ocenite, kako pereča je tema. Nekaj ​​zaključkov se nakazuje na podlagi ključnih besed:

Trendi v računalniškem vidu. Poudarki ICCV 2019

Ničelni, enkratni, nekajkratni, samonadzorovani in delno nadzorovani: novi pristopi k dolgo preučevanim nalogam

Ljudje se učijo učinkoviteje uporabljati podatke. Na primer, v FUNIT mogoče je ustvariti mimiko živali, ki niso bile v učnem nizu (v aplikaciji z zagotavljanjem več referenčnih slik). Ideje Deep Image Prior so bile razvite in zdaj je mogoče omrežja GAN učiti na eni sliki - o tem bomo govorili spodaj v poudarkih. Samonadzor lahko uporabite za predhodno usposabljanje (reševanje problema, za katerega lahko sintetizirate poravnane podatke, kot je predvidevanje kota vrtenja slike) ali pa se učite hkrati iz označenih in neoznačenih podatkov. V tem smislu lahko članek štejemo za krono ustvarjanja S4L: Samonadzorovano polnadzorovano učenje. In tukaj je predhodno usposabljanje na ImageNet ne vedno pomaga.

Trendi v računalniškem vidu. Poudarki ICCV 2019

Trendi v računalniškem vidu. Poudarki ICCV 2019

3D in 360°

Težave, ki so bile večinoma rešene pri fotografijah (segmentacija, detekcija), zahtevajo dodatne raziskave pri 3D modelih in panoramskih videih. Videli smo veliko člankov o pretvorbi RGB in RGB-D v 3D. Nekatere težave, kot je ocena človeške poze, je mogoče rešiti bolj naravno s prehodom na 3D modele. Vendar še ni soglasja o tem, kako natančno predstaviti XNUMXD modele - v obliki mreže, oblaka točk, vokslov ali SDF. Tu je še ena možnost:

Trendi v računalniškem vidu. Poudarki ICCV 2019

V panoramah se konvolucije na krogli aktivno razvijajo (glej. Semantična segmentacija na ikozaedrskih sferah, ki se zaveda orientacije) in poiščite ključne predmete v okvirju.

Trendi v računalniškem vidu. Poudarki ICCV 2019

Zaznavanje položaja in predvidevanje gibanja človeka

Pri zaznavanju poze v 2D je že prišlo do napredka - zdaj se je fokus preusmeril na delo z več kamerami in v 3D. Na primer, okostnjak lahko zaznate tudi skozi steno s sledenjem spremembam signala Wi-Fi, ko gre skozi človeško telo.

Veliko dela je bilo opravljenega na področju zaznavanja ročnih ključnih točk. Pojavili so se novi nabori podatkov, vključno s tistimi, ki temeljijo na videoposnetkih dialogov med dvema osebama - zdaj lahko predvidite kretnje rok iz zvoka ali besedila pogovora! Enak napredek je bil dosežen pri nalogah sledenja očem (ocena pogleda).

Trendi v računalniškem vidu. Poudarki ICCV 2019

Trendi v računalniškem vidu. Poudarki ICCV 2019

Identificiramo lahko tudi veliko skupino del, povezanih z napovedjo gibanja človeka (npr. Napoved človekovega gibanja prek prostorsko-časovnega slikanja ali Strukturirano predvidevanje pomaga pri 3D modeliranju človeškega gibanja). Naloga je pomembna in se na podlagi pogovorov z avtorji največkrat uporablja za analizo obnašanja pešcev pri avtonomni vožnji.

Manipulacije z ljudmi na fotografijah in videoposnetkih, virtualne garderobe

Glavni trend je spreminjanje podob obraza glede na parametre, ki jih je mogoče interpretirati. Ideje: deepfake na podlagi ene slike, spreminjanje izraza na podlagi upodobitve obraza (PuppetGAN), posredovanje—spreminjanje parametrov (npr. starost). Slogovni prenosi so se iz naslova teme preselili v aplikacijo dela. Virtualne garderobe so druga zgodba; skoraj vedno delujejo slabo, tukaj je primer predstavitve.

Trendi v računalniškem vidu. Poudarki ICCV 2019

Trendi v računalniškem vidu. Poudarki ICCV 2019

Generiranje iz skic/grafov

Razvoj ideje »Naj omrežje ustvari nekaj na podlagi prejšnjih izkušenj« je postal drugi: »Pokažimo omrežju, katera možnost nas zanima.«

SC-FEGAN omogoča vodeno inbarvanje: uporabnik lahko dokonča slikanje dela obraza na izbrisanem območju slike in glede na dokončanje dobi obnovljeno sliko.

Trendi v računalniškem vidu. Poudarki ICCV 2019

Eden od 25 člankov Adobe za ICCV združuje dva GAN-ja: eden dokonča skico za uporabnika, drugi ustvari fotorealistično sliko iz skice (stran projekta).

Trendi v računalniškem vidu. Poudarki ICCV 2019

Prej grafi niso bili potrebni pri ustvarjanju slik, zdaj pa so postali vsebnik znanja o sceni. Članek je prejel tudi nagrado za najboljšo častno omembo na podlagi rezultatov ICCV Določanje atributov in relacij objekta v interaktivnem ustvarjanju scene. Na splošno jih lahko uporabljate na različne načine: ustvarite grafe iz slik ali slike in besedila iz grafov.

Trendi v računalniškem vidu. Poudarki ICCV 2019

Ponovna identifikacija ljudi in avtomobilov, štetje velikosti množice (!)

Veliko člankov je posvečenih sledenju ljudem in ponovni identifikaciji ljudi in strojev. Kar pa nas je presenetilo, je kup člankov o štetju množic, vsi iz Kitajske.

Plakati Trendi v računalniškem vidu. Poudarki ICCV 2019

Trendi v računalniškem vidu. Poudarki ICCV 2019

Trendi v računalniškem vidu. Poudarki ICCV 2019

Trendi v računalniškem vidu. Poudarki ICCV 2019

Trendi v računalniškem vidu. Poudarki ICCV 2019
Toda Facebook, nasprotno, anonimizira fotografijo. In to počne na zanimiv način: uri nevronsko mrežo, da ustvari obraz brez edinstvenih podrobnosti – podoben, vendar ne tako podoben, da bi ga sistemi za prepoznavanje obraza lahko pravilno prepoznali.

Trendi v računalniškem vidu. Poudarki ICCV 2019

Zaščita pred kontradiktornimi napadi

Z razvojem aplikacij računalniškega vida v realnem svetu (v samovozečih avtomobilih, pri prepoznavanju obrazov) se vedno bolj postavlja vprašanje zanesljivosti tovrstnih sistemov. Če želite v celoti uporabiti CV, morate biti prepričani, da je sistem odporen na kontradiktorne napade - zato ni bilo nič manj člankov o zaščiti pred njimi kot o samih napadih. Veliko dela je bilo vloženega pri razlagi omrežnih napovedi (karta opaznosti) in merjenju zaupanja v rezultat.

Kombinirane naloge

Pri večini nalog z enim ciljem so možnosti za izboljšanje kakovosti tako rekoč izčrpane, ena od novih usmeritev nadaljnjega dvigovanja kakovosti pa je naučiti nevronske mreže reševati več podobnih problemov hkrati. Primeri:
— napoved delovanja + napoved optičnega toka,
— video predstavitev + jezikovna predstavitev (VideoBERT),
- super ločljivost + HDR.

Obstajajo tudi članki o segmentaciji, določanju položaja in ponovni identifikaciji živali!

Trendi v računalniškem vidu. Poudarki ICCV 2019

Trendi v računalniškem vidu. Poudarki ICCV 2019

Poudarki

Skoraj vsi članki so bili znani vnaprej, besedilo je bilo dostopno na arXiv.org. Zato se zdi predstavitev del, kot so Everybody Dance Now, FUNIT, Image2StyleGAN, precej čudna - to so zelo uporabna dela, vendar ne nova. Zdi se, da se klasični proces znanstvenih objav tukaj krha – znanost gre prehitro.

Zelo težko je določiti najboljša dela - veliko jih je, teme so različne. Več prejetih člankov nagrade in omembe.

Izpostaviti želimo dela, ki so zanimiva z vidika slikovne manipulacije, saj je to naša tema. Izkazalo se je, da so za nas precej sveže in zanimive (ne pretvarjamo se, da smo objektivni).

SinGAN (nagrada za najboljši prispevek) in InGAN

SinGAN: stran projekta, arXiv, koda.
InGAN: stran projekta, arXiv, koda.

Razvoj ideje Deep Image Prior Dmitry Ulyanov, Andrea Vedaldi in Victor Lempitsky. Namesto usposabljanja GAN na naboru podatkov se omrežja učijo iz fragmentov iste slike, da si zapomnijo statistiko v njej. Usposobljeno omrežje vam omogoča urejanje in animiranje fotografij (SinGAN) ali ustvarjanje novih slik poljubne velikosti iz tekstur izvirne slike, pri čemer ohranja lokalno strukturo (InGAN).

SinGAN:

Trendi v računalniškem vidu. Poudarki ICCV 2019

InGAN:

Trendi v računalniškem vidu. Poudarki ICCV 2019

Videti, česa GAN ne more ustvariti

Stran projekta.

Nevronske mreže, ki ustvarjajo slike, pogosto kot vhod vzamejo vektor naključnega šuma. V treniranem omrežju veliko vhodnih vektorjev tvori prostor, majhni premiki po katerem vodijo do majhnih sprememb v sliki. Z optimizacijo lahko rešite inverzni problem: poiščite ustrezen vhodni vektor za sliko iz realnega sveta. Avtor pokaže, da skoraj nikoli ni mogoče najti popolnoma ujemajoče se slike v nevronski mreži. Nekateri predmeti na sliki niso generirani (očitno zaradi velike variabilnosti teh predmetov).

Trendi v računalniškem vidu. Poudarki ICCV 2019

Avtor domneva, da GAN ne pokriva celotnega prostora slik, ampak le neko podmnožico, polnjeno z luknjami, kot sir. Ko v njem poskušamo najti fotografije iz resničnega sveta, nam vedno ne uspe, saj GAN še vedno generira ne povsem prave fotografije. Razlike med realnimi in generiranimi slikami je mogoče premagati le s spremembo uteži omrežja, torej s preusposobitvijo za določeno fotografijo.

Trendi v računalniškem vidu. Poudarki ICCV 2019

Ko je omrežje dodatno usposobljeno za določeno fotografijo, lahko poskusite različne manipulacije s to sliko. V spodnjem primeru je fotografiji dodano okno, mreža pa dodatno generira odseve na kuhinjski enoti. To pomeni, da omrežje tudi po dodatnem usposabljanju za fotografiranje ni izgubilo sposobnosti videnja povezave med objekti v prizoru.

Trendi v računalniškem vidu. Poudarki ICCV 2019

GANalyze: K vizualnim definicijam lastnosti kognitivne slike

Stran projekta, arXiv.

S pristopom iz tega dela lahko vizualizirate in analizirate, kaj se je naučila nevronska mreža. Avtorji predlagajo, da se GAN usposobi za ustvarjanje slik, za katere bo omrežje ustvarilo določene napovedi. Članek je kot primer uporabil več omrežij, vključno z MemNet, ki napoveduje zapomnljivost fotografij. Izkazalo se je, da bi moral predmet na fotografiji za boljšo zapomnljivost:

  • biti bližje centru
  • imajo bolj okroglo ali kvadratno obliko in preprosto strukturo,
  • biti na enotnem ozadju,
  • imajo izrazite oči (vsaj za fotografije psov),
  • biti svetlejši, bolj nasičen, v nekaterih primerih bolj rdeč.

Trendi v računalniškem vidu. Poudarki ICCV 2019

Liquid Warping GAN: poenoten okvir za imitacijo človeškega gibanja, prenos videza in sintezo novih pogledov

Stran projekta, arXiv, koda.

Cevovod za ustvarjanje fotografij ljudi eno fotografijo naenkrat. Avtorji prikazujejo uspešne primere prenosa gibanja ene osebe na drugo, prenašanja oblačil med ljudmi in generiranja novih zornih kotov osebe – vse iz ene fotografije. Za razliko od prejšnjih del tukaj ne uporabljamo ključnih točk v 2D (poza), temveč 3D mrežo telesa (poza + oblika) za ustvarjanje pogojev. Avtorji so se tudi domislili, kako prenesti informacije iz originalne slike na generirano (Liquid Warping Block). Rezultati so videti spodobni, vendar je ločljivost dobljene slike le 256x256. Za primerjavo, vid2vid, ki se je pojavil pred letom dni, zmore generirati v ločljivosti 2048 x 1024, vendar zahteva kar 10 minut snemanja videa kot nabor podatkov.

Trendi v računalniškem vidu. Poudarki ICCV 2019

FSGAN: Subjekt Agnostic Face Swapping and Reenactment

Stran projekta, arXiv.

Sprva se zdi, da ni nič nenavadnega: deepfake z bolj ali manj normalno kakovostjo. Toda glavni dosežek dela je zamenjava obrazov iz ene slike. Za razliko od prejšnjih del je bilo potrebno usposabljanje na številnih fotografijah določene osebe. Cevovod se je izkazal za okornega (reenactment in segmentacija, interpolacija pogleda, inpainting, mešanje) in z veliko tehničnimi vdori, vendar je rezultat vreden.

Trendi v računalniškem vidu. Poudarki ICCV 2019

Odkrivanje nepričakovanega prek ponovne sinteze slike

arXiv.

Kako lahko dron razume, da se je pred njim nenadoma pojavil objekt, ki ne spada v noben razred semantične segmentacije? Obstaja več metod, vendar avtorji predlagajo nov, intuitiven algoritem, ki deluje bolje kot njegovi predhodniki. Semantična segmentacija je predvidena iz vhodne slike ceste. Vnese se kot vhod v GAN (pix2pixHD), ki poskuša obnoviti izvirno sliko samo iz semantične karte. Anomalije, ki ne spadajo v noben segment, se bodo bistveno razlikovale v izhodu in generirani sliki. Tri slike (izvirna, segmentirana in rekonstruirana) se nato vnesejo v drugo omrežje, ki napoveduje anomalije. Nabor podatkov za to je bil ustvarjen iz dobro znanega nabora podatkov Cityscapes, pri čemer so se razredi semantične segmentacije naključno spreminjali. Zanimivo je, da v tej nastavitvi pes, ki stoji sredi ceste, vendar pravilno segmentiran (kar pomeni, da zanj obstaja razred), ni anomalija, saj ga je sistem lahko prepoznal.

Trendi v računalniškem vidu. Poudarki ICCV 2019

Zaključek

Pred konferenco je pomembno vedeti, kaj so vaši znanstveni interesi, katerih predstavitev bi se radi udeležili in s kom se pogovarjati. Potem bo vse veliko bolj produktivno.

ICCV je v prvi vrsti mreženje. Razumeš, da obstajajo vrhunski inštituti in vrhunski znanstveni oddelki, začneš to razumeti, spoznavaš ljudi. In lahko preberete članke o arXiv - in mimogrede, zelo kul je, da vam ni treba iti nikamor, da bi pridobili znanje.

Poleg tega se lahko na konferenci poglobite v teme, ki vam niso blizu in vidite trende. No, napišite seznam člankov za branje. Če ste študent, je to priložnost, da spoznate potencialnega učitelja, če ste iz industrije, potem z novim delodajalcem, če pa podjetje, da se pokažete.

Naročite se na @loss_function_porn! To je osebni projekt: vodimo ga skupaj z karfly. Vsa dela, ki so nam bila med konferenco všeč, smo objavili tukaj: @loss_function_live.

Vir: www.habr.com

Dodaj komentar