Nevronske mreže v računalniškem vidu se aktivno razvijajo, številni problemi so še daleč od rešitve. Če želite biti v trendu na svojem področju, samo sledite vplivnežem na Twitterju in preberite ustrezne članke na arXiv.org. Imeli pa smo priložnost iti na Mednarodno konferenco o računalniškem vidu (ICCV) 2019. Letos poteka v Južni Koreji. Zdaj želimo z bralci Habra deliti, kar smo videli in izvedeli.
Tam nas je bilo veliko iz Yandexa: prišli so razvijalci samovozečih avtomobilov, raziskovalci in tisti, ki se ukvarjajo z življenjepisnimi nalogami v storitvah. Zdaj pa želimo predstaviti nekoliko subjektiven pogled naše ekipe - Laboratorija za strojno inteligenco (Yandex MILAB). Ostali fantje so na konferenco verjetno gledali s svojega zornega kota.
Kaj dela laboratorij?Delamo eksperimentalne projekte, povezane z ustvarjanjem slik in glasbe za zabavne namene. Še posebej nas zanimajo nevronske mreže, ki omogočajo spreminjanje vsebine od uporabnika (za fotografije se ta naloga imenuje manipulacija s slikami).
Znanstvenih konferenc je veliko, izstopajo pa tiste vrhunske, tako imenovane A* konference, kjer so običajno objavljeni članki o najbolj zanimivih in najpomembnejših tehnologijah. Natančnega seznama konferenc A* ni, tukaj je približen in nepopoln seznam: NeurIPS (prej NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Zadnji trije so specializirani za temo CV.
ICCV na prvi pogled: plakati, vaje, delavnice, stojnice
Konferenca je prejela 1075 prispevkov, udeležencev je bilo 7500. Iz Rusije so prišli 103 ljudje, bili so članki zaposlenih v Yandexu, Skoltechu, Samsung AI Center Moscow in Samarski univerzi. Letos ICCV ni obiskalo veliko vrhunskih raziskovalcev, ampak na primer Aleksej (Aljoša) Efros, ki vedno privabi veliko ljudi:
statistika
Na vseh tovrstnih konferencah so članki predstavljeni v obliki posterjev (
Tukaj je nekaj del iz Rusije
Z vajami se lahko poglobite v določeno predmetno področje; spominja na predavanje na univerzi. Bere ga ena oseba, običajno brez govora o določenih delih. Primer kul vadnice (
Na delavnicah se, nasprotno, pogovarjajo o artiklih. Običajno so to dela v neki ozki temi, zgodbe vodij laboratorijev o vseh najnovejših delih študentov ali članki, ki niso bili sprejeti na glavno konferenco.
Sponzorska podjetja prihajajo na ICCV s stojnicami. Letos so prišli Google, Facebook, Amazon in mnoga druga mednarodna podjetja, pa tudi veliko število startupov – korejskih in kitajskih. Posebno veliko je bilo startupov, ki so se specializirali za označevanje podatkov. Na stojnicah potekajo predstave, lahko vzamete blago in postavljate vprašanja. Za lovske namene organizirajo sponzorske družbe zabave. Vanje lahko pridete, če prepričate zaposlovalce, da vas zanimajo in da potencialno lahko opravite razgovore. Če ste objavili članek (ali ga še več predstavili), začeli ali končujete doktorat, je to plus, včasih pa se lahko pogajate na stojnici tako, da inženirjem podjetja postavite zanimiva vprašanja.
Trendi
Konferenca vam omogoča vpogled v celotno področje življenjepisa. Po številu plakatov na določeno temo lahko ocenite, kako pereča je tema. Nekaj zaključkov se nakazuje na podlagi ključnih besed:
Ničelni, enkratni, nekajkratni, samonadzorovani in delno nadzorovani: novi pristopi k dolgo preučevanim nalogam
Ljudje se učijo učinkoviteje uporabljati podatke. Na primer, v
3D in 360°
Težave, ki so bile večinoma rešene pri fotografijah (segmentacija, detekcija), zahtevajo dodatne raziskave pri 3D modelih in panoramskih videih. Videli smo veliko člankov o pretvorbi RGB in RGB-D v 3D. Nekatere težave, kot je ocena človeške poze, je mogoče rešiti bolj naravno s prehodom na 3D modele. Vendar še ni soglasja o tem, kako natančno predstaviti XNUMXD modele - v obliki mreže, oblaka točk, vokslov ali SDF. Tu je še ena možnost:
V panoramah se konvolucije na krogli aktivno razvijajo (glej.
Zaznavanje položaja in predvidevanje gibanja človeka
Pri zaznavanju poze v 2D je že prišlo do napredka - zdaj se je fokus preusmeril na delo z več kamerami in v 3D. Na primer, okostnjak lahko zaznate tudi skozi steno s sledenjem spremembam signala Wi-Fi, ko gre skozi človeško telo.
Veliko dela je bilo opravljenega na področju zaznavanja ročnih ključnih točk. Pojavili so se novi nabori podatkov, vključno s tistimi, ki temeljijo na videoposnetkih dialogov med dvema osebama - zdaj lahko predvidite kretnje rok iz zvoka ali besedila pogovora! Enak napredek je bil dosežen pri nalogah sledenja očem (ocena pogleda).
Identificiramo lahko tudi veliko skupino del, povezanih z napovedjo gibanja človeka (npr.
Manipulacije z ljudmi na fotografijah in videoposnetkih, virtualne garderobe
Glavni trend je spreminjanje podob obraza glede na parametre, ki jih je mogoče interpretirati. Ideje: deepfake na podlagi ene slike, spreminjanje izraza na podlagi upodobitve obraza (
Generiranje iz skic/grafov
Razvoj ideje »Naj omrežje ustvari nekaj na podlagi prejšnjih izkušenj« je postal drugi: »Pokažimo omrežju, katera možnost nas zanima.«
Eden od 25 člankov Adobe za ICCV združuje dva GAN-ja: eden dokonča skico za uporabnika, drugi ustvari fotorealistično sliko iz skice (
Prej grafi niso bili potrebni pri ustvarjanju slik, zdaj pa so postali vsebnik znanja o sceni. Članek je prejel tudi nagrado za najboljšo častno omembo na podlagi rezultatov ICCV
Ponovna identifikacija ljudi in avtomobilov, štetje velikosti množice (!)
Veliko člankov je posvečenih sledenju ljudem in ponovni identifikaciji ljudi in strojev. Kar pa nas je presenetilo, je kup člankov o štetju množic, vsi iz Kitajske.
Plakati
Toda Facebook, nasprotno, anonimizira fotografijo. In to počne na zanimiv način: uri nevronsko mrežo, da ustvari obraz brez edinstvenih podrobnosti – podoben, vendar ne tako podoben, da bi ga sistemi za prepoznavanje obraza lahko pravilno prepoznali.
Zaščita pred kontradiktornimi napadi
Z razvojem aplikacij računalniškega vida v realnem svetu (v samovozečih avtomobilih, pri prepoznavanju obrazov) se vedno bolj postavlja vprašanje zanesljivosti tovrstnih sistemov. Če želite v celoti uporabiti CV, morate biti prepričani, da je sistem odporen na kontradiktorne napade - zato ni bilo nič manj člankov o zaščiti pred njimi kot o samih napadih. Veliko dela je bilo vloženega pri razlagi omrežnih napovedi (karta opaznosti) in merjenju zaupanja v rezultat.
Kombinirane naloge
Pri večini nalog z enim ciljem so možnosti za izboljšanje kakovosti tako rekoč izčrpane, ena od novih usmeritev nadaljnjega dvigovanja kakovosti pa je naučiti nevronske mreže reševati več podobnih problemov hkrati. Primeri:
— napoved delovanja + napoved optičnega toka,
— video predstavitev + jezikovna predstavitev (
-
Obstajajo tudi članki o segmentaciji, določanju položaja in ponovni identifikaciji živali!
Poudarki
Skoraj vsi članki so bili znani vnaprej, besedilo je bilo dostopno na arXiv.org. Zato se zdi predstavitev del, kot so Everybody Dance Now, FUNIT, Image2StyleGAN, precej čudna - to so zelo uporabna dela, vendar ne nova. Zdi se, da se klasični proces znanstvenih objav tukaj krha – znanost gre prehitro.
Zelo težko je določiti najboljša dela - veliko jih je, teme so različne. Več prejetih člankov
Izpostaviti želimo dela, ki so zanimiva z vidika slikovne manipulacije, saj je to naša tema. Izkazalo se je, da so za nas precej sveže in zanimive (ne pretvarjamo se, da smo objektivni).
SinGAN (nagrada za najboljši prispevek) in InGAN
SinGAN:
InGAN:
Razvoj ideje Deep Image Prior Dmitry Ulyanov, Andrea Vedaldi in Victor Lempitsky. Namesto usposabljanja GAN na naboru podatkov se omrežja učijo iz fragmentov iste slike, da si zapomnijo statistiko v njej. Usposobljeno omrežje vam omogoča urejanje in animiranje fotografij (SinGAN) ali ustvarjanje novih slik poljubne velikosti iz tekstur izvirne slike, pri čemer ohranja lokalno strukturo (InGAN).
SinGAN:
InGAN:
Videti, česa GAN ne more ustvariti
Nevronske mreže, ki ustvarjajo slike, pogosto kot vhod vzamejo vektor naključnega šuma. V treniranem omrežju veliko vhodnih vektorjev tvori prostor, majhni premiki po katerem vodijo do majhnih sprememb v sliki. Z optimizacijo lahko rešite inverzni problem: poiščite ustrezen vhodni vektor za sliko iz realnega sveta. Avtor pokaže, da skoraj nikoli ni mogoče najti popolnoma ujemajoče se slike v nevronski mreži. Nekateri predmeti na sliki niso generirani (očitno zaradi velike variabilnosti teh predmetov).
Avtor domneva, da GAN ne pokriva celotnega prostora slik, ampak le neko podmnožico, polnjeno z luknjami, kot sir. Ko v njem poskušamo najti fotografije iz resničnega sveta, nam vedno ne uspe, saj GAN še vedno generira ne povsem prave fotografije. Razlike med realnimi in generiranimi slikami je mogoče premagati le s spremembo uteži omrežja, torej s preusposobitvijo za določeno fotografijo.
Ko je omrežje dodatno usposobljeno za določeno fotografijo, lahko poskusite različne manipulacije s to sliko. V spodnjem primeru je fotografiji dodano okno, mreža pa dodatno generira odseve na kuhinjski enoti. To pomeni, da omrežje tudi po dodatnem usposabljanju za fotografiranje ni izgubilo sposobnosti videnja povezave med objekti v prizoru.
GANalyze: K vizualnim definicijam lastnosti kognitivne slike
S pristopom iz tega dela lahko vizualizirate in analizirate, kaj se je naučila nevronska mreža. Avtorji predlagajo, da se GAN usposobi za ustvarjanje slik, za katere bo omrežje ustvarilo določene napovedi. Članek je kot primer uporabil več omrežij, vključno z MemNet, ki napoveduje zapomnljivost fotografij. Izkazalo se je, da bi moral predmet na fotografiji za boljšo zapomnljivost:
- biti bližje centru
- imajo bolj okroglo ali kvadratno obliko in preprosto strukturo,
- biti na enotnem ozadju,
- imajo izrazite oči (vsaj za fotografije psov),
- biti svetlejši, bolj nasičen, v nekaterih primerih bolj rdeč.
Liquid Warping GAN: poenoten okvir za imitacijo človeškega gibanja, prenos videza in sintezo novih pogledov
Cevovod za ustvarjanje fotografij ljudi eno fotografijo naenkrat. Avtorji prikazujejo uspešne primere prenosa gibanja ene osebe na drugo, prenašanja oblačil med ljudmi in generiranja novih zornih kotov osebe – vse iz ene fotografije. Za razliko od prejšnjih del tukaj ne uporabljamo ključnih točk v 2D (poza), temveč 3D mrežo telesa (poza + oblika) za ustvarjanje pogojev. Avtorji so se tudi domislili, kako prenesti informacije iz originalne slike na generirano (Liquid Warping Block). Rezultati so videti spodobni, vendar je ločljivost dobljene slike le 256x256. Za primerjavo, vid2vid, ki se je pojavil pred letom dni, zmore generirati v ločljivosti 2048 x 1024, vendar zahteva kar 10 minut snemanja videa kot nabor podatkov.
FSGAN: Subjekt Agnostic Face Swapping and Reenactment
Sprva se zdi, da ni nič nenavadnega: deepfake z bolj ali manj normalno kakovostjo. Toda glavni dosežek dela je zamenjava obrazov iz ene slike. Za razliko od prejšnjih del je bilo potrebno usposabljanje na številnih fotografijah določene osebe. Cevovod se je izkazal za okornega (reenactment in segmentacija, interpolacija pogleda, inpainting, mešanje) in z veliko tehničnimi vdori, vendar je rezultat vreden.
Odkrivanje nepričakovanega prek ponovne sinteze slike
Kako lahko dron razume, da se je pred njim nenadoma pojavil objekt, ki ne spada v noben razred semantične segmentacije? Obstaja več metod, vendar avtorji predlagajo nov, intuitiven algoritem, ki deluje bolje kot njegovi predhodniki. Semantična segmentacija je predvidena iz vhodne slike ceste. Vnese se kot vhod v GAN (pix2pixHD), ki poskuša obnoviti izvirno sliko samo iz semantične karte. Anomalije, ki ne spadajo v noben segment, se bodo bistveno razlikovale v izhodu in generirani sliki. Tri slike (izvirna, segmentirana in rekonstruirana) se nato vnesejo v drugo omrežje, ki napoveduje anomalije. Nabor podatkov za to je bil ustvarjen iz dobro znanega nabora podatkov Cityscapes, pri čemer so se razredi semantične segmentacije naključno spreminjali. Zanimivo je, da v tej nastavitvi pes, ki stoji sredi ceste, vendar pravilno segmentiran (kar pomeni, da zanj obstaja razred), ni anomalija, saj ga je sistem lahko prepoznal.
Zaključek
Pred konferenco je pomembno vedeti, kaj so vaši znanstveni interesi, katerih predstavitev bi se radi udeležili in s kom se pogovarjati. Potem bo vse veliko bolj produktivno.
ICCV je v prvi vrsti mreženje. Razumeš, da obstajajo vrhunski inštituti in vrhunski znanstveni oddelki, začneš to razumeti, spoznavaš ljudi. In lahko preberete članke o arXiv - in mimogrede, zelo kul je, da vam ni treba iti nikamor, da bi pridobili znanje.
Poleg tega se lahko na konferenci poglobite v teme, ki vam niso blizu in vidite trende. No, napišite seznam člankov za branje. Če ste študent, je to priložnost, da spoznate potencialnega učitelja, če ste iz industrije, potem z novim delodajalcem, če pa podjetje, da se pokažete.
Naročite se na
Vir: www.habr.com