Trendovi računalnog vida. ICCV 2019. Istaknuto

Trendovi računalnog vida. ICCV 2019. Istaknuto

Neuronske mreže u računalnom vidu aktivno se razvijaju, mnogi problemi još su daleko od rješenja. Kako biste bili u trendu u svom području, samo pratite influencere na Twitteru i čitajte relevantne članke na arXiv.org. No, imali smo priliku otići na International Conference on Computer Vision (ICCV) 2019. Ove godine održava se u Južnoj Koreji. Sada želimo s čitateljima Habra podijeliti što smo vidjeli i naučili.

Bilo nas je dosta iz Yandexa: dolazili su programeri samovozećih automobila, istraživači i oni koji se bave CV zadacima u servisima. Ali sada želimo predstaviti pomalo subjektivno gledište našeg tima - Laboratorija za strojnu inteligenciju (Yandex MILAB). Ostali dečki su vjerojatno gledali konferenciju iz svog kuta.

Čime se laboratorij bavi?Radimo eksperimentalne projekte vezane uz generiranje slika i glazbe u zabavne svrhe. Posebno smo zainteresirani za neuronske mreže koje vam omogućuju promjenu sadržaja od korisnika (za fotografije se ovaj zadatak naziva manipulacija slikama). Primjer rezultat našeg rada s konferencije YaC 2019.
Znanstvenih skupova ima puno, no ističu se oni vrhunski, tzv. A* konferencije, na kojima se obično objavljuju članci o najzanimljivijim i najvažnijim tehnologijama. Ne postoji točan popis A* konferencija, evo okvirnog i nepotpunog popisa: NeurIPS (bivši NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Posljednja tri specijalizirana su za životopis.

ICCV na prvi pogled: posteri, lekcije, radionice, štandovi

Na konferenciji je pristiglo 1075 radova, sudionika je bilo 7500. Iz Rusije je došlo 103 ljudi, bilo je članaka zaposlenika Yandexa, Skoltecha, Samsung AI Centra Moskva i Sveučilišta u Samari. Ove godine nije bilo puno vrhunskih istraživača koji su posjetili ICCV, ali, primjerice, Alexey (Alyosha) Efros, koji uvijek privuče puno ljudi:

Trendovi računalnog vida. ICCV 2019. Istaknuto

statistika Trendovi računalnog vida. ICCV 2019. Istaknuto

Trendovi računalnog vida. ICCV 2019. Istaknuto

Trendovi računalnog vida. ICCV 2019. Istaknuto

Trendovi računalnog vida. ICCV 2019. Istaknuto

Trendovi računalnog vida. ICCV 2019. Istaknuto

Na svim takvim konferencijama članci se prezentiraju u obliku postera (više o formatu), a oni najbolji prezentirani su iu obliku kratkih izvješća.

Ovdje su neki od radova iz Rusije Trendovi računalnog vida. ICCV 2019. Istaknuto

Trendovi računalnog vida. ICCV 2019. Istaknuto

Trendovi računalnog vida. ICCV 2019. Istaknuto

Pomoću tutorijala možete zaroniti u određeno predmetno područje; to podsjeća na predavanje na sveučilištu. Čita ga jedna osoba, obično bez govora o određenim djelima. Primjer cool tutorijala (Michael Brown, Razumijevanje boja i cjevovoda za obradu slike u fotoaparatu za računalni vid):

Trendovi računalnog vida. ICCV 2019. Istaknuto

Na radionicama se, naprotiv, priča o artiklima. Obično su to radovi iz neke uže teme, priče voditelja laboratorija o svim najnovijim radovima studenata ili članci koji nisu prihvaćeni na glavnoj konferenciji.

Sponzorske tvrtke dolaze na ICCV sa štandovima. Ove godine došli su Google, Facebook, Amazon i mnoge druge međunarodne kompanije, ali i velik broj startupova – korejskih i kineskih. Bilo je posebno mnogo startupa koji su se specijalizirali za označavanje podataka. Na štandovima se održavaju performansi, možete uzeti merch i postavljati pitanja. Za potrebe lova, sponzorske tvrtke organiziraju zabave. U njih možete ući ako uvjerite regrutere da ste zainteresirani i da potencijalno možete proći intervjue. Ako ste objavili članak (ili ga, štoviše, prezentirali), započeli ili završavate doktorat, to je plus, ali ponekad možete pregovarati na štandu postavljajući zanimljiva pitanja inženjerima tvrtke.

trendovi

Konferencija vam omogućuje da bacite pogled na cjelokupno područje životopisa. Po broju postera na pojedinu temu možete procijeniti koliko je tema aktualna. Neki se zaključci nameću sami od sebe na temelju ključnih riječi:

Trendovi računalnog vida. ICCV 2019. Istaknuto

Nulti pokušaj, jednokratni pokušaj, nekoliko pokušaja, samonadzor i polunadzor: novi pristupi dugo proučavanim zadacima

Ljudi uče učinkovitije koristiti podatke. Na primjer, u FUNIT moguće je generirati izraze lica životinja koje nisu bile u setu za obuku (u aplikaciji, pružanjem nekoliko referentnih slika). Ideje Deep Image Prior su razvijene i sada se GAN mreže mogu trenirati na jednoj slici - o tome ćemo govoriti u nastavku u naglascima. Možete koristiti samonadzor za prethodnu obuku (rješavanje problema za koji možete sintetizirati usklađene podatke, kao što je predviđanje kuta rotacije slike) ili učiti istovremeno iz označenih i neoznačenih podataka. U tom smislu članak se može smatrati krunom stvaranja S4L: Samonadzirano polunadzirano učenje. A ovdje je i prethodna obuka na ImageNetu ne uvijek pomaže.

Trendovi računalnog vida. ICCV 2019. Istaknuto

Trendovi računalnog vida. ICCV 2019. Istaknuto

3D i 360°

Problemi koji su uglavnom riješeni za fotografije (segmentacija, detekcija) zahtijevaju dodatna istraživanja za 3D modele i panoramske videozapise. Vidjeli smo mnogo članaka o pretvaranju RGB i RGB-D u 3D. Neki problemi, kao što je procjena ljudske poze, mogu se riješiti prirodnije prelaskom na 3D modele. Ali još nema konsenzusa o tome kako točno predstaviti XNUMXD modele - u obliku mreže, oblaka točaka, voxela ili SDF-a. Evo još jedne opcije:

Trendovi računalnog vida. ICCV 2019. Istaknuto

U panoramama se aktivno razvijaju vijuge na sferi (vidi. Semantička segmentacija svjesna orijentacije na sferama ikosaedra) i tražite ključne objekte u okviru.

Trendovi računalnog vida. ICCV 2019. Istaknuto

Detekcija položaja i predviđanje ljudskih pokreta

Već je bilo napretka u detekciji položaja u 2D - sada je fokus pomaknut prema radu s više kamera iu 3D. Također je moguće, primjerice, detektirati kostur kroz zid prateći promjene u Wi-Fi signalu dok prolazi kroz ljudsko tijelo.

Puno je posla učinjeno na području detekcije ključnih točaka ruke. Pojavili su se novi skupovi podataka, uključujući one koji se temelje na videozapisima dijaloga između dvoje ljudi - sada možete predvidjeti geste ruku iz zvuka ili teksta razgovora! Isti napredak postignut je u zadacima praćenja pogleda (procjena pogleda).

Trendovi računalnog vida. ICCV 2019. Istaknuto

Trendovi računalnog vida. ICCV 2019. Istaknuto

Također se može identificirati veliki klaster radova koji se odnose na predviđanje ljudskog kretanja (na primjer, Predviđanje ljudskog kretanja putem prostorno-vremenskog slikanja ili Strukturirano predviđanje pomaže 3D modeliranju ljudskih pokreta). Zadatak je važan i, na temelju razgovora s autorima, najčešće se koristi za analizu ponašanja pješaka u autonomnoj vožnji.

Manipulacije s ljudima na fotografijama i video zapisima, virtualne kabine za provlačenje

Glavni trend je mijenjanje slika lica prema parametrima koji se mogu interpretirati. Ideje: deepfake na temelju jedne slike, mijenjanje izraza na temelju renderiranja lica (LutkaGAN), feedforward—promjena parametara (na primjer, dob). Prijenosi stila prešli su s naslova teme na primjenu rada. Virtualne svlačionice su druga priča; one gotovo uvijek rade loše, ovdje je primjer demonstracije.

Trendovi računalnog vida. ICCV 2019. Istaknuto

Trendovi računalnog vida. ICCV 2019. Istaknuto

Generiranje iz skica/grafova

Razvoj ideje "Neka grid generira nešto na temelju prethodnog iskustva" postao je drugi: "Pokažimo gridu koja nas opcija zanima."

SC-FEGAN omogućuje vam da napravite vođeno inpaint: korisnik može dovršiti slikanje dijela lica u izbrisanom području slike i dobiti obnovljenu sliku ovisno o završetku.

Trendovi računalnog vida. ICCV 2019. Istaknuto

Jedan od 25 Adobe članaka za ICCV kombinira dva GAN-a: jedan dovršava skicu za korisnika, drugi generira fotorealističnu sliku iz skice (stranica projekta).

Trendovi računalnog vida. ICCV 2019. Istaknuto

Ranije grafikoni nisu bili potrebni za generiranje slika, ali sada su postali spremnik znanja o sceni. Članak je također osvojio nagradu za najbolji rad na temelju rezultata ICCV-a Specificiranje atributa i odnosa objekta u interaktivnom stvaranju scene. Općenito, možete ih koristiti na različite načine: generirati grafikone iz slika ili slike i tekstove iz grafikona.

Trendovi računalnog vida. ICCV 2019. Istaknuto

Ponovno prepoznavanje ljudi i automobila, prebrojavanje mase (!)

Mnogi članci posvećeni su praćenju ljudi i ponovnom identificiranju ljudi i strojeva. Ali ono što nas je iznenadilo bila je hrpa članaka o prebrojavanju publike, svi iz Kine.

plakati Trendovi računalnog vida. ICCV 2019. Istaknuto

Trendovi računalnog vida. ICCV 2019. Istaknuto

Trendovi računalnog vida. ICCV 2019. Istaknuto

Trendovi računalnog vida. ICCV 2019. Istaknuto

Trendovi računalnog vida. ICCV 2019. Istaknuto
Ali Facebook, naprotiv, anonimizira fotografiju. I to čini na zanimljiv način: trenira neuronsku mrežu da generira lice bez jedinstvenih detalja - slično, ali ne toliko slično da ga sustavi za prepoznavanje lica mogu ispravno identificirati.

Trendovi računalnog vida. ICCV 2019. Istaknuto

Zaštita od suparničkih napada

S razvojem aplikacija računalnog vida u stvarnom svijetu (u samovozećim automobilima, u prepoznavanju lica), sve se više postavlja pitanje pouzdanosti takvih sustava. Da biste u potpunosti iskoristili CV, morate biti sigurni da je sustav otporan na kontradiktorne napade - zato nije bilo ništa manje članaka o zaštiti od njih nego o samim napadima. Bilo je puno posla na objašnjavanju mrežnih predviđanja (karta istaknutosti) i mjerenju pouzdanosti u rezultat.

Kombinirani zadaci

U većini zadataka s jednim ciljem mogućnosti poboljšanja kvalitete su praktički iscrpljene, a jedan od novih smjerova daljnjeg povećanja kvalitete je naučiti neuronske mreže da rješavaju više sličnih problema istovremeno. Primjeri:
— predviđanje akcije + predviđanje optičkog protoka,
— video prezentacija + jezična prezentacija (VideoBERT),
- super rezolucija + HDR.

Tu su i članci o segmentaciji, određivanju poze i ponovnoj identifikaciji životinja!

Trendovi računalnog vida. ICCV 2019. Istaknuto

Trendovi računalnog vida. ICCV 2019. Istaknuto

Naglasci

Gotovo svi članci bili su unaprijed poznati, tekst je bio dostupan na arXiv.org. Stoga se predstavljanje takvih radova kao što su Everybody Dance Now, FUNIT, Image2StyleGAN čini prilično čudnim - to su vrlo korisni radovi, ali nisu novi. Čini se da se ovdje lomi klasični proces znanstvenih publikacija – znanost se prebrzo kreće.

Vrlo je teško odrediti najbolje radove – ima ih mnogo, teme su različite. Primljeno je nekoliko članaka nagrade i priznanja.

Želimo istaknuti radove koji su zanimljivi sa stajališta manipulacije slikom, budući da je to naša tema. Ispale su nam prilično svježe i zanimljive (ne pretendiramo biti objektivni).

SinGAN (nagrada za najbolji rad) i InGAN

SinGAN: stranica projekta, arXiv, šifra.
InGAN: stranica projekta, arXiv, šifra.

Razvoj ideje Deep Image Prior od Dmitry Ulyanov, Andrea Vedaldi i Victor Lempitsky. Umjesto treniranja GAN-a na skupu podataka, mreže uče iz fragmenata iste slike kako bi zapamtile statistiku unutar nje. Osposobljena mreža vam omogućuje uređivanje i animiranje fotografija (SinGAN) ili generiranje novih slika bilo koje veličine iz tekstura izvorne slike, čuvajući lokalnu strukturu (InGAN).

SinGAN:

Trendovi računalnog vida. ICCV 2019. Istaknuto

InGAN:

Trendovi računalnog vida. ICCV 2019. Istaknuto

Vidjeti što GAN ne može generirati

Stranica projekta.

Neuronske mreže koje generiraju slike često uzimaju vektor slučajnog šuma kao ulaz. U treniranoj mreži, mnogi ulazni vektori tvore prostor, mali pokreti duž kojih dovode do malih promjena na slici. Pomoću optimizacije možete riješiti inverzni problem: pronaći odgovarajući ulazni vektor za sliku iz stvarnog svijeta. Autor pokazuje da u neuronskoj mreži gotovo nikada nije moguće pronaći potpuno podudarnu sliku. Neki objekti na slici nisu generirani (navodno zbog velike varijabilnosti tih objekata).

Trendovi računalnog vida. ICCV 2019. Istaknuto

Autor pretpostavlja da GAN ne pokriva cijeli prostor slika, već samo neki podskup, napunjen rupama, poput sira. Kada u njemu pokušamo pronaći fotografije iz stvarnog svijeta, uvijek nećemo uspjeti, jer GAN ipak generira ne posve stvarne fotografije. Razlike između stvarnih i generiranih slika mogu se prevladati samo promjenom težine mreže, odnosno njezinim prekvalificiranjem za određenu fotografiju.

Trendovi računalnog vida. ICCV 2019. Istaknuto

Kada se mreža dodatno osposobi za određenu fotografiju, možete isprobati razne manipulacije ovom slikom. U donjem primjeru fotografiji je dodan prozor, a mreža je dodatno generirala refleksije na kuhinjskom elementu. To znači da mreža, čak ni nakon dodatnog osposobljavanja za fotografiranje, nije izgubila sposobnost uočavanja povezanosti između objekata u sceni.

Trendovi računalnog vida. ICCV 2019. Istaknuto

GANalyze: prema vizualnim definicijama svojstava kognitivne slike

Stranica projekta, arXiv.

Koristeći pristup iz ovog rada, možete vizualizirati i analizirati što je neuronska mreža naučila. Autori predlažu treniranje GAN-a za stvaranje slika za koje će mreža generirati određena predviđanja. U članku je kao primjer korišteno nekoliko mreža, uključujući MemNet, koji predviđa pamtljivost fotografija. Ispostavilo se da bi za bolje pamćenje objekt na fotografiji trebao:

  • biti bliže centru
  • imaju više okrugli ili kvadratni oblik i jednostavnu strukturu,
  • biti na jedinstvenoj pozadini,
  • imati izražajne oči (barem za fotografije pasa),
  • biti svjetliji, zasićeniji, u nekim slučajevima crveniji.

Trendovi računalnog vida. ICCV 2019. Istaknuto

Liquid Warping GAN: objedinjeni okvir za imitaciju ljudskog pokreta, prijenos izgleda i sintezu novog pogleda

Stranica projekta, arXiv, šifra.

Cjevovod za generiranje fotografija ljudi jednu po jednu. Autori prikazuju uspješne primjere prijenosa pokreta jedne osobe na drugu, prenošenja odjeće među ljudima i generiranja novih kutova osobe – sve iz jedne fotografije. Za razliku od prethodnih radova, ovdje ne koristimo ključne točke u 2D (poza), već 3D mrežu tijela (poza + oblik) za stvaranje uvjeta. Autori su se također dosjetili kako prenijeti informacije s izvorne slike na generiranu (Liquid Warping Block). Rezultati izgledaju pristojno, ali rezolucija dobivene slike je samo 256x256. Za usporedbu, vid2vid, koji se pojavio prije godinu dana, sposoban je generirati u rezoluciji 2048x1024, ali zahtijeva čak 10 minuta video snimanja kao dataset.

Trendovi računalnog vida. ICCV 2019. Istaknuto

FSGAN: Subjekt Agnostic Face Swapping and Reenactment

Stranica projekta, arXiv.

Isprva se čini da nema ničeg neobičnog: deepfake više-manje normalne kvalitete. Ali glavno postignuće rada je zamjena lica s jedne slike. Za razliku od prethodnih radova, obuka je bila potrebna na mnogim fotografijama određene osobe. Cjevovod se pokazao glomaznim (rekonstrukcija i segmentacija, interpolacija pogleda, inpainting, blending) i s puno tehničkih hakova, ali rezultat je vrijedan toga.

Trendovi računalnog vida. ICCV 2019. Istaknuto

Detecting the Unexpected by Image Resynthesis

arXiv.

Kako dron može shvatiti da se ispred njega iznenada pojavio objekt koji ne spada ni u jednu klasu semantičke segmentacije? Postoji nekoliko metoda, ali autori predlažu novi, intuitivni algoritam koji radi bolje od svojih prethodnika. Semantička segmentacija predviđa se iz ulazne slike ceste. Unosi se kao ulaz u GAN (pix2pixHD), koji pokušava vratiti izvornu sliku samo iz semantičke mape. Anomalije koje ne spadaju ni u jedan od segmenata značajno će se razlikovati u izlazu i generiranoj slici. Tri slike (izvorna, segmentirana i rekonstruirana) zatim se šalju u drugu mrežu koja predviđa anomalije. Skup podataka za ovo generiran je iz dobro poznatog skupa podataka Cityscapes, nasumično mijenjajući klase semantičke segmentacije. Zanimljivo, u ovoj postavci pas koji stoji nasred ceste, ali je pravilno segmentiran (što znači da za njega postoji klasa), nije anomalija, jer ga je sustav uspio prepoznati.

Trendovi računalnog vida. ICCV 2019. Istaknuto

Zaključak

Prije konferencije važno je znati koji su vaši znanstveni interesi, kojim prezentacijama želite prisustvovati i s kim razgovarati. Tada će sve biti mnogo produktivnije.

ICCV je prije svega umrežavanje. Shvaćaš da postoje vrhunski instituti i vrhunski znanstveni odjeli, počinješ to shvaćati, upoznaješ ljude. I možete čitati članke na arXiv - i usput, vrlo je cool da ne morate ići nigdje da biste stekli znanje.

Osim toga, na konferenciji možete duboko zaroniti u teme koje vam nisu bliske i vidjeti trendove. Pa, napišite popis članaka za čitanje. Ako ste student, ovo je prilika da upoznate potencijalnog nastavnika, ako ste iz branše, onda kod novog poslodavca, a ako je tvrtka, onda da se pokažete.

Pretplatite se na @loss_function_porn! Ovo je osobni projekt: vodimo ga zajedno s karfly. Ovdje smo objavili sve radove koji su nam se svidjeli tijekom konferencije: @loss_function_live.

Izvor: www.habr.com

Dodajte komentar