🥇Trender innen datasyn. ICCV 2019 Høydepunkter

Trender innen datasyn. Høydepunkter fra ICCV 2019

Nevrale nettverk innen datasyn utvikler seg aktivt, mange problemer er fortsatt langt fra å være løst. For å være på trend innen ditt felt, følg bare influencere på Twitter og les relevante artikler på arXiv.org. Men vi hadde muligheten til å gå på International Conference on Computer Vision (ICCV) 2019. I år arrangeres den i Sør-Korea. Nå ønsker vi å dele med Habr-lesere hva vi så og lærte.

Det var mange av oss der fra Yandex: utviklere av selvkjørende biler, forskere og de som driver med CV-oppgaver i tjenester kom. Men nå ønsker vi å presentere et litt subjektivt synspunkt fra teamet vårt - Machine Intelligence Laboratory (Yandex MILAB). De andre gutta så nok på konferansen fra sin egen vinkel.

Hva gjør laboratoriet?Vi gjør eksperimentelle prosjekter knyttet til generering av bilder og musikk for underholdningsformål. Vi er spesielt interessert i nevrale nettverk som lar deg endre innhold fra brukeren (for bilder kalles denne oppgaven bildemanipulering). Eksempel resultatet av vårt arbeid fra YaC 2019-konferansen.
Det er mange vitenskapelige konferanser, men de beste skiller seg ut, de såkalte A*-konferansene, hvor det vanligvis publiseres artikler om de mest interessante og viktige teknologiene. Det er ingen eksakt liste over A*-konferanser, her er en omtrentlig og ufullstendig liste: NeurIPS (tidligere NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. De tre siste spesialiserer seg på CV-emnet.

ICCV ved et blikk: plakater, veiledninger, workshops, stands

Konferansen mottok 1075 artikler, det var 7500 deltakere fra Russland, det var artikler fra ansatte ved Yandex, Skoltech, Samsung AI Center Moscow og Samara University. I år var det ikke mange toppforskere som besøkte ICCV, men for eksempel Alexey (Alyosha) Efros, som alltid tiltrekker seg mange mennesker:

Trender innen datasyn. Høydepunkter fra ICCV 2019

Statistikk

På alle slike konferanser presenteres artikler i form av plakater (mer om formatet), og de beste presenteres også i form av korte rapporter.

Her er noe av arbeidet fra Russland Trender innen datasyn. Høydepunkter fra ICCV 2019

Med opplæringsprogrammer kan du dykke ned i et bestemt fagområde; Den leses av én person, vanligvis uten å snakke om spesifikke verk. Et eksempel på en kul opplæring (Michael Brown, Understanding Color and the In-Camera Image Processing Pipeline for Computer Vision):

Trender innen datasyn. Høydepunkter fra ICCV 2019

På workshops snakker de tvert om artikler. Vanligvis er dette arbeider i et smalt emne, historier fra laboratoriesjefer om alt det siste arbeidet til studenter, eller artikler som ikke ble akseptert til hovedkonferansen.

Sponsorbedrifter kommer til ICCV med stands. I år kom Google, Facebook, Amazon og mange andre internasjonale selskaper, samt et stort antall startups – koreanske og kinesiske. Det var spesielt mange startups som spesialiserte seg på datamerking. Det er forestillinger på tribunen, du kan ta merch og stille spørsmål. For jaktformål har sponsorselskaper fester. Du kan komme inn i dem hvis du overbeviser rekrutterere om at du er interessert og at du potensielt kan bestå intervjuer. Hvis du har publisert en artikkel (eller dessuten presentert den), startet eller avslutter en doktorgrad, er dette et pluss, men noen ganger kan du forhandle på standen ved å stille interessante spørsmål til selskapets ingeniører.

trender

Konferansen lar deg ta en titt på hele CV-feltet. Ut fra antall plakater om et bestemt emne kan du vurdere hvor hett emnet er. Noen konklusjoner foreslår seg selv basert på søkeordene:

Trender innen datasyn. Høydepunkter fra ICCV 2019

Zero-shot, one-shot, few-shot, selvovervåket og semi-overvåket: nye tilnærminger til lenge studerte oppgaver

Folk lærer å bruke data mer effektivt. For eksempel i FUNIT det er mulig å generere ansiktsuttrykk av dyr som ikke var i treningssettet (i søknaden, ved å gi flere referansebilder). Ideene til Deep Image Prior er utviklet, og nå kan GAN-nettverk trenes på ett enkelt bilde - vi vil snakke om dette nedenfor i høydepunkter. Du kan bruke selvtilsyn for forhåndstrening (løse et problem som du kan syntetisere justerte data for, for eksempel å forutsi rotasjonsvinkelen til et bilde) eller lære samtidig fra merkede og umerkede data. I denne forstand kan artikkelen betraktes som skaperverkets krone S4L: Selvstyrt semi-overvåket læring. Og her er fortreningen på ImageNet ikke alltid hjelper.

Trender innen datasyn. Høydepunkter fra ICCV 2019

3D og 360°

Problemer som stort sett ble løst for bilder (segmentering, gjenkjenning) krever ytterligere forskning for 3D-modeller og panoramavideoer. Vi har sett mange artikler om konvertering av RGB og RGB-D til 3D. Noen problemer, for eksempel estimering av menneskelig positur, kan løses mer naturlig ved å gå over til 3D-modeller. Men det er ennå ingen konsensus om nøyaktig hvordan man skal representere XNUMXD-modeller - i form av en mesh, punktsky, voxels eller SDF. Her er et annet alternativ:

Trender innen datasyn. Høydepunkter fra ICCV 2019

I panoramaer utvikler svingninger på sfæren aktivt (se. Orienteringsbevisst semantisk segmentering på Icosahedron-sfærer) og søk etter nøkkelobjekter i rammen.

Trender innen datasyn. Høydepunkter fra ICCV 2019

Posisjonsdeteksjon og menneskelig bevegelsesprediksjon

Det har allerede vært fremskritt innen poseringsdeteksjon i 2D - nå har fokuset flyttet seg mot å jobbe med flere kameraer og i 3D. For eksempel kan du også oppdage et skjelett gjennom en vegg ved å spore endringer i Wi-Fi-signalet når det passerer gjennom menneskekroppen.

Mye arbeid har blitt gjort innen håndnøkkeldeteksjon. Nye datasett har dukket opp, inkludert de som er basert på videoer av dialoger mellom to personer - nå kan du forutsi håndbevegelser fra lyden eller teksten til en samtale! Den samme fremgangen har blitt gjort i øyesporingsoppgaver (blikk-estimering).

Trender innen datasyn. Høydepunkter fra ICCV 2019

Man kan også identifisere en stor klynge av verk relatert til menneskelig bevegelsesprediksjon (f.eks. Human Motion Prediction via Spatio-Temporal Inpainting eller Strukturert prediksjon hjelper 3D-modellering av menneskelig bevegelse). Oppgaven er viktig og brukes, basert på samtaler med forfatterne, oftest til å analysere fotgjengeres adferd ved autonom kjøring.

Manipulasjoner med mennesker i bilder og videoer, virtuelle prøverom

Hovedtrenden er å endre ansiktsbilder i henhold til tolkbare parametere. Ideer: dypfalsk basert på ett bilde, endre uttrykk basert på ansiktsgjengivelse (PuppetGAN), feedforward – endre parametere (f.eks. alder). Stiloverføringer har flyttet seg fra tittelen på emnet til anvendelsen av verket. Virtuelle prøverom er en annen historie, de fungerer nesten alltid dårlig, her er et eksempel demoer.

Trender innen datasyn. Høydepunkter fra ICCV 2019

Generering fra skisser/grafer

Utviklingen av ideen "La rutenettet generere noe basert på tidligere erfaring" ble en annen: "La oss vise rutenettet hvilket alternativ som interesserer oss."

SC-FEGAN lar deg gjøre guidet maling: brukeren kan fullføre å male en del av ansiktet i det slettede området av bildet og få et gjenopprettet bilde avhengig av ferdigstillelsen.

Trender innen datasyn. Høydepunkter fra ICCV 2019

En av 25 Adobe-artikler for ICCV kombinerer to GAN-er: en fullfører skissen for brukeren, den andre genererer et fotorealistisk bilde fra skissen (prosjektsiden).

Trender innen datasyn. Høydepunkter fra ICCV 2019

Tidligere var det ikke nødvendig med grafer i bildegenerering, men nå er de gjort til en beholder med kunnskap om scenen. The Best Paper Honorable Mentions-prisen basert på resultatene av ICCV ble også vunnet av artikkelen Spesifisere objektattributter og relasjoner i interaktiv scenegenerering. Generelt kan du bruke dem på forskjellige måter: generere grafer fra bilder, eller bilder og tekster fra grafer.

Trender innen datasyn. Høydepunkter fra ICCV 2019

Re-identifikasjon av personer og biler, teller størrelsen på mengden (!)

Mange artikler er viet til å spore mennesker og gjenidentifisere personer og maskiner. Men det som overrasket oss var en haug med artikler om telling av publikum, alle fra Kina.

Plakater Trender innen datasyn. Høydepunkter fra ICCV 2019

Men Facebook, tvert imot, anonymiserer bildet. Og den gjør dette på en interessant måte: den trener det nevrale nettverket til å generere et ansikt uten unike detaljer - lignende, men ikke så likt at det kan identifiseres korrekt av ansiktsgjenkjenningssystemer.

Trender innen datasyn. Høydepunkter fra ICCV 2019

Beskyttelse mot fiendtlige angrep

Med utviklingen av datasynsapplikasjoner i den virkelige verden (i selvkjørende biler, i ansiktsgjenkjenning), oppstår spørsmålet om påliteligheten til slike systemer i økende grad. For å bruke CV fullt ut, må du være sikker på at systemet er motstandsdyktig mot motstandere - det er derfor det var ikke mindre artikler om beskyttelse mot dem enn om selve angrepene. Det har vært mye arbeid med å forklare nettverksprediksjoner (saliency map) og måle tillit til resultatet.

Kombinerte oppgaver

I de fleste oppgaver med ett mål er mulighetene for å forbedre kvaliteten praktisk talt oppbrukt en av de nye retningene for å øke kvaliteten ytterligere er å lære nevrale nettverk å løse flere lignende problemer samtidig. Eksempler:
— handlingsprediksjon + optisk flytprediksjon,
— videopresentasjon + språkpresentasjon (VideoBERT),
- superoppløsning + HDR.

Det er også artikler om segmentering, stillingsbestemmelse og gjenidentifikasjon av dyr!

Trender innen datasyn. Høydepunkter fra ICCV 2019

Høydepunkter

Nesten alle artiklene var kjent på forhånd, teksten var tilgjengelig på arXiv.org. Derfor virker presentasjonen av slike verk som Everybody Dance Now, FUNIT, Image2StyleGAN ganske merkelig - dette er veldig nyttige verk, men ikke nye. Det ser ut til at den klassiske prosessen med vitenskapelige publikasjoner bryter sammen her – vitenskapen beveger seg for raskt.

Det er veldig vanskelig å bestemme de beste verkene - det er mange av dem, fagene er forskjellige. Flere artikler mottatt priser og omtaler.

Vi ønsker å fremheve verk som er interessante fra et bildemanipulasjonssynspunkt, siden dette er vårt tema. De viste seg å være ganske friske og interessante for oss (vi later ikke til å være objektive).

SinGAN (beste papirpris) og InGAN

SinGAN: prosjektsiden, arXiv, kode.
InGAN: prosjektsiden, arXiv, kode.

Utvikling av Deep Image Prior-ideen fra Dmitry Ulyanov, Andrea Vedaldi og Victor Lempitsky. I stedet for å trene en GAN på et datasett, lærer nettverkene fra fragmenter av det samme bildet for å huske statistikken i det. Det opplærte nettverket lar deg redigere og animere bilder (SinGAN) eller generere nye bilder av alle størrelser fra teksturene til det originale bildet, og bevare den lokale strukturen (InGAN).

SinGAN:

Trender innen datasyn. Høydepunkter fra ICCV 2019

InGAN:

Trender innen datasyn. Høydepunkter fra ICCV 2019

Se hva en GAN ikke kan generere

Prosjektside.

Nevrale nettverk som genererer bilder tar ofte en vektor av tilfeldig støy som input. I et trent nettverk danner mange inngangsvektorer et rom, små bevegelser langs som fører til små endringer i bildet. Ved å bruke optimalisering kan du løse det omvendte problemet: finn en passende inngangsvektor for et bilde fra den virkelige verden. Forfatteren viser at det nesten aldri er mulig å finne et helt samsvarende bilde i et nevralt nettverk. Noen objekter i bildet genereres ikke (tilsynelatende på grunn av den store variasjonen til disse objektene).

Trender innen datasyn. Høydepunkter fra ICCV 2019

Forfatteren antar at GAN ikke dekker hele rommet av bilder, men bare en delmengde, fylt med hull, som ost. Når vi prøver å finne bilder fra den virkelige verden i den, vil vi alltid mislykkes, fordi GAN fortsatt genererer ikke helt ekte bilder. Forskjellene mellom ekte og genererte bilder kan bare overvinnes ved å endre vekten til nettverket, det vil si ved å omskolere det til et spesifikt bilde.

Trender innen datasyn. Høydepunkter fra ICCV 2019

Når nettverket i tillegg er trent for et spesifikt bilde, kan du prøve forskjellige manipulasjoner med dette bildet. I eksemplet nedenfor ble et vindu lagt til bildet, og nettverket genererte i tillegg refleksjoner på kjøkkenenheten. Dette betyr at nettverket, selv etter tilleggstrening for fotografering, ikke mistet evnen til å se sammenhengen mellom objekter i scenen.

Trender innen datasyn. Høydepunkter fra ICCV 2019

GANalyze: Mot visuelle definisjoner av kognitive bildeegenskaper

Prosjektside, arXiv.

Ved å bruke tilnærmingen fra dette arbeidet kan du visualisere og analysere hva det nevrale nettverket har lært. Forfatterne foreslår å trene GAN til å lage bilder som nettverket vil generere spesifiserte spådommer for. Artikkelen brukte flere nettverk som eksempler, inkludert MemNet, som forutsier bildeminnelighet. Det viste seg at objektet på bildet for bedre minneverdighet:

være nærmere sentrum
ha en mer rund eller firkantet form og en enkel struktur,
være på en ensartet bakgrunn,
inneholder uttrykksfulle øyne (i det minste for hundebilder),
være lysere, mer mettet, i noen tilfeller rødere.

Trender innen datasyn. Høydepunkter fra ICCV 2019

Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis

Prosjektside, arXiv, kode.

Pipeline for å generere bilder av mennesker ett bilde om gangen. Forfatterne viser vellykkede eksempler på å overføre bevegelsen til en person til en annen, overføre klær mellom mennesker og generere nye vinkler av en person – alt fra ett fotografi. I motsetning til tidligere arbeider, bruker vi her ikke nøkkelpunkter i 2D (pose), men et 3D-nett av kroppen (pose + form) for å skape forhold. Forfatterne fant også ut hvordan de skulle overføre informasjon fra det originale bildet til det genererte (Liquid Warping Block). Resultatene ser anstendige ut, men oppløsningen på det resulterende bildet er bare 256x256. Til sammenligning er vid2vid, som dukket opp for et år siden, i stand til å generere i en oppløsning på 2048x1024, men det krever så mye som 10 minutter med videoopptak som et datasett.

Trender innen datasyn. Høydepunkter fra ICCV 2019

FSGAN: Subject Agnostic Face Swapping and Reenactment

Prosjektside, arXiv.

Først ser det ut til at det ikke er noe uvanlig: en deepfake med mer eller mindre normal kvalitet. Men hovedprestasjonen til arbeidet er erstatning av ansikter fra ett bilde. I motsetning til tidligere arbeider, var det nødvendig med opplæring på mange fotografier av en bestemt person. Rørledningen viste seg å være tungvint (reenactment og segmentering, view interpolation, inpainting, blending) og med mange tekniske hacks, men resultatet er verdt det.

Trender innen datasyn. Høydepunkter fra ICCV 2019

Oppdage det uventede via bildegjensyntese

arXiv.

Hvordan kan en drone forstå at det plutselig har dukket opp et objekt foran den som ikke faller inn i noen semantisk segmenteringsklasse? Det finnes flere metoder, men forfatterne foreslår en ny, intuitiv algoritme som fungerer bedre enn forgjengerne. Semantisk segmentering er forutsagt fra veibildet. Den mates som input til GAN (pix2pixHD), som prøver å gjenopprette originalbildet kun fra det semantiske kartet. Anomalier som ikke faller inn i noen av segmentene vil variere betydelig i utdata og det genererte bildet. De tre bildene (original, segmentering og rekonstruert) mates deretter inn i et annet nettverk som forutsier anomalier. Datasettet for dette ble generert fra det velkjente Cityscapes-datasettet, og endret tilfeldig klassene på den semantiske segmenteringen. Interessant nok, i denne innstillingen er en hund som står midt på veien, men riktig segmentert (som betyr at det er en klasse for den), ikke en anomali, siden systemet var i stand til å gjenkjenne den.

Trender innen datasyn. Høydepunkter fra ICCV 2019

Konklusjon

Før konferansen er det viktig å vite hva dine vitenskapelige interesser er, hvilke presentasjoner du ønsker å delta på, og hvem du skal snakke med. Da blir alt mye mer produktivt.

ICCV er først og fremst nettverksbygging. Du forstår at det er topp institutter og topp vitenskapelige avdelinger, du begynner å forstå dette, bli kjent med folk. Og du kan lese artikler på arXiv - og forresten, det er veldig kult at du ikke trenger å gå noe sted for å få kunnskap.

I tillegg kan du på konferansen dykke dypt ned i temaer som ikke er i nærheten av deg og se trender. Vel, skriv ut en liste over artikler å lese. Hvis du er student, er dette en mulighet for deg til å møte en potensiell lærer, hvis du er fra bransjen, så med en ny arbeidsgiver, og hvis en bedrift, så for å vise deg frem.

Abonner på @loss_function_porno! Dette er et personlig prosjekt: vi leder det sammen med karfly. Vi la ut alle verkene vi likte under konferansen her: @loss_function_live.

Kilde: www.habr.com