Tendenser inden for computersyn. ICCV 2019 højdepunkter

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Neurale netværk inden for computersyn udvikler sig aktivt, mange problemer er stadig langt fra løst. For at være på trend inden for dit felt skal du bare følge influencers på Twitter og læse relevante artikler på arXiv.org. Men vi havde mulighed for at tage til International Conference on Computer Vision (ICCV) 2019. I år afholdes den i Sydkorea. Nu vil vi dele med Habr-læsere, hvad vi så og lærte.

Der var mange af os der fra Yandex: udviklere af selvkørende biler, forskere og dem, der beskæftiger sig med CV-opgaver i tjenester, kom. Men nu vil vi præsentere et lidt subjektivt synspunkt fra vores team - Machine Intelligence Laboratory (Yandex MILAB). De andre fyre så sikkert på konferencen fra deres egen vinkel.

Hvad laver laboratoriet?Vi laver eksperimentelle projekter relateret til generering af billeder og musik til underholdningsformål. Vi er især interesserede i neurale netværk, der giver dig mulighed for at ændre indhold fra brugeren (for fotos kaldes denne opgave billedmanipulation). Eksempel resultatet af vores arbejde fra YaC 2019-konferencen.
Der er mange videnskabelige konferencer, men de øverste skiller sig ud, de såkaldte A*-konferencer, hvor der normalt publiceres artikler om de mest interessante og vigtigste teknologier. Der er ingen nøjagtig liste over A*-konferencer, her er en omtrentlig og ufuldstændig liste: NeurIPS (tidligere NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. De sidste tre har specialiseret sig i CV-emnet.

ICCV overblik: plakater, tutorials, workshops, stande

Konferencen modtog 1075 artikler, der var 7500 deltagere.103 personer kom fra Rusland, der var artikler fra ansatte i Yandex, Skoltech, Samsung AI Center Moskva og Samara University. I år besøgte ikke mange topforskere ICCV, men for eksempel Alexey (Alyosha) Efros, som altid tiltrækker mange mennesker:

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Statistikker Tendenser inden for computersyn. ICCV 2019 højdepunkter

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Tendenser inden for computersyn. ICCV 2019 højdepunkter

På alle sådanne konferencer præsenteres artikler i form af plakater (mere om formatet), og de bedste præsenteres også i form af korte rapporter.

Her er nogle af værkerne fra Rusland Tendenser inden for computersyn. ICCV 2019 højdepunkter

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Med tutorials kan du dykke ned i et bestemt fagområde; det minder om en forelæsning på et universitet. Den læses af én person, normalt uden at tale om specifikke værker. Et eksempel på en cool tutorial (Michael Brown, Understanding Color and the In-Camera Image Processing Pipeline for Computer Vision):

Tendenser inden for computersyn. ICCV 2019 højdepunkter

På workshops taler de tværtimod om artikler. Normalt er disse værker inden for et snævert emne, historier fra laboratorieledere om alt det seneste arbejde fra studerende eller artikler, der ikke blev accepteret til hovedkonferencen.

Sponsorvirksomheder kommer til ICCV med stande. I år kom Google, Facebook, Amazon og mange andre internationale virksomheder, samt en lang række startups – koreanske og kinesiske. Der var især mange startups, der specialiserede sig i datamærkning. Der er forestillinger på standene, du kan tage merch og stille spørgsmål. I jagtformål holder sponsorfirmaer fester. Du kan komme ind i dem, hvis du overbeviser rekrutterere om, at du er interesseret, og at du potentielt kan bestå interviews. Hvis du har publiceret en artikel (eller i øvrigt præsenteret den), påbegyndt eller afslutter en ph.d., er det et plus, men nogle gange kan du forhandle på standen ved at stille interessante spørgsmål til virksomhedens ingeniører.

tendenser

Konferencen giver dig mulighed for at tage et kig på hele CV-feltet. Ud fra antallet af plakater om et bestemt emne kan du vurdere, hvor varmt emnet er. Nogle konklusioner foreslår sig selv baseret på nøgleordene:

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Zero-shot, one-shot, few-shot, self-supervised og semi-supervised: nye tilgange til længe undersøgte opgaver

Folk lærer at bruge data mere effektivt. For eksempel i FUNIT det er muligt at generere ansigtsudtryk af dyr, der ikke var i træningssættet (i ansøgningen ved at give flere referencebilleder). Idéerne fra Deep Image Prior er udviklet, og nu kan GAN-netværk trænes på et enkelt billede - det vil vi tale om nedenfor i højdepunkter. Du kan bruge selvovervågning til fortræning (at løse et problem, som du kan syntetisere tilpassede data til, såsom at forudsige rotationsvinklen for et billede) eller lære samtidigt fra mærkede og umærkede data. I denne forstand kan artiklen betragtes som skabelsens krone S4L: Selvovervåget Semi-Superviseret læring. Og her er fortræningen på ImageNet ikke altid hjælper.

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Tendenser inden for computersyn. ICCV 2019 højdepunkter

3D og 360°

Problemer, der for det meste blev løst for fotos (segmentering, detektion) kræver yderligere forskning for 3D-modeller og panoramavideoer. Vi har set mange artikler om konvertering af RGB og RGB-D til 3D. Nogle problemer, såsom estimering af menneskelig positur, kan løses mere naturligt ved at flytte til 3D-modeller. Men der er endnu ingen konsensus om, hvordan man præcist skal repræsentere XNUMXD-modeller – i form af en mesh, punktsky, voxels eller SDF. Her er en anden mulighed:

Tendenser inden for computersyn. ICCV 2019 højdepunkter

I panoramaer udvikler foldninger på kuglen sig aktivt (se. Orienteringsbevidst semantisk segmentering på Icosahedron-sfærer) og søg efter nøgleobjekter i rammen.

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Positionsdetektion og forudsigelse af menneskelig bevægelse

Der er allerede sket fremskridt inden for positionsdetektion i 2D - nu er fokus flyttet mod at arbejde med flere kameraer og i 3D. Det er også muligt for eksempel at detektere et skelet gennem en væg ved at spore ændringer i Wi-Fi-signalet, når det passerer gennem menneskekroppen.

Meget arbejde er blevet gjort inden for hånd-nøglepunktsdetektion. Nye datasæt er dukket op, inklusive dem, der er baseret på videoer af dialoger mellem to personer - nu kan du forudsige håndbevægelser fra lyden eller teksten i en samtale! De samme fremskridt er sket i øjensporingsopgaver (blik-estimering).

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Man kan også identificere en stor klynge af værker relateret til forudsigelse af menneskelig bevægelse (f.eks. Human Motion Prediction via Spatio-Temporal Inpainting eller Struktureret forudsigelse hjælper 3D Human Motion Modeling). Opgaven er vigtig og bruges på baggrund af samtaler med forfatterne oftest til at analysere fodgængeres adfærd ved autonom kørsel.

Manipulationer med mennesker i billeder og videoer, virtuelle prøverum

Hovedtendensen er at ændre ansigtsbilleder i henhold til fortolkelige parametre. Idéer: deepfake baseret på ét billede, skiftende udtryk baseret på ansigtsgengivelse (PuppetGAN), feedforward – skift parametre (f.eks. alder). Stiloverførsler er flyttet fra titlen på emnet til anvendelsen af ​​værket. Virtuelle prøverum er en anden historie; de ​​fungerer næsten altid dårligt, her er et eksempel demoer.

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Generering ud fra skitser/grafer

Udviklingen af ​​ideen "Lad nettet generere noget baseret på tidligere erfaringer" blev en anden: "Lad os vise nettet, hvilken mulighed der interesserer os."

SC-FEGAN giver dig mulighed for at lave guidet maling: Brugeren kan afslutte med at male en del af ansigtet i det slettede område af billedet og få et gendannet billede afhængigt af færdiggørelsen.

Tendenser inden for computersyn. ICCV 2019 højdepunkter

En af 25 Adobe-artikler til ICCV kombinerer to GAN'er: den ene fuldender skitsen for brugeren, den anden genererer et fotorealistisk billede fra skitsen (projektside).

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Tidligere var grafer ikke nødvendige i billedgenerering, men nu er de blevet gjort til en beholder af viden om scenen. Prisen for Best Paper Honorable Mentions baseret på resultaterne af ICCV blev også vundet af artiklen Angivelse af objektattributter og relationer i interaktiv scenegenerering. Generelt kan du bruge dem på forskellige måder: generere grafer fra billeder eller billeder og tekster fra grafer.

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Genidentifikation af personer og biler, tælle størrelsen af ​​menneskemængden (!)

Mange artikler er afsat til at spore mennesker og genidentificere personer og maskiner. Men det, der overraskede os, var en masse artikler om crowdcounting, alle fra Kina.

Plakater Tendenser inden for computersyn. ICCV 2019 højdepunkter

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Tendenser inden for computersyn. ICCV 2019 højdepunkter
Men Facebook anonymiserer tværtimod billedet. Og det gør det på en interessant måde: det træner det neurale netværk til at generere et ansigt uden unikke detaljer - ens, men ikke så ens, at det kan identificeres korrekt af ansigtsgenkendelsessystemer.

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Beskyttelse mod modstridende angreb

Med udviklingen af ​​computersynsapplikationer i den virkelige verden (i selvkørende biler, i ansigtsgenkendelse) opstår spørgsmålet om pålideligheden af ​​sådanne systemer i stigende grad. For at bruge CV fuldt ud, skal du være sikker på, at systemet er modstandsdygtigt over for modstridende angreb - derfor var der ikke færre artikler om beskyttelse mod dem end om selve angrebene. Der har været meget arbejde med at forklare netværksforudsigelser (saliency map) og måle tillid til resultatet.

Kombinerede opgaver

I de fleste opgaver med ét mål er mulighederne for at forbedre kvaliteten praktisk talt udtømte; en af ​​de nye retninger for yderligere at øge kvaliteten er at lære neurale netværk at løse flere lignende problemer samtidigt. Eksempler:
— handlingsforudsigelse + optisk flowforudsigelse,
— videopræsentation + sprogpræsentation (VideoBERT),
superopløsning + HDR.

Der er også artikler om segmentering, stillingsbestemmelse og genidentifikation af dyr!

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Højdepunkter

Næsten alle artikler var kendt på forhånd, teksten var tilgængelig på arXiv.org. Derfor virker præsentationen af ​​sådanne værker som Everybody Dance Now, FUNIT, Image2StyleGAN ret mærkelig - det er meget nyttige værker, men ikke nye. Det ser ud til, at den klassiske proces med videnskabelige publikationer er ved at bryde sammen her – videnskaben bevæger sig for hurtigt.

Det er meget svært at bestemme de bedste værker - der er mange af dem, emnerne er forskellige. Flere artikler modtaget priser og omtaler.

Vi ønsker at fremhæve værker, der er interessante ud fra billedmanipulationssynspunktet, da dette er vores emne. De viste sig at være ret friske og interessante for os (vi foregiver ikke at være objektive).

SinGAN (bedste papirpris) og InGAN

SinGAN: projektside, arXiv, kode.
InGAN: projektside, arXiv, kode.

Udvikling af Deep Image Prior-ideen fra Dmitry Ulyanov, Andrea Vedaldi og Victor Lempitsky. I stedet for at træne en GAN på et datasæt, lærer netværkene af fragmenter af det samme billede for at huske statistikken inde i det. Det trænede netværk giver dig mulighed for at redigere og animere billeder (SinGAN) eller generere nye billeder af enhver størrelse ud fra teksturerne i det originale billede, hvilket bevarer den lokale struktur (InGAN).

SinGAN:

Tendenser inden for computersyn. ICCV 2019 højdepunkter

InGAN:

Tendenser inden for computersyn. ICCV 2019 højdepunkter

At se, hvad en GAN ikke kan generere

Projektside.

Neurale netværk, der genererer billeder, tager ofte en vektor af tilfældig støj som input. I et trænet netværk danner mange inputvektorer et rum, små bevægelser langs hvilke fører til små ændringer i billedet. Ved hjælp af optimering kan du løse det omvendte problem: find en passende inputvektor til et billede fra den virkelige verden. Forfatteren viser, at det næsten aldrig er muligt at finde et fuldstændigt matchende billede i et neuralt netværk. Nogle objekter på billedet genereres ikke (tilsyneladende på grund af disse objekters store variation).

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Forfatteren antager, at GAN ikke dækker hele rummet af billeder, men kun en delmængde, fyldt med huller, som ost. Når vi forsøger at finde billeder fra den virkelige verden i den, vil vi altid fejle, fordi GAN stadig genererer ikke helt rigtige billeder. Forskellene mellem ægte og genererede billeder kan kun overvindes ved at ændre netværkets vægte, det vil sige ved at omskole det til et bestemt foto.

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Når netværket desuden er trænet til et bestemt billede, kan du prøve forskellige manipulationer med dette billede. I eksemplet nedenfor blev der tilføjet et vindue til billedet, og netværket genererede desuden refleksioner på køkkenenheden. Det betyder, at netværket, selv efter yderligere træning til fotografering, ikke mistede evnen til at se sammenhængen mellem objekter i scenen.

Tendenser inden for computersyn. ICCV 2019 højdepunkter

GANalyze: Mod visuelle definitioner af kognitive billedegenskaber

Projektside, arXiv.

Ved hjælp af tilgangen fra dette arbejde kan du visualisere og analysere, hvad det neurale netværk har lært. Forfatterne foreslår at træne GAN til at skabe billeder, som netværket vil generere specificerede forudsigelser for. Artiklen brugte adskillige netværk som eksempler, herunder MemNet, som forudsiger foto-mindelighed. Det viste sig, at for bedre mindelighed skulle objektet på billedet:

  • være tættere på centrum
  • have en mere rund eller firkantet form og en enkel struktur,
  • være på en ensartet baggrund,
  • indeholde udtryksfulde øjne (i det mindste til hundebilleder),
  • være lysere, mere mættet, i nogle tilfælde rødere.

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis

Projektside, arXiv, kode.

Pipeline til generering af billeder af mennesker ét billede ad gangen. Forfatterne viser vellykkede eksempler på at overføre en persons bevægelse til en anden, at overføre tøj mellem mennesker og skabe nye vinkler af en person - alt sammen fra ét fotografi. I modsætning til tidligere værker bruger vi her ikke nøglepunkter i 2D (pose), men et 3D mesh af kroppen (pose + form) til at skabe betingelser. Forfatterne fandt også ud af, hvordan man overfører information fra det originale billede til det genererede (Liquid Warping Block). Resultaterne ser anstændige ud, men opløsningen af ​​det resulterende billede er kun 256x256. Til sammenligning er vid2vid, der udkom for et år siden, i stand til at generere i en opløsning på 2048x1024, men det kræver hele 10 minutters videooptagelse som et datasæt.

Tendenser inden for computersyn. ICCV 2019 højdepunkter

FSGAN: Subject Agnostic Face Swapping and Reenactment

Projektside, arXiv.

Umiddelbart ser det ud til, at der ikke er noget usædvanligt: ​​en deepfake med mere eller mindre normal kvalitet. Men den vigtigste præstation af arbejdet er udskiftningen af ​​ansigter fra et billede. I modsætning til tidligere værker krævedes træning på mange fotografier af en bestemt person. Pipelinen viste sig at være besværlig (reenactment og segmentering, view interpolation, inpainting, blending) og med en masse tekniske hacks, men resultatet er det værd.

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Opdagelse af det uventede via billedgensyntese

arXiv.

Hvordan kan en drone forstå, at der pludselig er dukket et objekt op foran den, som ikke falder ind under nogen semantisk segmenteringsklasse? Der er flere metoder, men forfatterne foreslår en ny, intuitiv algoritme, der fungerer bedre end sine forgængere. Semantisk segmentering forudsiges ud fra input vejbilledet. Det føres som input til GAN ​​(pix2pixHD), som forsøger at gendanne det originale billede kun fra det semantiske kort. Anomalier, der ikke falder ind i nogen af ​​segmenterne, vil afvige væsentligt i outputtet og det genererede billede. De tre billeder (original, segmentering og rekonstrueret) føres derefter ind i et andet netværk, der forudsiger anomalier. Datasættet til dette blev genereret fra det velkendte Cityscapes-datasæt, hvilket tilfældigt ændrede klasserne på den semantiske segmentering. Interessant nok, i denne indstilling er en hund, der står midt på vejen, men korrekt segmenteret (hvilket betyder, at der er en klasse for den), ikke en anomali, da systemet var i stand til at genkende den.

Tendenser inden for computersyn. ICCV 2019 højdepunkter

Konklusion

Inden konferencen er det vigtigt at vide, hvad dine videnskabelige interesser er, hvilke oplæg du gerne vil deltage i, og hvem du skal tale med. Så vil alt være meget mere produktivt.

ICCV er først og fremmest netværk. Du forstår, at der er topinstitutter og topvidenskabelige afdelinger, du begynder at forstå dette, lærer folk at kende. Og du kan læse artikler på arXiv - og i øvrigt er det meget fedt, at du ikke behøver at gå nogen steder for at få viden.

Derudover kan du på konferencen dykke dybt ned i emner, der ikke er tæt på dig og se tendenser. Nå, skriv en liste over artikler, du skal læse. Hvis du er studerende, er dette en mulighed for dig at møde en potentiel lærer, hvis du er fra branchen, så med en ny arbejdsgiver, og hvis en virksomhed, så for at vise dig frem.

Tilmeld dig @tabsfunktion_porno! Dette er et personligt projekt: vi leder det sammen med karfly. Vi postede alle de værker, vi kunne lide under konferencen, her: @tab_funktion_live.

Kilde: www.habr.com

Tilføj en kommentar