Neurale netværk inden for computersyn udvikler sig aktivt, mange problemer er stadig langt fra løst. For at være på trend inden for dit felt skal du bare følge influencers på Twitter og læse relevante artikler på arXiv.org. Men vi havde mulighed for at tage til International Conference on Computer Vision (ICCV) 2019. I år afholdes den i Sydkorea. Nu vil vi dele med Habr-læsere, hvad vi så og lærte.
Der var mange af os der fra Yandex: udviklere af selvkørende biler, forskere og dem, der beskæftiger sig med CV-opgaver i tjenester, kom. Men nu vil vi præsentere et lidt subjektivt synspunkt fra vores team - Machine Intelligence Laboratory (Yandex MILAB). De andre fyre så sikkert på konferencen fra deres egen vinkel.
Hvad laver laboratoriet?Vi laver eksperimentelle projekter relateret til generering af billeder og musik til underholdningsformål. Vi er især interesserede i neurale netværk, der giver dig mulighed for at ændre indhold fra brugeren (for fotos kaldes denne opgave billedmanipulation).
Der er mange videnskabelige konferencer, men de øverste skiller sig ud, de såkaldte A*-konferencer, hvor der normalt publiceres artikler om de mest interessante og vigtigste teknologier. Der er ingen nøjagtig liste over A*-konferencer, her er en omtrentlig og ufuldstændig liste: NeurIPS (tidligere NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. De sidste tre har specialiseret sig i CV-emnet.
ICCV overblik: plakater, tutorials, workshops, stande
Konferencen modtog 1075 artikler, der var 7500 deltagere.103 personer kom fra Rusland, der var artikler fra ansatte i Yandex, Skoltech, Samsung AI Center Moskva og Samara University. I år besøgte ikke mange topforskere ICCV, men for eksempel Alexey (Alyosha) Efros, som altid tiltrækker mange mennesker:
Statistikker
På alle sådanne konferencer præsenteres artikler i form af plakater (
Her er nogle af værkerne fra Rusland
Med tutorials kan du dykke ned i et bestemt fagområde; det minder om en forelæsning på et universitet. Den læses af én person, normalt uden at tale om specifikke værker. Et eksempel på en cool tutorial (
På workshops taler de tværtimod om artikler. Normalt er disse værker inden for et snævert emne, historier fra laboratorieledere om alt det seneste arbejde fra studerende eller artikler, der ikke blev accepteret til hovedkonferencen.
Sponsorvirksomheder kommer til ICCV med stande. I år kom Google, Facebook, Amazon og mange andre internationale virksomheder, samt en lang række startups – koreanske og kinesiske. Der var især mange startups, der specialiserede sig i datamærkning. Der er forestillinger på standene, du kan tage merch og stille spørgsmål. I jagtformål holder sponsorfirmaer fester. Du kan komme ind i dem, hvis du overbeviser rekrutterere om, at du er interesseret, og at du potentielt kan bestå interviews. Hvis du har publiceret en artikel (eller i øvrigt præsenteret den), påbegyndt eller afslutter en ph.d., er det et plus, men nogle gange kan du forhandle på standen ved at stille interessante spørgsmål til virksomhedens ingeniører.
tendenser
Konferencen giver dig mulighed for at tage et kig på hele CV-feltet. Ud fra antallet af plakater om et bestemt emne kan du vurdere, hvor varmt emnet er. Nogle konklusioner foreslår sig selv baseret på nøgleordene:
Zero-shot, one-shot, few-shot, self-supervised og semi-supervised: nye tilgange til længe undersøgte opgaver
Folk lærer at bruge data mere effektivt. For eksempel i
3D og 360°
Problemer, der for det meste blev løst for fotos (segmentering, detektion) kræver yderligere forskning for 3D-modeller og panoramavideoer. Vi har set mange artikler om konvertering af RGB og RGB-D til 3D. Nogle problemer, såsom estimering af menneskelig positur, kan løses mere naturligt ved at flytte til 3D-modeller. Men der er endnu ingen konsensus om, hvordan man præcist skal repræsentere XNUMXD-modeller – i form af en mesh, punktsky, voxels eller SDF. Her er en anden mulighed:
I panoramaer udvikler foldninger på kuglen sig aktivt (se.
Positionsdetektion og forudsigelse af menneskelig bevægelse
Der er allerede sket fremskridt inden for positionsdetektion i 2D - nu er fokus flyttet mod at arbejde med flere kameraer og i 3D. Det er også muligt for eksempel at detektere et skelet gennem en væg ved at spore ændringer i Wi-Fi-signalet, når det passerer gennem menneskekroppen.
Meget arbejde er blevet gjort inden for hånd-nøglepunktsdetektion. Nye datasæt er dukket op, inklusive dem, der er baseret på videoer af dialoger mellem to personer - nu kan du forudsige håndbevægelser fra lyden eller teksten i en samtale! De samme fremskridt er sket i øjensporingsopgaver (blik-estimering).
Man kan også identificere en stor klynge af værker relateret til forudsigelse af menneskelig bevægelse (f.eks.
Manipulationer med mennesker i billeder og videoer, virtuelle prøverum
Hovedtendensen er at ændre ansigtsbilleder i henhold til fortolkelige parametre. Idéer: deepfake baseret på ét billede, skiftende udtryk baseret på ansigtsgengivelse (
Generering ud fra skitser/grafer
Udviklingen af ideen "Lad nettet generere noget baseret på tidligere erfaringer" blev en anden: "Lad os vise nettet, hvilken mulighed der interesserer os."
En af 25 Adobe-artikler til ICCV kombinerer to GAN'er: den ene fuldender skitsen for brugeren, den anden genererer et fotorealistisk billede fra skitsen (
Tidligere var grafer ikke nødvendige i billedgenerering, men nu er de blevet gjort til en beholder af viden om scenen. Prisen for Best Paper Honorable Mentions baseret på resultaterne af ICCV blev også vundet af artiklen
Genidentifikation af personer og biler, tælle størrelsen af menneskemængden (!)
Mange artikler er afsat til at spore mennesker og genidentificere personer og maskiner. Men det, der overraskede os, var en masse artikler om crowdcounting, alle fra Kina.
Plakater
Men Facebook anonymiserer tværtimod billedet. Og det gør det på en interessant måde: det træner det neurale netværk til at generere et ansigt uden unikke detaljer - ens, men ikke så ens, at det kan identificeres korrekt af ansigtsgenkendelsessystemer.
Beskyttelse mod modstridende angreb
Med udviklingen af computersynsapplikationer i den virkelige verden (i selvkørende biler, i ansigtsgenkendelse) opstår spørgsmålet om pålideligheden af sådanne systemer i stigende grad. For at bruge CV fuldt ud, skal du være sikker på, at systemet er modstandsdygtigt over for modstridende angreb - derfor var der ikke færre artikler om beskyttelse mod dem end om selve angrebene. Der har været meget arbejde med at forklare netværksforudsigelser (saliency map) og måle tillid til resultatet.
Kombinerede opgaver
I de fleste opgaver med ét mål er mulighederne for at forbedre kvaliteten praktisk talt udtømte; en af de nye retninger for yderligere at øge kvaliteten er at lære neurale netværk at løse flere lignende problemer samtidigt. Eksempler:
— handlingsforudsigelse + optisk flowforudsigelse,
— videopræsentation + sprogpræsentation (
—
Der er også artikler om segmentering, stillingsbestemmelse og genidentifikation af dyr!
Højdepunkter
Næsten alle artikler var kendt på forhånd, teksten var tilgængelig på arXiv.org. Derfor virker præsentationen af sådanne værker som Everybody Dance Now, FUNIT, Image2StyleGAN ret mærkelig - det er meget nyttige værker, men ikke nye. Det ser ud til, at den klassiske proces med videnskabelige publikationer er ved at bryde sammen her – videnskaben bevæger sig for hurtigt.
Det er meget svært at bestemme de bedste værker - der er mange af dem, emnerne er forskellige. Flere artikler modtaget
Vi ønsker at fremhæve værker, der er interessante ud fra billedmanipulationssynspunktet, da dette er vores emne. De viste sig at være ret friske og interessante for os (vi foregiver ikke at være objektive).
SinGAN (bedste papirpris) og InGAN
SinGAN:
InGAN:
Udvikling af Deep Image Prior-ideen fra Dmitry Ulyanov, Andrea Vedaldi og Victor Lempitsky. I stedet for at træne en GAN på et datasæt, lærer netværkene af fragmenter af det samme billede for at huske statistikken inde i det. Det trænede netværk giver dig mulighed for at redigere og animere billeder (SinGAN) eller generere nye billeder af enhver størrelse ud fra teksturerne i det originale billede, hvilket bevarer den lokale struktur (InGAN).
SinGAN:
InGAN:
At se, hvad en GAN ikke kan generere
Neurale netværk, der genererer billeder, tager ofte en vektor af tilfældig støj som input. I et trænet netværk danner mange inputvektorer et rum, små bevægelser langs hvilke fører til små ændringer i billedet. Ved hjælp af optimering kan du løse det omvendte problem: find en passende inputvektor til et billede fra den virkelige verden. Forfatteren viser, at det næsten aldrig er muligt at finde et fuldstændigt matchende billede i et neuralt netværk. Nogle objekter på billedet genereres ikke (tilsyneladende på grund af disse objekters store variation).
Forfatteren antager, at GAN ikke dækker hele rummet af billeder, men kun en delmængde, fyldt med huller, som ost. Når vi forsøger at finde billeder fra den virkelige verden i den, vil vi altid fejle, fordi GAN stadig genererer ikke helt rigtige billeder. Forskellene mellem ægte og genererede billeder kan kun overvindes ved at ændre netværkets vægte, det vil sige ved at omskole det til et bestemt foto.
Når netværket desuden er trænet til et bestemt billede, kan du prøve forskellige manipulationer med dette billede. I eksemplet nedenfor blev der tilføjet et vindue til billedet, og netværket genererede desuden refleksioner på køkkenenheden. Det betyder, at netværket, selv efter yderligere træning til fotografering, ikke mistede evnen til at se sammenhængen mellem objekter i scenen.
GANalyze: Mod visuelle definitioner af kognitive billedegenskaber
Ved hjælp af tilgangen fra dette arbejde kan du visualisere og analysere, hvad det neurale netværk har lært. Forfatterne foreslår at træne GAN til at skabe billeder, som netværket vil generere specificerede forudsigelser for. Artiklen brugte adskillige netværk som eksempler, herunder MemNet, som forudsiger foto-mindelighed. Det viste sig, at for bedre mindelighed skulle objektet på billedet:
- være tættere på centrum
- have en mere rund eller firkantet form og en enkel struktur,
- være på en ensartet baggrund,
- indeholde udtryksfulde øjne (i det mindste til hundebilleder),
- være lysere, mere mættet, i nogle tilfælde rødere.
Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis
Pipeline til generering af billeder af mennesker ét billede ad gangen. Forfatterne viser vellykkede eksempler på at overføre en persons bevægelse til en anden, at overføre tøj mellem mennesker og skabe nye vinkler af en person - alt sammen fra ét fotografi. I modsætning til tidligere værker bruger vi her ikke nøglepunkter i 2D (pose), men et 3D mesh af kroppen (pose + form) til at skabe betingelser. Forfatterne fandt også ud af, hvordan man overfører information fra det originale billede til det genererede (Liquid Warping Block). Resultaterne ser anstændige ud, men opløsningen af det resulterende billede er kun 256x256. Til sammenligning er vid2vid, der udkom for et år siden, i stand til at generere i en opløsning på 2048x1024, men det kræver hele 10 minutters videooptagelse som et datasæt.
FSGAN: Subject Agnostic Face Swapping and Reenactment
Umiddelbart ser det ud til, at der ikke er noget usædvanligt: en deepfake med mere eller mindre normal kvalitet. Men den vigtigste præstation af arbejdet er udskiftningen af ansigter fra et billede. I modsætning til tidligere værker krævedes træning på mange fotografier af en bestemt person. Pipelinen viste sig at være besværlig (reenactment og segmentering, view interpolation, inpainting, blending) og med en masse tekniske hacks, men resultatet er det værd.
Opdagelse af det uventede via billedgensyntese
Hvordan kan en drone forstå, at der pludselig er dukket et objekt op foran den, som ikke falder ind under nogen semantisk segmenteringsklasse? Der er flere metoder, men forfatterne foreslår en ny, intuitiv algoritme, der fungerer bedre end sine forgængere. Semantisk segmentering forudsiges ud fra input vejbilledet. Det føres som input til GAN (pix2pixHD), som forsøger at gendanne det originale billede kun fra det semantiske kort. Anomalier, der ikke falder ind i nogen af segmenterne, vil afvige væsentligt i outputtet og det genererede billede. De tre billeder (original, segmentering og rekonstrueret) føres derefter ind i et andet netværk, der forudsiger anomalier. Datasættet til dette blev genereret fra det velkendte Cityscapes-datasæt, hvilket tilfældigt ændrede klasserne på den semantiske segmentering. Interessant nok, i denne indstilling er en hund, der står midt på vejen, men korrekt segmenteret (hvilket betyder, at der er en klasse for den), ikke en anomali, da systemet var i stand til at genkende den.
Konklusion
Inden konferencen er det vigtigt at vide, hvad dine videnskabelige interesser er, hvilke oplæg du gerne vil deltage i, og hvem du skal tale med. Så vil alt være meget mere produktivt.
ICCV er først og fremmest netværk. Du forstår, at der er topinstitutter og topvidenskabelige afdelinger, du begynder at forstå dette, lærer folk at kende. Og du kan læse artikler på arXiv - og i øvrigt er det meget fedt, at du ikke behøver at gå nogen steder for at få viden.
Derudover kan du på konferencen dykke dybt ned i emner, der ikke er tæt på dig og se tendenser. Nå, skriv en liste over artikler, du skal læse. Hvis du er studerende, er dette en mulighed for dig at møde en potentiel lærer, hvis du er fra branchen, så med en ny arbejdsgiver, og hvis en virksomhed, så for at vise dig frem.
Tilmeld dig
Kilde: www.habr.com