Trends in computervisie. Hoogtepunten ICCV 2019

Trends in computervisie. Hoogtepunten ICCV 2019

Neurale netwerken in computervisie ontwikkelen zich actief, veel problemen zijn nog lang niet opgelost. Om op de hoogte te zijn van de trends in jouw vakgebied, volg je influencers op Twitter en lees je relevante artikelen op arXiv.org. Maar we hadden de mogelijkheid om naar de International Conference on Computer Vision (ICCV) 2019 te gaan. Dit jaar wordt die gehouden in Zuid-Korea. Nu willen we met Habr-lezers delen wat we hebben gezien en geleerd.

Er waren velen van ons van Yandex: ontwikkelaars van zelfrijdende auto's, onderzoekers en degenen die zich bezighouden met CV-taken in de dienstensector kwamen. Maar nu willen we een enigszins subjectief standpunt van ons team presenteren: het Machine Intelligence Laboratory (Yandex MILAB). De andere jongens keken waarschijnlijk vanuit hun eigen invalshoek naar de conferentie.

Wat doet het laboratorium?We doen experimentele projecten gerelateerd aan het genereren van beeld en muziek voor entertainmentdoeleinden. We zijn vooral geïnteresseerd in neurale netwerken waarmee je de inhoud van de gebruiker kunt wijzigen (voor foto's wordt deze taak beeldmanipulatie genoemd). Voorbeeld het resultaat van ons werk van de YaC 2019-conferentie.
Er zijn veel wetenschappelijke conferenties, maar de belangrijkste vallen op, de zogenaamde A*-conferenties, waar meestal artikelen over de interessantste en belangrijkste technologieën worden gepubliceerd. Er is geen exacte lijst van A*-conferenties, hier is een geschatte en onvolledige lijst: NeurIPS (voorheen NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. De laatste drie zijn gespecialiseerd in het CV-onderwerp.

ICCV in één oogopslag: posters, tutorials, workshops, stands

De conferentie ontving 1075 papers, er waren 7500 deelnemers, 103 mensen kwamen uit Rusland, er waren artikelen van medewerkers van Yandex, Skoltech, Samsung AI Center Moskou en Samara University. Dit jaar bezochten niet veel toponderzoekers ICCV, maar bijvoorbeeld Alexey (Alyosha) Efros, die altijd veel mensen trekt:

Trends in computervisie. Hoogtepunten ICCV 2019

statistiek Trends in computervisie. Hoogtepunten ICCV 2019

Trends in computervisie. Hoogtepunten ICCV 2019

Trends in computervisie. Hoogtepunten ICCV 2019

Trends in computervisie. Hoogtepunten ICCV 2019

Trends in computervisie. Hoogtepunten ICCV 2019

Op al dergelijke conferenties worden artikelen gepresenteerd in de vorm van posters (meer over het format), en de beste worden ook gepresenteerd in de vorm van korte rapporten.

Hier zijn enkele werken uit Rusland Trends in computervisie. Hoogtepunten ICCV 2019

Trends in computervisie. Hoogtepunten ICCV 2019

Trends in computervisie. Hoogtepunten ICCV 2019

Met tutorials kun je je verdiepen in een bepaald vakgebied; het doet denken aan een college aan een universiteit. Het wordt door één persoon gelezen, meestal zonder over specifieke werken te praten. Een voorbeeld van een coole tutorial (Michael Brown, Kleur begrijpen en de pijplijn voor beeldverwerking in de camera voor computervisie):

Trends in computervisie. Hoogtepunten ICCV 2019

Tijdens workshops praten ze daarentegen over artikelen. Meestal zijn dit werken over een bepaald onderwerp, verhalen van laboratoriumhoofden over het nieuwste werk van studenten, of artikelen die niet werden geaccepteerd voor de hoofdconferentie.

Sponsorende bedrijven komen met stands naar ICCV. Dit jaar kwamen Google, Facebook, Amazon en vele andere internationale bedrijven, evenals een groot aantal startups - Koreaans en Chinees. Er waren vooral veel startups die zich specialiseerden in datatagging. Er zijn optredens op de stands, je kunt merchandise meenemen en vragen stellen. Voor jachtdoeleinden organiseren sponsorbedrijven feesten. U kunt eraan meedoen als u recruiters ervan overtuigt dat u geïnteresseerd bent en dat u mogelijk sollicitatiegesprekken kunt voeren. Als je een artikel hebt gepubliceerd (of bovendien gepresenteerd), bent begonnen of bezig bent met een doctoraat, is dat een pluspunt, maar soms kun je op de stand onderhandelen door interessante vragen te stellen aan de ingenieurs van het bedrijf.

trends

Tijdens de conferentie kunt u een kijkje nemen in het gehele CV-veld. Aan de hand van het aantal posters over een bepaald onderwerp kun je beoordelen hoe actueel het onderwerp is. Sommige conclusies komen naar voren op basis van de trefwoorden:

Trends in computervisie. Hoogtepunten ICCV 2019

Zero-shot, one-shot, weinig-shot, zelfgecontroleerd en semi-gesuperviseerd: nieuwe benaderingen van lang bestudeerde taken

Mensen leren data effectiever te gebruiken. Bijvoorbeeld, binnen FUNIT het is mogelijk gezichtsuitdrukkingen te genereren van dieren die niet in de trainingsset zaten (in de toepassing door meerdere referentiefoto's aan te bieden). De ideeën van Deep Image Prior zijn ontwikkeld en nu kunnen GAN-netwerken worden getraind op één enkele afbeelding - we zullen hier hieronder over praten bij hoogtepunten. U kunt zelfsupervisie gebruiken voor voortraining (het oplossen van een probleem waarvoor u uitgelijnde gegevens kunt synthetiseren, zoals het voorspellen van de rotatiehoek van een afbeelding) of tegelijkertijd leren van gelabelde en ongelabelde gegevens. In die zin kan het artikel worden beschouwd als de kroon van de schepping S4L: Zelfgestuurd semi-begeleid leren. En hier is de pre-training over ImageNet niet altijd helpt.

Trends in computervisie. Hoogtepunten ICCV 2019

Trends in computervisie. Hoogtepunten ICCV 2019

3D en 360°

Problemen die voor foto's grotendeels opgelost zijn (segmentatie, detectie) vereisen aanvullend onderzoek voor 3D-modellen en panoramische video's. We hebben veel artikelen gezien over RGB- en RGB-D naar 3D-conversie. Sommige problemen, zoals het schatten van de menselijke pose, kunnen op een meer natuurlijke manier worden opgelost door over te stappen op 3D-modellen. Maar er bestaat nog geen consensus over hoe XNUMXD-modellen precies moeten worden weergegeven - in de vorm van een mesh, puntenwolk, voxels of SDF. Hier is nog een optie:

Trends in computervisie. Hoogtepunten ICCV 2019

In panorama's ontwikkelen zich actief convoluties op de bol (zie. Oriëntatiebewuste semantische segmentatie op icosaëderbollen) en zoek naar belangrijke objecten in het frame.

Trends in computervisie. Hoogtepunten ICCV 2019

Posedetectie en voorspelling van menselijke bewegingen

Er is al vooruitgang geboekt op het gebied van posedetectie in 2D - nu is de focus verschoven naar het werken met meerdere camera's en in 3D. U kunt bijvoorbeeld ook een skelet door een muur detecteren door veranderingen in het Wi-Fi-signaal te volgen terwijl dit door het menselijk lichaam gaat.

Er is veel werk verricht op het gebied van handsleutelpuntdetectie. Er zijn nieuwe datasets verschenen, waaronder die gebaseerd op video's van dialogen tussen twee mensen - nu kun je handgebaren voorspellen op basis van de audio of tekst van een gesprek! Dezelfde vooruitgang is geboekt bij eye-trackingtaken (blikschatting).

Trends in computervisie. Hoogtepunten ICCV 2019

Trends in computervisie. Hoogtepunten ICCV 2019

Er kan ook een groot cluster van werken worden geïdentificeerd die verband houden met het voorspellen van menselijke bewegingen (bijvoorbeeld Voorspelling van menselijke bewegingen via ruimtelijk-temporele inschildering of Gestructureerde voorspelling helpt bij 3D-modellering van menselijke bewegingen). De taak is belangrijk en wordt, op basis van gesprekken met de auteurs, meestal gebruikt om het gedrag van voetgangers bij autonoom rijden te analyseren.

Manipulaties met mensen op foto's en video's, virtuele paskamers

De belangrijkste trend is om gezichtsbeelden te veranderen op basis van interpreteerbare parameters. Ideeën: deepfake op basis van één foto, veranderende uitdrukking op basis van gezichtsweergave (MarionetGAN), feedforward: parameters wijzigen (bijvoorbeeld leeftijd). Stijloverdrachten zijn verschoven van de titel van het onderwerp naar de toepassing van het werk. Virtuele paskamers zijn een ander verhaal; ze werken bijna altijd slecht, Hier is een voorbeeld demo's.

Trends in computervisie. Hoogtepunten ICCV 2019

Trends in computervisie. Hoogtepunten ICCV 2019

Generatie uit schetsen/grafieken

De ontwikkeling van het idee ‘Laat het raster iets genereren op basis van eerdere ervaringen’ werd een andere: ‘Laten we het raster laten zien welke optie ons interesseert.’

SC-FEGAN stelt u in staat om begeleide inpainting uit te voeren: de gebruiker kan het schilderen van een deel van het gezicht in het gewiste deel van de foto voltooien en een herstelde foto krijgen, afhankelijk van de voltooiing.

Trends in computervisie. Hoogtepunten ICCV 2019

Een van de 25 Adobe-artikelen voor ICCV combineert twee GAN's: de ene voltooit de schets voor de gebruiker, de andere genereert een fotorealistisch beeld uit de schets (projectpagina).

Trends in computervisie. Hoogtepunten ICCV 2019

Voorheen waren grafieken niet nodig bij het genereren van afbeeldingen, maar nu zijn ze gemaakt tot een container met kennis over de scène. De Best Paper Honorable Mentions-prijs op basis van de resultaten van ICCV werd ook gewonnen door het artikel Objectkenmerken en relaties specificeren bij het genereren van interactieve scènes. Over het algemeen kunt u ze op verschillende manieren gebruiken: genereer grafieken uit afbeeldingen, of afbeeldingen en teksten uit grafieken.

Trends in computervisie. Hoogtepunten ICCV 2019

Heridentificatie van mensen en auto’s, tellen van de omvang van de menigte (!)

Veel artikelen zijn gewijd aan het volgen van mensen en het opnieuw identificeren van mensen en machines. Maar wat ons verraste waren een aantal artikelen over het tellen van mensenmassa's, allemaal uit China.

Posters Trends in computervisie. Hoogtepunten ICCV 2019

Trends in computervisie. Hoogtepunten ICCV 2019

Trends in computervisie. Hoogtepunten ICCV 2019

Trends in computervisie. Hoogtepunten ICCV 2019

Trends in computervisie. Hoogtepunten ICCV 2019
Maar Facebook anonimiseert de foto daarentegen. En het doet dit op een interessante manier: het traint het neurale netwerk om een ​​gezicht te genereren zonder unieke details - vergelijkbaar, maar niet zo vergelijkbaar dat het correct kan worden geïdentificeerd door gezichtsherkenningssystemen.

Trends in computervisie. Hoogtepunten ICCV 2019

Bescherming tegen vijandige aanvallen

Met de ontwikkeling van computer vision-toepassingen in de echte wereld (in zelfrijdende auto's, in gezichtsherkenning) rijst de vraag naar de betrouwbaarheid van dergelijke systemen steeds meer. Om CV volledig te kunnen gebruiken, moet je er zeker van zijn dat het systeem bestand is tegen aanvallen van tegenstanders. Daarom waren er niet minder artikelen over de bescherming ertegen dan over de aanvallen zelf. Er is veel werk verricht aan het uitleggen van netwerkvoorspellingen (saliency map) en het meten van het vertrouwen in het resultaat.

Gecombineerde taken

Bij de meeste taken met één doel zijn de mogelijkheden om de kwaliteit te verbeteren vrijwel uitgeput; een van de nieuwe richtingen voor het verder verhogen van de kwaliteit is om neurale netwerken te leren meerdere soortgelijke problemen tegelijkertijd op te lossen. Voorbeelden:
— actievoorspelling + optische stroomvoorspelling,
— videopresentatie + taalpresentatie (VideoBERT),
- superresolutie + HDR.

Er zijn ook artikelen over segmentatie, posebepaling en heridentificatie van dieren!

Trends in computervisie. Hoogtepunten ICCV 2019

Trends in computervisie. Hoogtepunten ICCV 2019

Hoogtepunten

Vrijwel alle artikelen waren vooraf bekend, de tekst was beschikbaar op arXiv.org. Daarom lijkt de presentatie van werken als Everybody Dance Now, FUNIT en Image2StyleGAN nogal vreemd - dit zijn zeer nuttige werken, maar niet nieuw. Het lijkt erop dat het klassieke proces van wetenschappelijke publicaties hier mislukt: de wetenschap gaat te snel.

Het is erg moeilijk om de beste werken te bepalen - er zijn er veel, de onderwerpen zijn verschillend. Diverse artikelen ontvangen onderscheidingen en vermeldingen.

We willen werken uitlichten die interessant zijn vanuit het oogpunt van beeldmanipulatie, aangezien dit ons onderwerp is. Ze bleken voor ons behoorlijk fris en interessant (we pretenderen niet objectief te zijn).

SinGAN (prijs voor beste papier) en InGAN

SinGAN: projectpagina, arXiv, code.
InGAN: projectpagina, arXiv, code.

Ontwikkeling van het Deep Image Prior-idee van Dmitry Ulyanov, Andrea Vedaldi en Victor Lempitsky. In plaats van een GAN op een dataset te trainen, leren de netwerken van fragmenten van dezelfde afbeelding om de statistieken erin te onthouden. Met het getrainde netwerk kunt u foto's bewerken en animeren (SinGAN) of nieuwe afbeeldingen van elk formaat genereren op basis van de texturen van de originele afbeelding, waarbij de lokale structuur (InGAN) behouden blijft.

SinGAN:

Trends in computervisie. Hoogtepunten ICCV 2019

InGAN:

Trends in computervisie. Hoogtepunten ICCV 2019

Zien wat een GAN niet kan genereren

Project pagina.

Neurale netwerken die beelden genereren, gebruiken vaak een vector van willekeurige ruis als invoer. In een getraind netwerk vormen veel invoervectoren een ruimte, waarlangs kleine bewegingen tot kleine veranderingen in het beeld leiden. Met behulp van optimalisatie kunt u het omgekeerde probleem oplossen: een geschikte invoervector vinden voor een afbeelding uit de echte wereld. De auteur laat zien dat het vrijwel nooit mogelijk is om in een neuraal netwerk een volledig passend plaatje te vinden. Sommige objecten in de afbeelding worden niet gegenereerd (blijkbaar vanwege de grote variabiliteit van deze objecten).

Trends in computervisie. Hoogtepunten ICCV 2019

De auteur veronderstelt dat GAN niet de hele ruimte aan afbeeldingen bestrijkt, maar slechts een deelverzameling, gevuld met gaten, zoals kaas. Wanneer we daarin foto's uit de echte wereld proberen te vinden, zullen we altijd falen, omdat GAN nog steeds niet geheel echte foto's genereert. De verschillen tussen echte en gegenereerde afbeeldingen kunnen alleen worden overwonnen door het gewicht van het netwerk te veranderen, dat wil zeggen door het opnieuw te trainen voor een specifieke foto.

Trends in computervisie. Hoogtepunten ICCV 2019

Wanneer het netwerk bovendien is getraind voor een specifieke foto, kunt u verschillende manipulaties met deze afbeelding proberen. In het onderstaande voorbeeld is een venster aan de foto toegevoegd en genereerde het netwerk bovendien reflecties op het keukenblok. Dit betekent dat het netwerk, zelfs na een aanvullende training voor fotografie, het vermogen om de verbinding tussen objecten in de scène te zien niet heeft verloren.

Trends in computervisie. Hoogtepunten ICCV 2019

GANalyze: naar visuele definities van cognitieve beeldeigenschappen

Project pagina, arXiv.

Met behulp van de aanpak uit dit werk kun je visualiseren en analyseren wat het neurale netwerk heeft geleerd. De auteurs stellen voor om GAN te trainen om afbeeldingen te maken waarvoor het netwerk specifieke voorspellingen zal genereren. In het artikel werden verschillende netwerken als voorbeeld gebruikt, waaronder MemNet, dat de memorabiliteit van foto's voorspelt. Het bleek dat voor een betere memorabiliteit het object op de foto:

  • dichter bij het centrum zijn
  • een meer ronde of vierkante vorm hebben en een eenvoudige structuur hebben,
  • een uniforme achtergrond hebben,
  • expressieve ogen bevatten (althans voor hondenfoto's),
  • helderder, meer verzadigd en in sommige gevallen roder zijn.

Trends in computervisie. Hoogtepunten ICCV 2019

Liquid Warping GAN: een uniform raamwerk voor imitatie van menselijke bewegingen, overdracht van uiterlijk en synthese van nieuwe weergaven

Project pagina, arXiv, code.

Pijplijn voor het genereren van foto's van mensen, foto voor foto. De auteurs laten succesvolle voorbeelden zien van het overbrengen van de beweging van de ene persoon naar de andere, het overbrengen van kleding tussen mensen en het genereren van nieuwe perspectieven van een persoon - allemaal vanuit één foto. In tegenstelling tot eerdere werken gebruiken we hier geen sleutelpunten in 2D (pose), maar een 3D-mesh van het lichaam (pose + vorm) om omstandigheden te creëren. De auteurs ontdekten ook hoe ze informatie van de originele afbeelding naar de gegenereerde afbeelding konden overbrengen (Liquid Warping Block). De resultaten zien er goed uit, maar de resolutie van de resulterende afbeelding is slechts 256x256. Ter vergelijking: vid2vid, dat een jaar geleden verscheen, kan beelden genereren in een resolutie van 2048 x 1024, maar vereist maar liefst 10 minuten video-opname als dataset.

Trends in computervisie. Hoogtepunten ICCV 2019

FSGAN: Subject-agnostische gezichtswisseling en re-enactment

Project pagina, arXiv.

In eerste instantie lijkt er niets ongewoons aan de hand: een deepfake met min of meer normale kwaliteit. Maar de belangrijkste prestatie van het werk is de vervanging van gezichten uit één foto. In tegenstelling tot eerdere werken was training vereist voor veel foto's van een specifieke persoon. De pipeline bleek omslachtig (re-enactment en segmentatie, view-interpolatie, inpainting, blending) en met veel technische hacks, maar het resultaat is de moeite waard.

Trends in computervisie. Hoogtepunten ICCV 2019

Het onverwachte detecteren via beeldhersynthese

arXiv.

Hoe kan een drone begrijpen dat er plotseling een object voor hem is verschenen dat niet in een semantische segmentatieklasse valt? Er zijn verschillende methoden, maar de auteurs stellen een nieuw, intuïtief algoritme voor dat beter werkt dan zijn voorgangers. Semantische segmentatie wordt voorspeld op basis van het ingevoerde wegbeeld. Het wordt ingevoerd als invoer voor de GAN (pix2pixHD), die alleen de originele afbeelding probeert te herstellen vanaf de semantische kaart. Afwijkingen die niet in een van de segmenten vallen, zullen aanzienlijk verschillen in de uitvoer en het gegenereerde beeld. De drie afbeeldingen (origineel, gesegmenteerd en gereconstrueerd) worden vervolgens ingevoerd in een ander netwerk dat afwijkingen voorspelt. De dataset hiervoor is gegenereerd uit de bekende Cityscapes-dataset, waarbij de klassen in de semantische segmentatie willekeurig zijn gewijzigd. Interessant is dat in deze setting een hond die midden op de weg staat, maar correct gesegmenteerd is (wat betekent dat er een klasse voor is), geen anomalie is, omdat het systeem hem kon herkennen.

Trends in computervisie. Hoogtepunten ICCV 2019

Conclusie

Voorafgaand aan het congres is het belangrijk om te weten wat uw wetenschappelijke interesses zijn, welke presentaties u graag wilt bijwonen en met wie u wilt praten. Dan zal alles veel productiever zijn.

ICCV is in de eerste plaats netwerken. Je begrijpt dat er topinstituten en wetenschappelijke topafdelingen zijn, je begint dit te begrijpen, leert mensen kennen. En je kunt artikelen over arXiv lezen - en trouwens, het is heel gaaf dat je nergens heen hoeft om kennis op te doen.

Daarnaast kun je op het congres diep ingaan op onderwerpen die niet dicht bij jou liggen en trends zien. Schrijf een lijst met artikelen die u wilt lezen. Als je student bent, is dit voor jou een kans om een ​​potentiële docent te ontmoeten, als je uit de branche komt, dan bij een nieuwe werkgever, en als je een bedrijf bent, dan om jezelf te laten zien.

Abonneer je op @loss_function_porn! Dit is een persoonlijk project: we leiden het samen met karvlieg. We hebben hier alle werken geplaatst die we leuk vonden tijdens de conferentie: @loss_function_live.

Bron: www.habr.com

Voeg een reactie