Neurale netwerken in computervisie ontwikkelen zich actief, veel problemen zijn nog lang niet opgelost. Om op de hoogte te zijn van de trends in jouw vakgebied, volg je influencers op Twitter en lees je relevante artikelen op arXiv.org. Maar we hadden de mogelijkheid om naar de International Conference on Computer Vision (ICCV) 2019 te gaan. Dit jaar wordt die gehouden in Zuid-Korea. Nu willen we met Habr-lezers delen wat we hebben gezien en geleerd.
Er waren velen van ons van Yandex: ontwikkelaars van zelfrijdende auto's, onderzoekers en degenen die zich bezighouden met CV-taken in de dienstensector kwamen. Maar nu willen we een enigszins subjectief standpunt van ons team presenteren: het Machine Intelligence Laboratory (Yandex MILAB). De andere jongens keken waarschijnlijk vanuit hun eigen invalshoek naar de conferentie.
Wat doet het laboratorium?We doen experimentele projecten gerelateerd aan het genereren van beeld en muziek voor entertainmentdoeleinden. We zijn vooral geïnteresseerd in neurale netwerken waarmee je de inhoud van de gebruiker kunt wijzigen (voor foto's wordt deze taak beeldmanipulatie genoemd).
Er zijn veel wetenschappelijke conferenties, maar de belangrijkste vallen op, de zogenaamde A*-conferenties, waar meestal artikelen over de interessantste en belangrijkste technologieën worden gepubliceerd. Er is geen exacte lijst van A*-conferenties, hier is een geschatte en onvolledige lijst: NeurIPS (voorheen NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. De laatste drie zijn gespecialiseerd in het CV-onderwerp.
ICCV in één oogopslag: posters, tutorials, workshops, stands
De conferentie ontving 1075 papers, er waren 7500 deelnemers, 103 mensen kwamen uit Rusland, er waren artikelen van medewerkers van Yandex, Skoltech, Samsung AI Center Moskou en Samara University. Dit jaar bezochten niet veel toponderzoekers ICCV, maar bijvoorbeeld Alexey (Alyosha) Efros, die altijd veel mensen trekt:
statistiek
Op al dergelijke conferenties worden artikelen gepresenteerd in de vorm van posters (
Hier zijn enkele werken uit Rusland
Met tutorials kun je je verdiepen in een bepaald vakgebied; het doet denken aan een college aan een universiteit. Het wordt door één persoon gelezen, meestal zonder over specifieke werken te praten. Een voorbeeld van een coole tutorial (
Tijdens workshops praten ze daarentegen over artikelen. Meestal zijn dit werken over een bepaald onderwerp, verhalen van laboratoriumhoofden over het nieuwste werk van studenten, of artikelen die niet werden geaccepteerd voor de hoofdconferentie.
Sponsorende bedrijven komen met stands naar ICCV. Dit jaar kwamen Google, Facebook, Amazon en vele andere internationale bedrijven, evenals een groot aantal startups - Koreaans en Chinees. Er waren vooral veel startups die zich specialiseerden in datatagging. Er zijn optredens op de stands, je kunt merchandise meenemen en vragen stellen. Voor jachtdoeleinden organiseren sponsorbedrijven feesten. U kunt eraan meedoen als u recruiters ervan overtuigt dat u geïnteresseerd bent en dat u mogelijk sollicitatiegesprekken kunt voeren. Als je een artikel hebt gepubliceerd (of bovendien gepresenteerd), bent begonnen of bezig bent met een doctoraat, is dat een pluspunt, maar soms kun je op de stand onderhandelen door interessante vragen te stellen aan de ingenieurs van het bedrijf.
trends
Tijdens de conferentie kunt u een kijkje nemen in het gehele CV-veld. Aan de hand van het aantal posters over een bepaald onderwerp kun je beoordelen hoe actueel het onderwerp is. Sommige conclusies komen naar voren op basis van de trefwoorden:
Zero-shot, one-shot, weinig-shot, zelfgecontroleerd en semi-gesuperviseerd: nieuwe benaderingen van lang bestudeerde taken
Mensen leren data effectiever te gebruiken. Bijvoorbeeld, binnen
3D en 360°
Problemen die voor foto's grotendeels opgelost zijn (segmentatie, detectie) vereisen aanvullend onderzoek voor 3D-modellen en panoramische video's. We hebben veel artikelen gezien over RGB- en RGB-D naar 3D-conversie. Sommige problemen, zoals het schatten van de menselijke pose, kunnen op een meer natuurlijke manier worden opgelost door over te stappen op 3D-modellen. Maar er bestaat nog geen consensus over hoe XNUMXD-modellen precies moeten worden weergegeven - in de vorm van een mesh, puntenwolk, voxels of SDF. Hier is nog een optie:
In panorama's ontwikkelen zich actief convoluties op de bol (zie.
Posedetectie en voorspelling van menselijke bewegingen
Er is al vooruitgang geboekt op het gebied van posedetectie in 2D - nu is de focus verschoven naar het werken met meerdere camera's en in 3D. U kunt bijvoorbeeld ook een skelet door een muur detecteren door veranderingen in het Wi-Fi-signaal te volgen terwijl dit door het menselijk lichaam gaat.
Er is veel werk verricht op het gebied van handsleutelpuntdetectie. Er zijn nieuwe datasets verschenen, waaronder die gebaseerd op video's van dialogen tussen twee mensen - nu kun je handgebaren voorspellen op basis van de audio of tekst van een gesprek! Dezelfde vooruitgang is geboekt bij eye-trackingtaken (blikschatting).
Er kan ook een groot cluster van werken worden geïdentificeerd die verband houden met het voorspellen van menselijke bewegingen (bijvoorbeeld
Manipulaties met mensen op foto's en video's, virtuele paskamers
De belangrijkste trend is om gezichtsbeelden te veranderen op basis van interpreteerbare parameters. Ideeën: deepfake op basis van één foto, veranderende uitdrukking op basis van gezichtsweergave (
Generatie uit schetsen/grafieken
De ontwikkeling van het idee ‘Laat het raster iets genereren op basis van eerdere ervaringen’ werd een andere: ‘Laten we het raster laten zien welke optie ons interesseert.’
Een van de 25 Adobe-artikelen voor ICCV combineert twee GAN's: de ene voltooit de schets voor de gebruiker, de andere genereert een fotorealistisch beeld uit de schets (
Voorheen waren grafieken niet nodig bij het genereren van afbeeldingen, maar nu zijn ze gemaakt tot een container met kennis over de scène. De Best Paper Honorable Mentions-prijs op basis van de resultaten van ICCV werd ook gewonnen door het artikel
Heridentificatie van mensen en auto’s, tellen van de omvang van de menigte (!)
Veel artikelen zijn gewijd aan het volgen van mensen en het opnieuw identificeren van mensen en machines. Maar wat ons verraste waren een aantal artikelen over het tellen van mensenmassa's, allemaal uit China.
Posters
Maar Facebook anonimiseert de foto daarentegen. En het doet dit op een interessante manier: het traint het neurale netwerk om een gezicht te genereren zonder unieke details - vergelijkbaar, maar niet zo vergelijkbaar dat het correct kan worden geïdentificeerd door gezichtsherkenningssystemen.
Bescherming tegen vijandige aanvallen
Met de ontwikkeling van computer vision-toepassingen in de echte wereld (in zelfrijdende auto's, in gezichtsherkenning) rijst de vraag naar de betrouwbaarheid van dergelijke systemen steeds meer. Om CV volledig te kunnen gebruiken, moet je er zeker van zijn dat het systeem bestand is tegen aanvallen van tegenstanders. Daarom waren er niet minder artikelen over de bescherming ertegen dan over de aanvallen zelf. Er is veel werk verricht aan het uitleggen van netwerkvoorspellingen (saliency map) en het meten van het vertrouwen in het resultaat.
Gecombineerde taken
Bij de meeste taken met één doel zijn de mogelijkheden om de kwaliteit te verbeteren vrijwel uitgeput; een van de nieuwe richtingen voor het verder verhogen van de kwaliteit is om neurale netwerken te leren meerdere soortgelijke problemen tegelijkertijd op te lossen. Voorbeelden:
— actievoorspelling + optische stroomvoorspelling,
— videopresentatie + taalpresentatie (
-
Er zijn ook artikelen over segmentatie, posebepaling en heridentificatie van dieren!
Hoogtepunten
Vrijwel alle artikelen waren vooraf bekend, de tekst was beschikbaar op arXiv.org. Daarom lijkt de presentatie van werken als Everybody Dance Now, FUNIT en Image2StyleGAN nogal vreemd - dit zijn zeer nuttige werken, maar niet nieuw. Het lijkt erop dat het klassieke proces van wetenschappelijke publicaties hier mislukt: de wetenschap gaat te snel.
Het is erg moeilijk om de beste werken te bepalen - er zijn er veel, de onderwerpen zijn verschillend. Diverse artikelen ontvangen
We willen werken uitlichten die interessant zijn vanuit het oogpunt van beeldmanipulatie, aangezien dit ons onderwerp is. Ze bleken voor ons behoorlijk fris en interessant (we pretenderen niet objectief te zijn).
SinGAN (prijs voor beste papier) en InGAN
SinGAN:
InGAN:
Ontwikkeling van het Deep Image Prior-idee van Dmitry Ulyanov, Andrea Vedaldi en Victor Lempitsky. In plaats van een GAN op een dataset te trainen, leren de netwerken van fragmenten van dezelfde afbeelding om de statistieken erin te onthouden. Met het getrainde netwerk kunt u foto's bewerken en animeren (SinGAN) of nieuwe afbeeldingen van elk formaat genereren op basis van de texturen van de originele afbeelding, waarbij de lokale structuur (InGAN) behouden blijft.
SinGAN:
InGAN:
Zien wat een GAN niet kan genereren
Neurale netwerken die beelden genereren, gebruiken vaak een vector van willekeurige ruis als invoer. In een getraind netwerk vormen veel invoervectoren een ruimte, waarlangs kleine bewegingen tot kleine veranderingen in het beeld leiden. Met behulp van optimalisatie kunt u het omgekeerde probleem oplossen: een geschikte invoervector vinden voor een afbeelding uit de echte wereld. De auteur laat zien dat het vrijwel nooit mogelijk is om in een neuraal netwerk een volledig passend plaatje te vinden. Sommige objecten in de afbeelding worden niet gegenereerd (blijkbaar vanwege de grote variabiliteit van deze objecten).
De auteur veronderstelt dat GAN niet de hele ruimte aan afbeeldingen bestrijkt, maar slechts een deelverzameling, gevuld met gaten, zoals kaas. Wanneer we daarin foto's uit de echte wereld proberen te vinden, zullen we altijd falen, omdat GAN nog steeds niet geheel echte foto's genereert. De verschillen tussen echte en gegenereerde afbeeldingen kunnen alleen worden overwonnen door het gewicht van het netwerk te veranderen, dat wil zeggen door het opnieuw te trainen voor een specifieke foto.
Wanneer het netwerk bovendien is getraind voor een specifieke foto, kunt u verschillende manipulaties met deze afbeelding proberen. In het onderstaande voorbeeld is een venster aan de foto toegevoegd en genereerde het netwerk bovendien reflecties op het keukenblok. Dit betekent dat het netwerk, zelfs na een aanvullende training voor fotografie, het vermogen om de verbinding tussen objecten in de scène te zien niet heeft verloren.
GANalyze: naar visuele definities van cognitieve beeldeigenschappen
Met behulp van de aanpak uit dit werk kun je visualiseren en analyseren wat het neurale netwerk heeft geleerd. De auteurs stellen voor om GAN te trainen om afbeeldingen te maken waarvoor het netwerk specifieke voorspellingen zal genereren. In het artikel werden verschillende netwerken als voorbeeld gebruikt, waaronder MemNet, dat de memorabiliteit van foto's voorspelt. Het bleek dat voor een betere memorabiliteit het object op de foto:
- dichter bij het centrum zijn
- een meer ronde of vierkante vorm hebben en een eenvoudige structuur hebben,
- een uniforme achtergrond hebben,
- expressieve ogen bevatten (althans voor hondenfoto's),
- helderder, meer verzadigd en in sommige gevallen roder zijn.
Liquid Warping GAN: een uniform raamwerk voor imitatie van menselijke bewegingen, overdracht van uiterlijk en synthese van nieuwe weergaven
Pijplijn voor het genereren van foto's van mensen, foto voor foto. De auteurs laten succesvolle voorbeelden zien van het overbrengen van de beweging van de ene persoon naar de andere, het overbrengen van kleding tussen mensen en het genereren van nieuwe perspectieven van een persoon - allemaal vanuit één foto. In tegenstelling tot eerdere werken gebruiken we hier geen sleutelpunten in 2D (pose), maar een 3D-mesh van het lichaam (pose + vorm) om omstandigheden te creëren. De auteurs ontdekten ook hoe ze informatie van de originele afbeelding naar de gegenereerde afbeelding konden overbrengen (Liquid Warping Block). De resultaten zien er goed uit, maar de resolutie van de resulterende afbeelding is slechts 256x256. Ter vergelijking: vid2vid, dat een jaar geleden verscheen, kan beelden genereren in een resolutie van 2048 x 1024, maar vereist maar liefst 10 minuten video-opname als dataset.
FSGAN: Subject-agnostische gezichtswisseling en re-enactment
In eerste instantie lijkt er niets ongewoons aan de hand: een deepfake met min of meer normale kwaliteit. Maar de belangrijkste prestatie van het werk is de vervanging van gezichten uit één foto. In tegenstelling tot eerdere werken was training vereist voor veel foto's van een specifieke persoon. De pipeline bleek omslachtig (re-enactment en segmentatie, view-interpolatie, inpainting, blending) en met veel technische hacks, maar het resultaat is de moeite waard.
Het onverwachte detecteren via beeldhersynthese
Hoe kan een drone begrijpen dat er plotseling een object voor hem is verschenen dat niet in een semantische segmentatieklasse valt? Er zijn verschillende methoden, maar de auteurs stellen een nieuw, intuïtief algoritme voor dat beter werkt dan zijn voorgangers. Semantische segmentatie wordt voorspeld op basis van het ingevoerde wegbeeld. Het wordt ingevoerd als invoer voor de GAN (pix2pixHD), die alleen de originele afbeelding probeert te herstellen vanaf de semantische kaart. Afwijkingen die niet in een van de segmenten vallen, zullen aanzienlijk verschillen in de uitvoer en het gegenereerde beeld. De drie afbeeldingen (origineel, gesegmenteerd en gereconstrueerd) worden vervolgens ingevoerd in een ander netwerk dat afwijkingen voorspelt. De dataset hiervoor is gegenereerd uit de bekende Cityscapes-dataset, waarbij de klassen in de semantische segmentatie willekeurig zijn gewijzigd. Interessant is dat in deze setting een hond die midden op de weg staat, maar correct gesegmenteerd is (wat betekent dat er een klasse voor is), geen anomalie is, omdat het systeem hem kon herkennen.
Conclusie
Voorafgaand aan het congres is het belangrijk om te weten wat uw wetenschappelijke interesses zijn, welke presentaties u graag wilt bijwonen en met wie u wilt praten. Dan zal alles veel productiever zijn.
ICCV is in de eerste plaats netwerken. Je begrijpt dat er topinstituten en wetenschappelijke topafdelingen zijn, je begint dit te begrijpen, leert mensen kennen. En je kunt artikelen over arXiv lezen - en trouwens, het is heel gaaf dat je nergens heen hoeft om kennis op te doen.
Daarnaast kun je op het congres diep ingaan op onderwerpen die niet dicht bij jou liggen en trends zien. Schrijf een lijst met artikelen die u wilt lezen. Als je student bent, is dit voor jou een kans om een potentiële docent te ontmoeten, als je uit de branche komt, dan bij een nieuwe werkgever, en als je een bedrijf bent, dan om jezelf te laten zien.
Abonneer je op
Bron: www.habr.com