🥇Trendit tietokonenäössä. ICCV 2019 kohokohdat

Tietokonenäön trendit. ICCV 2019 kohokohdat

Tietokonenäön hermoverkot kehittyvät aktiivisesti, monet ongelmat ovat vielä kaukana ratkaisusta. Jos haluat olla alasi trendissä, seuraa vain vaikuttajia Twitterissä ja lue aiheeseen liittyviä artikkeleita arXiv.orgista. Mutta meillä oli mahdollisuus käydä International Conference on Computer Vision (ICCV) 2019. Tänä vuonna se järjestetään Etelä-Koreassa. Nyt haluamme jakaa Habr-lukijoiden kanssa, mitä näimme ja opimme.

Meitä oli paikalla paljon Yandexistä: paikalle tuli itseajavien autojen kehittäjiä, tutkijoita ja palveluissa CV-tehtävien parissa työskenteleviä. Mutta nyt haluamme esittää hieman subjektiivisen näkemyksen tiimistämme - Machine Intelligence Laboratorysta (Yandex MILAB). Muut kaverit luultavasti katsoivat konferenssia omasta näkökulmastaan.

Mitä laboratorio tekee?Teemme kokeellisia projekteja, jotka liittyvät kuvien ja musiikin luomiseen viihdetarkoituksiin. Olemme erityisen kiinnostuneita hermoverkoista, joiden avulla voit muuttaa käyttäjän sisältöä (valokuvien kohdalla tätä tehtävää kutsutaan kuvankäsittelyksi). Esimerkki työmme tulos YaC 2019 -konferenssista.
Tieteellisiä konferensseja on paljon, mutta niistä nousevat esiin huippukokoukset, niin sanotut A*-konferenssit, joissa yleensä julkaistaan artikkeleita mielenkiintoisimmista ja tärkeimmistä teknologioista. Tarkkaa luetteloa A*-konferensseista ei ole, tässä on likimääräinen ja epätäydellinen luettelo: NeurIPS (entinen NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Kolme viimeistä ovat erikoistuneet CV-aiheeseen.

ICCV yhdellä silmäyksellä: julisteita, opetusohjelmia, työpajoja, osastot

Konferenssiin saapui 1075 esitelmää, osallistujia oli 7500 Venäjältä, artikkeleita oli Yandexin, Skoltechin, Samsung AI Centerin ja Samaran yliopiston työntekijöiltä. Tänä vuonna ICCV:ssä ei vieraili paljon huippututkijoita, mutta esimerkiksi Aleksei (Alyosha) Efros, joka houkuttelee aina paljon ihmisiä:

Tietokonenäön trendit. ICCV 2019 kohokohdat

Tilastot

Kaikissa tällaisissa konferensseissa artikkelit esitetään julisteina (lisää formaatista), ja parhaat esitellään myös lyhyiden raporttien muodossa.

Tässä muutamia teoksia Venäjältä Tietokonenäön trendit. ICCV 2019 kohokohdat

Opetusohjelmien avulla voit sukeltaa tiettyyn aihealueeseen, se muistuttaa luentoa yliopistossa. Sen lukee yksi henkilö, yleensä puhumatta yksittäisistä teoksista. Esimerkki hienosta opetusohjelmasta (Michael Brown, Understanding Color and In-Camera Image Processing Pipeline for Computer Vision):

Tietokonenäön trendit. ICCV 2019 kohokohdat

Työpajoissa päinvastoin puhutaan artikkeleista. Yleensä nämä ovat teoksia jostain kapeasta aiheesta, laboratorioiden johtajien tarinoita kaikista opiskelijoiden uusimmista töistä tai artikkeleita, joita ei hyväksytty pääkonferenssiin.

Sponsoroivat yritykset tulevat ICCV:hen osastoilla. Tänä vuonna paikalle saapuivat Google, Facebook, Amazon ja monet muut kansainväliset yritykset sekä suuri määrä startuppeja - korealaisia ja kiinalaisia. Erityisen paljon startupeja oli datakoodaukseen erikoistuneita. Osastolla on esityksiä, voit ottaa kauppatavaraa ja kysyä. Metsästystarkoituksiin sponsoriyritykset järjestävät juhlia. Voit päästä niihin, jos vakuutat rekrytoijat kiinnostuksestasi ja siitä, että voit mahdollisesti läpäistä haastattelut. Jos olet julkaissut artikkelin (tai lisäksi esitellyt sen), aloittanut tai viimeistelemässä tohtorintutkintoa, tämä on plussaa, mutta joskus voit neuvotella osastolla esittämällä mielenkiintoisia kysymyksiä yrityksen insinööreille.

suuntaukset

Konferenssissa pääset tutustumaan koko CV-kenttään. Tiettyä aihetta koskevien julisteiden lukumäärän perusteella voit arvioida, kuinka kuuma aihe on. Jotkut johtopäätökset ehdottavat itseään avainsanojen perusteella:

Tietokonenäön trendit. ICCV 2019 kohokohdat

Nolla-, kerta-, muutaman otoksen, itseohjattu ja puolivalvottu: uusia lähestymistapoja pitkään opittuihin tehtäviin

Ihmiset oppivat käyttämään dataa tehokkaammin. Esimerkiksi sisään FUNIT on mahdollista luoda ilmeitä eläimistä, jotka eivät olleet koulutussarjassa (sovelluksessa tarjoamalla useita vertailukuvia). Deep Image Priorin ideoita on kehitetty, ja nyt GAN-verkkoja voidaan kouluttaa yhdelle kuvalle - puhumme tästä alla kohokohdissa. Voit käyttää itsevalvontaa esiharjoitteluun (ratkaisemaan ongelma, jota varten voit syntetisoida kohdistettuja tietoja, kuten ennustaa kuvan kiertokulmaa) tai oppia samanaikaisesti merkityistä ja merkitsemättömistä tiedoista. Tässä mielessä artikkelia voidaan pitää luomisen kruununa S4L: Self-Supervised Semi-Supervised Learning. Ja tässä on esikoulutus ImageNetissä ei aina Se auttaa.

Tietokonenäön trendit. ICCV 2019 kohokohdat

3D ja 360°

Enimmäkseen valokuvien osalta ratkaistut ongelmat (segmentointi, tunnistus) vaativat lisätutkimusta 3D-malleja ja panoraamavideoita varten. Olemme nähneet monia artikkeleita RGB:n ja RGB-D:n muuntamisesta 3D:ksi. Jotkut ongelmat, kuten ihmisen asennon estimointi, voidaan ratkaista luonnollisemmin siirtymällä 3D-malleihin. Mutta vielä ei ole yksimielisyyttä siitä, miten XNUMXD-malleja tarkalleen esitetään - verkon, pistepilven, vokseleiden tai SDF:n muodossa. Tässä on toinen vaihtoehto:

Tietokonenäön trendit. ICCV 2019 kohokohdat

Panoraamoissa pallon mutaatiot kehittyvät aktiivisesti (katso. Suuntatietoinen semanttinen segmentointi ikosaedripalloilla) ja etsi kehyksen avainobjekteja.

Tietokonenäön trendit. ICCV 2019 kohokohdat

Asennontunnistus ja ihmisen liikkeen ennustaminen

Asennontunnistuksessa on jo edistytty 2D:ssä – nyt painopiste on siirtynyt useiden kameroiden kanssa työskentelemiseen ja 3D:hen. On myös mahdollista esimerkiksi havaita luuranko seinän läpi seuraamalla muutoksia Wi-Fi-signaalissa sen kulkiessa ihmiskehon läpi.

Käsin avainpisteiden tunnistuksen alalla on tehty paljon työtä. Uusia tietojoukkoja on ilmestynyt, mukaan lukien ne, jotka perustuvat kahden ihmisen dialogien videoihin – nyt voit ennustaa käden eleitä keskustelun äänen tai tekstin perusteella! Samaa edistystä on tapahtunut katseenseurantatehtävissä (katsomisen estimointi).

Tietokonenäön trendit. ICCV 2019 kohokohdat

Voidaan myös tunnistaa suuri joukko ihmisen liikkeen ennustamiseen liittyviä teoksia (esim. Ihmisen liikkeen ennustaminen spatio-ajallisen maalauksen avulla tai Strukturoitu ennustaminen auttaa ihmisen 3D-liikkeen mallintamisessa). Tehtävä on tärkeä ja sitä käytetään tekijöiden kanssa käytyjen keskustelujen perusteella useimmiten jalankulkijoiden käyttäytymisen analysointiin autonomisessa ajossa.

Manipulaatioita ihmisten kanssa valokuvissa ja videoissa, virtuaaliset sovitushuoneet

Päätrendi on muuttaa kasvokuvaa tulkittavissa olevien parametrien mukaan. Ideat: Deepfake yhden kuvan perusteella, ilmeen muuttaminen kasvojen renderöinnin perusteella (NukkeGAN), eteenpäin - muuta parametreja (esim. ikä). Tyylin siirrot ovat siirtyneet aiheen otsikosta työn sovellukseen. Virtuaaliset sovitushuoneet ovat eri juttu, ne toimivat lähes aina huonosti, tässä on esimerkki demot.

Tietokonenäön trendit. ICCV 2019 kohokohdat

Sukupolvi luonnoksista/kaavioista

Idean "Anna ruudukon synnyttää jotain aikaisemman kokemuksen perusteella" kehitystyöstä tuli toinen: "Näytetään ruudukolle, mikä vaihtoehto kiinnostaa meitä."

SC-FEGAN mahdollistaa ohjatun maalauksen: käyttäjä voi maalata osan kasvoista kuvan poistetulle alueelle ja saada palautetun kuvan valmistumisesta riippuen.

Tietokonenäön trendit. ICCV 2019 kohokohdat

Yksi 25 Adoben ICCV-artikkelista yhdistää kaksi GAN:ia: toinen viimeistelee luonnoksen käyttäjälle, toinen luo luonnoksesta fotorealistisen kuvan (projektin sivu).

Tietokonenäön trendit. ICCV 2019 kohokohdat

Aikaisemmin kuvaajia ei tarvittu kuvanluonnissa, mutta nyt niistä on tehty kohtauksen tiedon säiliö. Artikkeli voitti myös ICCV:n tuloksiin perustuvan Best Paper Honorable Mentions -palkinnon Objektien attribuuttien ja suhteiden määrittäminen interaktiivisen kohtauksen luomisessa. Yleensä voit käyttää niitä eri tavoilla: luoda kaavioita kuvista tai kuvia ja tekstejä kaavioista.

Tietokonenäön trendit. ICCV 2019 kohokohdat

Ihmisten ja autojen tunnistaminen uudelleen, väkijoukon koon laskeminen (!)

Monet artikkelit on omistettu ihmisten jäljittämiseen ja ihmisten ja koneiden tunnistamiseen uudelleen. Mutta se, mikä yllätti meidät, oli joukko joukon laskemista koskevia artikkeleita, kaikki Kiinasta.

Julisteet Tietokonenäön trendit. ICCV 2019 kohokohdat

Mutta Facebook päinvastoin anonymisoi valokuvan. Ja se tekee tämän mielenkiintoisella tavalla: se kouluttaa hermoverkkoa luomaan kasvot ilman ainutlaatuisia yksityiskohtia - samanlaisia, mutta ei niin samanlaisia, että ne voidaan tunnistaa oikein kasvojentunnistusjärjestelmillä.

Tietokonenäön trendit. ICCV 2019 kohokohdat

Suojaus vihollisia hyökkäyksiä vastaan

Kun tietokonenäkösovellukset kehittyvät todellisessa maailmassa (itseajavissa autoissa, kasvojentunnistuksessa), kysymys tällaisten järjestelmien luotettavuudesta nousee yhä enemmän esille. CV:n täysimääräinen käyttö edellyttää, että järjestelmä on vastustuskykyinen vastakkaisille hyökkäyksille – siksi niitä vastaan suojautumisesta ei ollut vähemmän artikkeleita kuin itse hyökkäyksistä. Verkoston ennusteiden (saliency map) selittämisessä ja tuloksen luottamuksen mittaamisessa on tehty paljon työtä.

Yhdistetyt tehtävät

Useimmissa yhden kohteen tehtävissä mahdollisuudet laadun parantamiseen ovat käytännössä loppuneet, yksi uusista suunnasta laadun edelleen nostamiseen on opettaa neuroverkkoja ratkaisemaan useita samanlaisia ongelmia samanaikaisesti. Esimerkkejä:
— toiminnan ennustaminen + optisen virtauksen ennustaminen,
- videoesitys + kieliesitys (VideoBERT),
- superresoluutio + HDR.

Siellä on myös artikkeleita segmentoinnista, asennon määrittämisestä ja eläinten uudelleentunnistamisesta!

Tietokonenäön trendit. ICCV 2019 kohokohdat

Kohokohdat

Lähes kaikki artikkelit olivat tiedossa etukäteen, teksti oli saatavilla osoitteessa arXiv.org. Siksi tällaisten teosten, kuten Everybody Dance Now, FUNIT, Image2StyleGAN, esittely vaikuttaa melko oudolta - nämä ovat erittäin hyödyllisiä teoksia, mutta eivät uusia. Näyttää siltä, että klassinen tieteellisten julkaisujen prosessi on täällä murtumassa - tiede etenee liian nopeasti.

Parhaita teoksia on erittäin vaikea määrittää - niitä on monia, aiheet ovat erilaisia. Useita artikkeleita vastaanotettu palkinnot ja maininnat.

Haluamme tuoda esille teoksia, jotka ovat mielenkiintoisia kuvankäsittelyn näkökulmasta, koska tämä on aiheemme. Ne osoittautuivat meille melko tuoreiksi ja mielenkiintoisiksi (emme teeskentele objektiivisuutta).

SinGAN (paras paperipalkinto) ja InGAN

SinGAN: projektin sivu, arXiv, koodi.
InGAN: projektin sivu, arXiv, koodi.

Deep Imagen kehittäminen Dmitry Uljanovin, Andrea Vedaldin ja Victor Lempitskyn aiempi idea. Sen sijaan, että verkostot kouluttaisivat GANeja tietojoukossa, ne oppivat saman kuvan fragmenteista muistaakseen sen sisältämät tilastot. Koulutetun verkon avulla voit muokata ja animoida valokuvia (SinGAN) tai luoda minkä tahansa kokoisia uusia kuvia alkuperäisen kuvan tekstuurista säilyttäen paikallisen rakenteen (InGAN).

SinGAN:

Tietokonenäön trendit. ICCV 2019 kohokohdat

InGAN:

Tietokonenäön trendit. ICCV 2019 kohokohdat

Katso, mitä GAN ei voi luoda

Projektin sivu.

Kuvia luovat hermoverkot ottavat usein syötteenä satunnaisen kohinan vektorin. Koulutetussa verkossa monet syöttövektorit muodostavat tilan, jota pitkin pienet liikkeet johtavat pieniin muutoksiin kuvassa. Optimoinnin avulla voit ratkaista käänteisen ongelman: löytää sopiva syöttövektori kuvalle todellisesta maailmasta. Kirjoittaja osoittaa, että hermoverkosta ei ole lähes koskaan mahdollista löytää täysin vastaavaa kuvaa. Joitakin kuvan objekteja ei luoda (ilmeisesti näiden objektien suuren vaihtelun vuoksi).

Tietokonenäön trendit. ICCV 2019 kohokohdat

Kirjoittaja olettaa, että GAN ei kata koko kuvatilaa, vaan vain jotkin osajoukot, jotka ovat täynnä reikiä, kuten juustoa. Kun yritämme löytää siitä kuvia todellisesta maailmasta, epäonnistumme aina, koska GAN ei silti luo täysin aitoja valokuvia. Erot todellisten ja luotujen kuvien välillä voidaan voittaa vain muuttamalla verkon painoja, eli kouluttamalla se uudelleen tiettyä valokuvaa varten.

Tietokonenäön trendit. ICCV 2019 kohokohdat

Kun verkko on lisäksi koulutettu tiettyä valokuvaa varten, voit kokeilla erilaisia käsittelyjä tällä kuvalla. Alla olevassa esimerkissä kuvaan lisättiin ikkuna ja verkko loi lisäksi heijastuksia keittiökalusteeseen. Tämä tarkoittaa, että verkko ei myöskään valokuvauksen lisäkoulutuksen jälkeen menettänyt kykyään nähdä yhteys kohtauksen kohteiden välillä.

Tietokonenäön trendit. ICCV 2019 kohokohdat

GANalyze: Kohti kognitiivisen kuvan ominaisuuksien visuaalisia määritelmiä

Projektin sivu, arXiv.

Tämän työn lähestymistapaa käyttämällä voit visualisoida ja analysoida, mitä hermoverkko on oppinut. Kirjoittajat ehdottavat, että GAN koulutetaan luomaan kuvia, joille verkko luo tietyt ennusteet. Artikkelissa käytettiin esimerkkeinä useita verkkoja, mukaan lukien MemNet, joka ennustaa valokuvien muistettavuutta. Kävi ilmi, että paremman muiston vuoksi valokuvan kohteen tulisi:

olla lähempänä keskustaa
on pyöreämpi tai neliömäisempi ja rakenteeltaan yksinkertainen,
olla yhtenäisellä taustalla,
sisältää ilmeikkäät silmät (ainakin koiravalokuvissa),
olla kirkkaampi, kylläisempi, joissain tapauksissa punaisempi.

Tietokonenäön trendit. ICCV 2019 kohokohdat

Liquid Warping GAN: yhtenäinen kehys ihmisen liikkeen jäljittelylle, ulkonäön siirrolle ja uudenlaisen näkymän synteesille

Projektin sivu, arXiv, koodi.

Kanava valokuvien luomiseen ihmisistä yksi kuva kerrallaan. Kirjoittajat näyttävät onnistuneita esimerkkejä ihmisen liikkeen siirtämisestä toiselle, vaatteiden siirtämisestä ihmisten välillä ja uusien näkökulmien luomisesta ihmisestä - kaikki yhdestä valokuvasta. Toisin kuin aikaisemmissa teoksissa, tässä emme käytä 2D:n avainpisteitä (ase), vaan kehon 3D-verkkoa (asento + muoto) olosuhteiden luomiseen. Tekijät keksivät myös kuinka siirtää tietoa alkuperäisestä kuvasta luotuun (Liquid Warping Block). Tulokset näyttävät hyviltä, mutta tuloksena olevan kuvan resoluutio on vain 256x256. Vertailun vuoksi todettakoon, että vuosi sitten ilmestynyt vid2vid pystyy generoimaan 2048x1024-resoluutiolla, mutta se vaatii aineistona jopa 10 minuuttia videotallennusta.

Tietokonenäön trendit. ICCV 2019 kohokohdat

FSGAN: Subject Agnosttic Face Swapping and Reenactment

Projektin sivu, arXiv.

Aluksi näyttää siltä, että ei ole mitään epätavallista: deepfake, jonka laatu on enemmän tai vähemmän normaali. Mutta työn tärkein saavutus on kasvojen korvaaminen yhdestä kuvasta. Toisin kuin aikaisemmissa töissä, koulutusta vaadittiin useisiin tietyn henkilön valokuviin. Liukulinja osoittautui hankalaksi (uudelleenesitys ja segmentointi, näkymäinterpolointi, maalaus, sekoitus) ja paljon teknisiä hakkereita, mutta tulos on sen arvoinen.

Tietokonenäön trendit. ICCV 2019 kohokohdat

Odottamattoman havaitseminen kuvan uudelleensynteesin avulla

arXiv.

Kuinka drone voi ymmärtää, että sen eteen on yhtäkkiä ilmestynyt esine, joka ei kuulu mihinkään semanttiseen segmentointiluokkaan? On olemassa useita menetelmiä, mutta kirjoittajat ehdottavat uutta, intuitiivista algoritmia, joka toimii paremmin kuin edeltäjänsä. Semanttinen segmentointi ennustetaan tulotiekuvasta. Se syötetään tulona GAN:iin (pix2pixHD), joka yrittää palauttaa alkuperäisen kuvan vain semanttisesta kartasta. Poikkeamat, jotka eivät kuulu mihinkään segmenttiin, eroavat merkittävästi lähdöstä ja luodusta kuvasta. Kolme kuvaa (alkuperäinen, segmentoitu ja rekonstruoitu) syötetään sitten toiseen verkkoon, joka ennustaa poikkeavuuksia. Tietojoukko tätä varten luotiin tunnetusta Cityscapes-tietojoukosta, muuttamalla semanttisen segmentoinnin luokat satunnaisesti. Mielenkiintoista on, että tässä tilanteessa keskellä tietä seisova, mutta oikein segmentoitu koira (mikä tarkoittaa, että sille on luokka), ei ole poikkeama, koska järjestelmä pystyi tunnistamaan sen.

Tietokonenäön trendit. ICCV 2019 kohokohdat

Johtopäätös

Ennen konferenssia on tärkeää tietää, mitkä ovat tieteelliset kiinnostuksen kohteesi, mihin esityksiin haluat osallistua ja kenelle puhua. Silloin kaikki on paljon tuottavampaa.

ICCV on ennen kaikkea verkostoitumista. Ymmärrät, että on olemassa huippuinstituutteja ja huipputieteellisiä osastoja, alat ymmärtää tämän, opit tuntemaan ihmisiä. Ja voit lukea artikkeleita arXivista - ja muuten, on erittäin siistiä, että sinun ei tarvitse mennä minnekään saadaksesi tietoa.

Lisäksi konferenssissa voit sukeltaa syvälle aiheisiin, jotka eivät ole sinua lähellä ja nähdä trendejä. No, kirjoita luettelo artikkeleista luettavaksi. Jos olet opiskelija, tämä on sinulle mahdollisuus tavata potentiaalinen opettaja, jos olet alalta, niin uuden työnantajan kanssa, ja jos olet yritys, niin esitellä itsesi.

Tilaa @loss_function_porn! Tämä on henkilökohtainen projekti: johdamme sitä yhdessä karfly. Julkaisimme täällä kaikki teokset, joista pidimme konferenssin aikana: @loss_function_live.

Lähde: will.com