Arvutinägemise suundumused. ICCV 2019 tipphetked

Arvutinägemise suundumused. ICCV 2019 tipphetked

Arvutinägemise närvivõrgud arenevad aktiivselt, paljud probleemid on veel kaugel lahendusest. Et olla oma valdkonnas trendis, jälgige Twitteris mõjutajaid ja lugege asjakohaseid artikleid saidil arXiv.org. Aga meil oli võimalus minna rahvusvahelisele arvutinägemise konverentsile (ICCV) 2019. Sel aastal toimub see Lõuna-Koreas. Nüüd tahame jagada Habri lugejatega seda, mida nägime ja õppisime.

Meid oli seal Yandexist palju: tulid isejuhtivate autode arendajad, teadlased ja need, kes teenindustes CV ülesannetega tegelevad. Kuid nüüd tahame esitada oma meeskonna - masinate luure labori (Yandex MILAB) - veidi subjektiivse vaatenurga. Teised tüübid vaatasid ilmselt konverentsile oma nurga alt.

Mida labor teeb?Teeme meelelahutuslikel eesmärkidel piltide ja muusika genereerimisega seotud eksperimentaalseid projekte. Meid huvitavad eelkõige närvivõrgud, mis võimaldavad kasutajalt sisu muuta (fotode puhul nimetatakse seda ülesannet pilditöötluseks). Näide meie töö tulemus YaC 2019 konverentsilt.
Teaduskonverentse on palju, kuid silma jäävad tipptasemel, nn A* konverentsid, kus tavaliselt avaldatakse artikleid kõige huvitavamatest ja olulisematest tehnoloogiatest. A* konverentside täpset nimekirja pole, siin on ligikaudne ja mittetäielik nimekiri: NeurIPS (endine NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Viimased kolm on spetsialiseerunud CV teemale.

ICCV lühidalt: plakatid, õpetused, töötoad, stendid

Konverentsile laekus 1075 ettekannet, osalejaid oli 7500. Venemaalt tuli 103 inimest, artikleid olid Yandexi, Skoltechi, Moskva Samsungi AI keskuse ja Samara ülikooli töötajatelt. Sel aastal ei käinud ICCV-l palju tippteadlasi, küll aga näiteks Aleksei (Aljoša) Efros, kes tõmbab alati palju rahvast:

Arvutinägemise suundumused. ICCV 2019 tipphetked

Statistika Arvutinägemise suundumused. ICCV 2019 tipphetked

Arvutinägemise suundumused. ICCV 2019 tipphetked

Arvutinägemise suundumused. ICCV 2019 tipphetked

Arvutinägemise suundumused. ICCV 2019 tipphetked

Arvutinägemise suundumused. ICCV 2019 tipphetked

Kõigil sellistel konverentsidel esitatakse artikleid plakatitena (rohkem formaadi kohta) ning parimad esitatakse ka lühireportaažidena.

Siin on mõned tööd Venemaalt Arvutinägemise suundumused. ICCV 2019 tipphetked

Arvutinägemise suundumused. ICCV 2019 tipphetked

Arvutinägemise suundumused. ICCV 2019 tipphetked

Õpetuste abil saate sukelduda konkreetsesse ainevaldkonda; see meenutab loengut ülikoolis. Seda loeb üks inimene, tavaliselt konkreetsetest teostest rääkimata. Näide lahedast õpetusest (Michael Brown, Arvutinägemise jaoks mõeldud värvide ja kaamerasisese pilditöötlustoru mõistmine):

Arvutinägemise suundumused. ICCV 2019 tipphetked

Töötubades, vastupidi, räägitakse artiklitest. Tavaliselt on need mõne kitsa teema teosed, laborijuhtide lood kõigist tudengite viimastest töödest või artiklid, mida põhikonverentsile vastu ei võetud.

Sponsorfirmad tulevad ICCV-le stendidega. Sel aastal tulid Google, Facebook, Amazon ja paljud teised rahvusvahelised ettevõtted ning suur hulk startuppe – Korea ja Hiina. Eriti palju oli idufirmasid, mis olid spetsialiseerunud andmete märgistamisele. Stendidel on esinemised, saab kaupa kaasa võtta ja küsimusi esitada. Jahinduse eesmärgil korraldavad sponsorfirmad pidusid. Saate neisse sattuda, kui veendate värbajaid, et olete huvitatud ja et saate intervjuudel läbida. Kui olete avaldanud artikli (või pealegi esitanud), alustanud või lõpetamas doktorantuuri, on see plussiks, kuid mõnikord saate stendis läbirääkimisi pidada, esitades ettevõtte inseneridele huvitavaid küsimusi.

Suundumused

Konverents võimaldab heita pilgu kogu CV valdkonnale. Konkreetset teemat käsitlevate plakatite arvu järgi saate hinnata, kui kuum teema on. Mõned järeldused viitavad märksõnadele:

Arvutinägemise suundumused. ICCV 2019 tipphetked

Null-, ühe-, mõne-, ise- ja pooljärelevalvega: uued lähenemisviisid kaua uuritud ülesannetele

Inimesed õpivad andmeid tõhusamalt kasutama. Näiteks sisse LÕBUS on võimalik genereerida nende loomade näoilmeid, keda treeningkomplektis ei olnud (rakenduses, esitades mitu võrdluspilti). Deep Image Priori ideed on välja töötatud ja nüüd saab GAN-võrke treenida ühe pildi peal - sellest räägime allpool tipphetkedes. Saate kasutada enesejärelevalvet eelkoolituseks (probleemi lahendamiseks, mille jaoks saate sünteesida joondatud andmeid, näiteks pildi pöördenurga ennustamiseks) või õppida samaaegselt märgistatud ja märgistamata andmetest. Selles mõttes võib artiklit pidada loomingu krooniks S4L: Iseseisev pool-superviseeritud õpe. Ja siin on ImageNeti eelkoolitus mitte alati aitab.

Arvutinägemise suundumused. ICCV 2019 tipphetked

Arvutinägemise suundumused. ICCV 2019 tipphetked

3D ja 360°

Probleemid, mis enamasti lahendati fotode puhul (segmenteerimine, tuvastamine), nõuavad lisauuringuid 3D-mudelite ja panoraamvideote puhul. Oleme näinud palju artikleid RGB ja RGB-D teisendamise kohta 3D-ks. Mõningaid probleeme, näiteks inimese poosi hindamist, saab lahendada loomulikumalt, liikudes 3D-mudelitele. Kuid veel pole üksmeelt selles, kuidas XNUMXD-mudeleid täpselt esitada – võrgu, punktipilve, vokslite või SDF-i kujul. Siin on veel üks võimalus:

Arvutinägemise suundumused. ICCV 2019 tipphetked

Panoraamides arenevad sfääril toimuvad keerdud aktiivselt (vt. Orientatsiooniteadlik semantiline segmenteerimine ikosaeedri sfääridel) ja otsige kaadrist võtmeobjekte.

Arvutinägemise suundumused. ICCV 2019 tipphetked

Poosi tuvastamine ja inimese liikumise ennustamine

Poosi tuvastamises on 2D-s juba tehtud edusamme – nüüd on fookus nihkunud mitme kaameraga ja 3D-s töötamisele. Näiteks saate luustiku tuvastada ka läbi seina, jälgides Wi-Fi-signaali muutusi, kui see läbib inimkeha.

Käsitsi võtmepunkti tuvastamise valdkonnas on tehtud palju tööd. Ilmunud on uued andmestikud, sealhulgas need, mis põhinevad kahe inimese dialoogide videodel – nüüd saate vestluse heli või teksti põhjal ennustada käeliigutusi! Sama edu on saavutatud ka silmade jälgimise ülesannetes (pilgu hindamine).

Arvutinägemise suundumused. ICCV 2019 tipphetked

Arvutinägemise suundumused. ICCV 2019 tipphetked

Samuti on võimalik tuvastada suur hulk töid, mis on seotud inimese liikumise ennustamisega (näiteks Inimese liikumise ennustamine ruumilis-ajalise maalimise kaudu või Struktureeritud ennustamine aitab inimese liikumist 3D modelleerida). Ülesanne on oluline ja seda kasutatakse autoritega peetud vestluste põhjal kõige sagedamini jalakäijate käitumise analüüsimiseks autonoomsel sõidul.

Manipulatsioonid inimestega fotodel ja videotes, virtuaalsed proovikabiinid

Peamine trend on näopiltide muutmine tõlgendatavate parameetrite järgi. Ideed: süvavõltsing ühe pildi põhjal, näoilme muutmine näo renderduse põhjal (NukkGAN), edasisuunamine – parameetrite muutmine (nt vanus). Stiiliülekanded on liikunud teema pealkirja juurest töö rakendusele. Virtuaalsed proovikabiinid on teine ​​lugu: need töötavad peaaegu alati halvasti, siin on näide demod.

Arvutinägemise suundumused. ICCV 2019 tipphetked

Arvutinägemise suundumused. ICCV 2019 tipphetked

Visandite/graafikute põhjal genereerimine

Idee "Las ruudustik genereerib midagi eelneva kogemuse põhjal" kujunes teiseks: "Näitame ruudustikule, milline variant meid huvitab."

SC-FEGAN võimaldab teha juhendatud värvimist: kasutaja saab pildi kustutatud alas osa näost maalimise lõpetada ja olenevalt valmimisest saada taastatud pildi.

Arvutinägemise suundumused. ICCV 2019 tipphetked

Üks 25 Adobe'i artiklist ICCV jaoks ühendab kaks GAN-i: üks lõpetab kasutaja jaoks visandi, teine ​​genereerib visandist fotorealistliku pildi (projekti leht).

Arvutinägemise suundumused. ICCV 2019 tipphetked

Kui varem polnud graafikuid pildiloomes vaja, siis nüüd on need tehtud sündmuskoha teadmiste konteineriks. Artikkel pälvis ka ICCV tulemuste põhjal parima paberi aunimetuste auhinna Objekti atribuutide ja suhete määramine interaktiivse stseeni genereerimisel. Üldiselt saab neid kasutada erineval viisil: genereerida piltidest graafikuid või graafikutest pilte ja tekste.

Arvutinägemise suundumused. ICCV 2019 tipphetked

Inimeste ja autode uuesti tuvastamine, rahvahulga suurus (!)

Paljud artiklid on pühendatud inimeste jälgimisele ning inimeste ja masinate uuesti tuvastamisele. Kuid meid üllatas hulk artikleid rahvahulga loendamise kohta, kõik Hiinast.

Plakatid Arvutinägemise suundumused. ICCV 2019 tipphetked

Arvutinägemise suundumused. ICCV 2019 tipphetked

Arvutinägemise suundumused. ICCV 2019 tipphetked

Arvutinägemise suundumused. ICCV 2019 tipphetked

Arvutinägemise suundumused. ICCV 2019 tipphetked
Facebook aga muudab foto anonüümseks. Ja see teeb seda huvitaval viisil: see treenib närvivõrku genereerima nägu ilma ainulaadsete detailideta – sarnased, kuid mitte nii sarnased, et näotuvastussüsteemid saaksid seda õigesti tuvastada.

Arvutinägemise suundumused. ICCV 2019 tipphetked

Kaitse võistlevate rünnakute eest

Arvutinägemisrakenduste arenedes reaalses maailmas (isejuhtivates autodes, näotuvastuses) kerkib üha enam küsimus selliste süsteemide töökindlusest. CV täielikuks kasutamiseks peate olema kindel, et süsteem on vastupidav võistlevatele rünnakutele – seepärast ei olnud nende eest kaitsmise kohta vähem artikleid kui rünnakute endi kohta. Võrguprognooside selgitamisega (salientsuskaart) ja tulemuse kindlustunde mõõtmisega on tehtud palju tööd.

Kombineeritud ülesanded

Enamiku ühe eesmärgiga ülesannete puhul on võimalused kvaliteedi parandamiseks praktiliselt ammendatud, üheks uueks suunaks kvaliteedi edasiseks tõstmiseks on õpetada närvivõrke lahendama mitut sarnast probleemi korraga. Näited:
— tegevuse ennustamine + optilise voolu ennustamine,
— videoesitlus + keeleesitlus (VideoBERT),
- ülihea eraldusvõime + HDR.

Samuti on artiklid segmenteerimise, poosi määramise ja loomade uuesti tuvastamise kohta!

Arvutinägemise suundumused. ICCV 2019 tipphetked

Arvutinägemise suundumused. ICCV 2019 tipphetked

Esiletõstmised

Peaaegu kõik artiklid olid ette teada, tekst oli kättesaadav arXiv.org lehel. Seetõttu tundub selliste teoste nagu Everybody Dance Now, FUNIT, Image2StyleGAN esitlus üsna kummaline - need on väga kasulikud teosed, kuid mitte uued. Tundub, et klassikaline teaduspublikatsioonide protsess on siin lagunemas – teadus liigub liiga kiiresti.

Parimaid töid on väga raske välja selgitada – neid on palju, teemad erinevad. Saabus mitu artiklit auhinnad ja mainimised.

Tahame esile tõsta töid, mis on pildimanipulatsiooni seisukohalt huvitavad, kuna see on meie teema. Need osutusid meie jaoks üsna värsketeks ja huvitavateks (me ei pretendeeri objektiivsusele).

SinGAN (parim paberauhind) ja InGAN

SinGAN: projekti leht, arXiv, kood.
InGAN: projekti leht, arXiv, kood.

Sügava pildi väljatöötamine Dmitri Uljanovi, Andrea Vedaldi ja Victor Lempitsky eelidee. Selle asemel, et andmekogul GAN-e treenida, õpivad võrgud sama pildi fragmentidest, et selles sisalduvat statistikat meeles pidada. Koolitatud võrk võimaldab teil töödelda ja animeerida fotosid (SinGAN) või genereerida originaalpildi tekstuuridest uusi mis tahes suurusega pilte, säilitades kohaliku struktuuri (InGAN).

SinGAN:

Arvutinägemise suundumused. ICCV 2019 tipphetked

InGAN:

Arvutinägemise suundumused. ICCV 2019 tipphetked

Näete, mida GAN ei suuda luua

Projekti leht.

Pilte genereerivad närvivõrgud võtavad sageli sisendiks juhusliku müra vektori. Treenitud võrgus moodustavad paljud sisendvektorid ruumi, mille mööda väikesed liikumised toovad kaasa väikseid muutusi pildis. Optimeerimist kasutades saab lahendada pöördülesande: leida reaalsest maailmast pildile sobiv sisendvektor. Autor näitab, et närvivõrgus ei ole peaaegu kunagi võimalik leida täiesti sobivat pilti. Osa pildil olevaid objekte ei genereerita (ilmselt nende objektide suure varieeruvuse tõttu).

Arvutinägemise suundumused. ICCV 2019 tipphetked

Autor oletab, et GAN ei kata kogu kujutiste ruumi, vaid ainult mõnda alamhulka, mis on aukudega täidetud, nagu juust. Kui proovime sellest pärismaailmast fotosid leida, kukume alati läbi, sest GAN genereerib ikkagi mitte päris ehtsaid fotosid. Tõeliste ja genereeritud piltide erinevustest saab üle vaid võrgu kaalude muutmisega ehk siis konkreetse foto jaoks ümber õpetades.

Arvutinägemise suundumused. ICCV 2019 tipphetked

Kui võrk on konkreetse foto jaoks täiendavalt koolitatud, saate selle pildiga proovida erinevaid manipuleerimisi. Allolevas näites lisati fotole aken ja võrk tekitas lisaks köögiseadmele peegeldusi. See tähendab, et võrk ei kaotanud isegi pärast fotograafia täiendavat koolitust võimalust näha stseenis olevate objektide vahelist seost.

Arvutinägemise suundumused. ICCV 2019 tipphetked

GANalyze: Kognitiivse kujutise omaduste visuaalsete definitsioonide poole

Projekti leht, arXiv.

Selle töö lähenemisviisi kasutades saate visualiseerida ja analüüsida, mida närvivõrk on õppinud. Autorid teevad ettepaneku koolitada GAN-i, et luua pilte, mille jaoks võrk genereerib konkreetsed ennustused. Artiklis kasutati näidetena mitmeid võrke, sealhulgas MemNet, mis ennustab fotode meeldejäävust. Selgus, et parema meeldejäävuse huvides peaks fotol olev objekt:

  • olema keskusele lähemal
  • neil on ümmargune või kandiline kuju ja lihtne struktuur,
  • olema ühtlasel taustal,
  • sisaldavad väljendusrikkaid silmi (vähemalt koerafotode puhul),
  • olema heledam, küllastunud, mõnel juhul punasem.

Arvutinägemise suundumused. ICCV 2019 tipphetked

Vedeliku koolutamine GAN: ühtne raamistik inimese liikumise jäljendamiseks, välimuse ülekandmiseks ja uudse vaate sünteesiks

Projekti leht, arXiv, kood.

Torustik inimestest fotode genereerimiseks ühe foto kaupa. Autorid näitavad edukaid näiteid ühe inimese liikumise ülekandmisest teisele, riiete teisaldamisest inimeste vahel ja inimese uute nurkade genereerimisest – seda kõike ühelt fotolt. Erinevalt varasematest töödest ei kasuta me siin tingimuste loomiseks mitte 2D põhipunkte (poos), vaid keha 3D võrku (poos + kuju). Samuti leidsid autorid, kuidas edastada teavet algse pildi pealt genereeritud pildile (Liquid Warping Block). Tulemused näevad korralikud välja, kuid saadud pildi eraldusvõime on vaid 256x256. Võrdluseks, aasta tagasi ilmunud vid2vid on võimeline genereerima eraldusvõimega 2048x1024, kuid see nõuab andmestikuna koguni 10 minutit videosalvestust.

Arvutinägemise suundumused. ICCV 2019 tipphetked

FSGAN: subjekti agnostilise näo vahetamine ja taaslavastus

Projekti leht, arXiv.

Esialgu tundub, et midagi ebatavalist pole: enam-vähem normaalse kvaliteediga deepfake. Kuid töö peamine saavutus on nägude asendamine ühelt pildilt. Erinevalt varasematest töödest oli koolitus vajalik paljude konkreetse inimese fotode osas. Torujuhe osutus tülikaks (taaslavastus ja segmenteerimine, vaate interpoleerimine, maalimine, segamine) ja rohkete tehniliste häkkidega, kuid tulemus on seda väärt.

Arvutinägemise suundumused. ICCV 2019 tipphetked

Ootamatu tuvastamine pildi taassünteesi abil

arXiv.

Kuidas saab droon aru, et tema ette on ootamatult ilmunud objekt, mis ei kuulu ühtegi semantilist segmenteerimisklassi? On mitmeid meetodeid, kuid autorid pakuvad välja uue, intuitiivse algoritmi, mis töötab paremini kui tema eelkäijad. Sisendtee kujutise põhjal ennustatakse semantilist segmenteerimist. See suunatakse sisendina GAN-i (pix2pixHD), mis üritab taastada algse pildi ainult semantiliselt kaardilt. Anomaaliad, mis ei kuulu ühtegi segmenti, erinevad oluliselt väljundis ja genereeritud pildis. Kolm pilti (originaal, segmenteeritud ja rekonstrueeritud) suunatakse seejärel teise võrku, mis ennustab kõrvalekaldeid. Selle jaoks loodud andmestik loodi tuntud Cityscapesi andmekogumist, muutes semantilise segmenteerimise klasse juhuslikult. Huvitaval kombel ei ole selles seades keset teed seisev, kuid õigesti segmenteeritud koer (mis tähendab, et tema jaoks on klass olemas) anomaalia, kuna süsteem suutis selle ära tunda.

Arvutinägemise suundumused. ICCV 2019 tipphetked

Järeldus

Enne konverentsi on oluline teada, millised on teie teaduslikud huvid, millistel ettekannetel soovite osaleda ja kellega rääkida. Siis on kõik palju produktiivsem.

ICCV on ennekõike võrgustik. Sa mõistad, et on olemas tippinstituudid ja tippteaduslikud osakonnad, hakkad sellest aru saama, õpid inimesi tundma. Ja saate lugeda arXivi kohta artikleid – ja muide, see on väga lahe, et te ei pea teadmiste saamiseks kuhugi minema.

Lisaks saab konverentsil sukelduda sügavuti teemadesse, mis sulle ei ole lähedased ning näha trende. Noh, kirjutage loetavate artiklite loend. Kui olete üliõpilane, on see võimalus kohtuda potentsiaalse õpetajaga, kui olete tööstusest, siis uue tööandjaga ja kui ettevõte, siis ennast näidata.

Telli @loss_function_porn! See on isiklik projekt: me juhime seda koos karfly. Postitasime kõik tööd, mis meile konverentsi ajal meeldisid, siia: @loss_function_live.

Allikas: www.habr.com

Lisa kommentaar