Arvutinägemise närvivõrgud arenevad aktiivselt, paljud probleemid on veel kaugel lahendusest. Et olla oma valdkonnas trendis, jälgige Twitteris mõjutajaid ja lugege asjakohaseid artikleid saidil arXiv.org. Aga meil oli võimalus minna rahvusvahelisele arvutinägemise konverentsile (ICCV) 2019. Sel aastal toimub see Lõuna-Koreas. Nüüd tahame jagada Habri lugejatega seda, mida nägime ja õppisime.
Meid oli seal Yandexist palju: tulid isejuhtivate autode arendajad, teadlased ja need, kes teenindustes CV ülesannetega tegelevad. Kuid nüüd tahame esitada oma meeskonna - masinate luure labori (Yandex MILAB) - veidi subjektiivse vaatenurga. Teised tüübid vaatasid ilmselt konverentsile oma nurga alt.
Mida labor teeb?Teeme meelelahutuslikel eesmärkidel piltide ja muusika genereerimisega seotud eksperimentaalseid projekte. Meid huvitavad eelkõige närvivõrgud, mis võimaldavad kasutajalt sisu muuta (fotode puhul nimetatakse seda ülesannet pilditöötluseks).
Teaduskonverentse on palju, kuid silma jäävad tipptasemel, nn A* konverentsid, kus tavaliselt avaldatakse artikleid kõige huvitavamatest ja olulisematest tehnoloogiatest. A* konverentside täpset nimekirja pole, siin on ligikaudne ja mittetäielik nimekiri: NeurIPS (endine NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Viimased kolm on spetsialiseerunud CV teemale.
ICCV lühidalt: plakatid, õpetused, töötoad, stendid
Konverentsile laekus 1075 ettekannet, osalejaid oli 7500. Venemaalt tuli 103 inimest, artikleid olid Yandexi, Skoltechi, Moskva Samsungi AI keskuse ja Samara ülikooli töötajatelt. Sel aastal ei käinud ICCV-l palju tippteadlasi, küll aga näiteks Aleksei (Aljoša) Efros, kes tõmbab alati palju rahvast:
Statistika
Kõigil sellistel konverentsidel esitatakse artikleid plakatitena (
Siin on mõned tööd Venemaalt
Õpetuste abil saate sukelduda konkreetsesse ainevaldkonda; see meenutab loengut ülikoolis. Seda loeb üks inimene, tavaliselt konkreetsetest teostest rääkimata. Näide lahedast õpetusest (
Töötubades, vastupidi, räägitakse artiklitest. Tavaliselt on need mõne kitsa teema teosed, laborijuhtide lood kõigist tudengite viimastest töödest või artiklid, mida põhikonverentsile vastu ei võetud.
Sponsorfirmad tulevad ICCV-le stendidega. Sel aastal tulid Google, Facebook, Amazon ja paljud teised rahvusvahelised ettevõtted ning suur hulk startuppe – Korea ja Hiina. Eriti palju oli idufirmasid, mis olid spetsialiseerunud andmete märgistamisele. Stendidel on esinemised, saab kaupa kaasa võtta ja küsimusi esitada. Jahinduse eesmärgil korraldavad sponsorfirmad pidusid. Saate neisse sattuda, kui veendate värbajaid, et olete huvitatud ja et saate intervjuudel läbida. Kui olete avaldanud artikli (või pealegi esitanud), alustanud või lõpetamas doktorantuuri, on see plussiks, kuid mõnikord saate stendis läbirääkimisi pidada, esitades ettevõtte inseneridele huvitavaid küsimusi.
Suundumused
Konverents võimaldab heita pilgu kogu CV valdkonnale. Konkreetset teemat käsitlevate plakatite arvu järgi saate hinnata, kui kuum teema on. Mõned järeldused viitavad märksõnadele:
Null-, ühe-, mõne-, ise- ja pooljärelevalvega: uued lähenemisviisid kaua uuritud ülesannetele
Inimesed õpivad andmeid tõhusamalt kasutama. Näiteks sisse
3D ja 360°
Probleemid, mis enamasti lahendati fotode puhul (segmenteerimine, tuvastamine), nõuavad lisauuringuid 3D-mudelite ja panoraamvideote puhul. Oleme näinud palju artikleid RGB ja RGB-D teisendamise kohta 3D-ks. Mõningaid probleeme, näiteks inimese poosi hindamist, saab lahendada loomulikumalt, liikudes 3D-mudelitele. Kuid veel pole üksmeelt selles, kuidas XNUMXD-mudeleid täpselt esitada – võrgu, punktipilve, vokslite või SDF-i kujul. Siin on veel üks võimalus:
Panoraamides arenevad sfääril toimuvad keerdud aktiivselt (vt.
Poosi tuvastamine ja inimese liikumise ennustamine
Poosi tuvastamises on 2D-s juba tehtud edusamme – nüüd on fookus nihkunud mitme kaameraga ja 3D-s töötamisele. Näiteks saate luustiku tuvastada ka läbi seina, jälgides Wi-Fi-signaali muutusi, kui see läbib inimkeha.
Käsitsi võtmepunkti tuvastamise valdkonnas on tehtud palju tööd. Ilmunud on uued andmestikud, sealhulgas need, mis põhinevad kahe inimese dialoogide videodel – nüüd saate vestluse heli või teksti põhjal ennustada käeliigutusi! Sama edu on saavutatud ka silmade jälgimise ülesannetes (pilgu hindamine).
Samuti on võimalik tuvastada suur hulk töid, mis on seotud inimese liikumise ennustamisega (näiteks
Manipulatsioonid inimestega fotodel ja videotes, virtuaalsed proovikabiinid
Peamine trend on näopiltide muutmine tõlgendatavate parameetrite järgi. Ideed: süvavõltsing ühe pildi põhjal, näoilme muutmine näo renderduse põhjal (
Visandite/graafikute põhjal genereerimine
Idee "Las ruudustik genereerib midagi eelneva kogemuse põhjal" kujunes teiseks: "Näitame ruudustikule, milline variant meid huvitab."
Üks 25 Adobe'i artiklist ICCV jaoks ühendab kaks GAN-i: üks lõpetab kasutaja jaoks visandi, teine genereerib visandist fotorealistliku pildi (
Kui varem polnud graafikuid pildiloomes vaja, siis nüüd on need tehtud sündmuskoha teadmiste konteineriks. Artikkel pälvis ka ICCV tulemuste põhjal parima paberi aunimetuste auhinna
Inimeste ja autode uuesti tuvastamine, rahvahulga suurus (!)
Paljud artiklid on pühendatud inimeste jälgimisele ning inimeste ja masinate uuesti tuvastamisele. Kuid meid üllatas hulk artikleid rahvahulga loendamise kohta, kõik Hiinast.
Plakatid
Facebook aga muudab foto anonüümseks. Ja see teeb seda huvitaval viisil: see treenib närvivõrku genereerima nägu ilma ainulaadsete detailideta – sarnased, kuid mitte nii sarnased, et näotuvastussüsteemid saaksid seda õigesti tuvastada.
Kaitse võistlevate rünnakute eest
Arvutinägemisrakenduste arenedes reaalses maailmas (isejuhtivates autodes, näotuvastuses) kerkib üha enam küsimus selliste süsteemide töökindlusest. CV täielikuks kasutamiseks peate olema kindel, et süsteem on vastupidav võistlevatele rünnakutele – seepärast ei olnud nende eest kaitsmise kohta vähem artikleid kui rünnakute endi kohta. Võrguprognooside selgitamisega (salientsuskaart) ja tulemuse kindlustunde mõõtmisega on tehtud palju tööd.
Kombineeritud ülesanded
Enamiku ühe eesmärgiga ülesannete puhul on võimalused kvaliteedi parandamiseks praktiliselt ammendatud, üheks uueks suunaks kvaliteedi edasiseks tõstmiseks on õpetada närvivõrke lahendama mitut sarnast probleemi korraga. Näited:
— tegevuse ennustamine + optilise voolu ennustamine,
— videoesitlus + keeleesitlus (
-
Samuti on artiklid segmenteerimise, poosi määramise ja loomade uuesti tuvastamise kohta!
Esiletõstmised
Peaaegu kõik artiklid olid ette teada, tekst oli kättesaadav arXiv.org lehel. Seetõttu tundub selliste teoste nagu Everybody Dance Now, FUNIT, Image2StyleGAN esitlus üsna kummaline - need on väga kasulikud teosed, kuid mitte uued. Tundub, et klassikaline teaduspublikatsioonide protsess on siin lagunemas – teadus liigub liiga kiiresti.
Parimaid töid on väga raske välja selgitada – neid on palju, teemad erinevad. Saabus mitu artiklit
Tahame esile tõsta töid, mis on pildimanipulatsiooni seisukohalt huvitavad, kuna see on meie teema. Need osutusid meie jaoks üsna värsketeks ja huvitavateks (me ei pretendeeri objektiivsusele).
SinGAN (parim paberauhind) ja InGAN
SinGAN:
InGAN:
Sügava pildi väljatöötamine Dmitri Uljanovi, Andrea Vedaldi ja Victor Lempitsky eelidee. Selle asemel, et andmekogul GAN-e treenida, õpivad võrgud sama pildi fragmentidest, et selles sisalduvat statistikat meeles pidada. Koolitatud võrk võimaldab teil töödelda ja animeerida fotosid (SinGAN) või genereerida originaalpildi tekstuuridest uusi mis tahes suurusega pilte, säilitades kohaliku struktuuri (InGAN).
SinGAN:
InGAN:
Näete, mida GAN ei suuda luua
Pilte genereerivad närvivõrgud võtavad sageli sisendiks juhusliku müra vektori. Treenitud võrgus moodustavad paljud sisendvektorid ruumi, mille mööda väikesed liikumised toovad kaasa väikseid muutusi pildis. Optimeerimist kasutades saab lahendada pöördülesande: leida reaalsest maailmast pildile sobiv sisendvektor. Autor näitab, et närvivõrgus ei ole peaaegu kunagi võimalik leida täiesti sobivat pilti. Osa pildil olevaid objekte ei genereerita (ilmselt nende objektide suure varieeruvuse tõttu).
Autor oletab, et GAN ei kata kogu kujutiste ruumi, vaid ainult mõnda alamhulka, mis on aukudega täidetud, nagu juust. Kui proovime sellest pärismaailmast fotosid leida, kukume alati läbi, sest GAN genereerib ikkagi mitte päris ehtsaid fotosid. Tõeliste ja genereeritud piltide erinevustest saab üle vaid võrgu kaalude muutmisega ehk siis konkreetse foto jaoks ümber õpetades.
Kui võrk on konkreetse foto jaoks täiendavalt koolitatud, saate selle pildiga proovida erinevaid manipuleerimisi. Allolevas näites lisati fotole aken ja võrk tekitas lisaks köögiseadmele peegeldusi. See tähendab, et võrk ei kaotanud isegi pärast fotograafia täiendavat koolitust võimalust näha stseenis olevate objektide vahelist seost.
GANalyze: Kognitiivse kujutise omaduste visuaalsete definitsioonide poole
Selle töö lähenemisviisi kasutades saate visualiseerida ja analüüsida, mida närvivõrk on õppinud. Autorid teevad ettepaneku koolitada GAN-i, et luua pilte, mille jaoks võrk genereerib konkreetsed ennustused. Artiklis kasutati näidetena mitmeid võrke, sealhulgas MemNet, mis ennustab fotode meeldejäävust. Selgus, et parema meeldejäävuse huvides peaks fotol olev objekt:
- olema keskusele lähemal
- neil on ümmargune või kandiline kuju ja lihtne struktuur,
- olema ühtlasel taustal,
- sisaldavad väljendusrikkaid silmi (vähemalt koerafotode puhul),
- olema heledam, küllastunud, mõnel juhul punasem.
Vedeliku koolutamine GAN: ühtne raamistik inimese liikumise jäljendamiseks, välimuse ülekandmiseks ja uudse vaate sünteesiks
Torustik inimestest fotode genereerimiseks ühe foto kaupa. Autorid näitavad edukaid näiteid ühe inimese liikumise ülekandmisest teisele, riiete teisaldamisest inimeste vahel ja inimese uute nurkade genereerimisest – seda kõike ühelt fotolt. Erinevalt varasematest töödest ei kasuta me siin tingimuste loomiseks mitte 2D põhipunkte (poos), vaid keha 3D võrku (poos + kuju). Samuti leidsid autorid, kuidas edastada teavet algse pildi pealt genereeritud pildile (Liquid Warping Block). Tulemused näevad korralikud välja, kuid saadud pildi eraldusvõime on vaid 256x256. Võrdluseks, aasta tagasi ilmunud vid2vid on võimeline genereerima eraldusvõimega 2048x1024, kuid see nõuab andmestikuna koguni 10 minutit videosalvestust.
FSGAN: subjekti agnostilise näo vahetamine ja taaslavastus
Esialgu tundub, et midagi ebatavalist pole: enam-vähem normaalse kvaliteediga deepfake. Kuid töö peamine saavutus on nägude asendamine ühelt pildilt. Erinevalt varasematest töödest oli koolitus vajalik paljude konkreetse inimese fotode osas. Torujuhe osutus tülikaks (taaslavastus ja segmenteerimine, vaate interpoleerimine, maalimine, segamine) ja rohkete tehniliste häkkidega, kuid tulemus on seda väärt.
Ootamatu tuvastamine pildi taassünteesi abil
Kuidas saab droon aru, et tema ette on ootamatult ilmunud objekt, mis ei kuulu ühtegi semantilist segmenteerimisklassi? On mitmeid meetodeid, kuid autorid pakuvad välja uue, intuitiivse algoritmi, mis töötab paremini kui tema eelkäijad. Sisendtee kujutise põhjal ennustatakse semantilist segmenteerimist. See suunatakse sisendina GAN-i (pix2pixHD), mis üritab taastada algse pildi ainult semantiliselt kaardilt. Anomaaliad, mis ei kuulu ühtegi segmenti, erinevad oluliselt väljundis ja genereeritud pildis. Kolm pilti (originaal, segmenteeritud ja rekonstrueeritud) suunatakse seejärel teise võrku, mis ennustab kõrvalekaldeid. Selle jaoks loodud andmestik loodi tuntud Cityscapesi andmekogumist, muutes semantilise segmenteerimise klasse juhuslikult. Huvitaval kombel ei ole selles seades keset teed seisev, kuid õigesti segmenteeritud koer (mis tähendab, et tema jaoks on klass olemas) anomaalia, kuna süsteem suutis selle ära tunda.
Järeldus
Enne konverentsi on oluline teada, millised on teie teaduslikud huvid, millistel ettekannetel soovite osaleda ja kellega rääkida. Siis on kõik palju produktiivsem.
ICCV on ennekõike võrgustik. Sa mõistad, et on olemas tippinstituudid ja tippteaduslikud osakonnad, hakkad sellest aru saama, õpid inimesi tundma. Ja saate lugeda arXivi kohta artikleid – ja muide, see on väga lahe, et te ei pea teadmiste saamiseks kuhugi minema.
Lisaks saab konverentsil sukelduda sügavuti teemadesse, mis sulle ei ole lähedased ning näha trende. Noh, kirjutage loetavate artiklite loend. Kui olete üliõpilane, on see võimalus kohtuda potentsiaalse õpetajaga, kui olete tööstusest, siis uue tööandjaga ja kui ettevõte, siis ennast näidata.
Telli
Allikas: www.habr.com