Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

A neurális hálózatok a számítógépes látásban aktívan fejlődnek, sok probléma még mindig messze van a megoldástól. Ha trendben akar lenni a szakterületén, kövesse az influencereket a Twitteren, és olvassa el a vonatkozó cikkeket az arXiv.org oldalon. De lehetőségünk volt elmenni a 2019-es számítógépes látás nemzetközi konferenciájára (ICCV). Idén Dél-Koreában rendezik meg. Most szeretnénk megosztani a Habr olvasóival, amit láttunk és tanultunk.

Nagyon sokan voltunk ott a Yandextől: jöttek önvezető autók fejlesztői, kutatók, szervizekben önéletrajzi feladatokkal foglalkozók. De most szeretnénk bemutatni egy kissé szubjektív nézőpontot csapatunkról - a Machine Intelligence Laboratoryról (Yandex MILAB). A többi srác valószínűleg a saját szemszögéből nézte a konferenciát.

Mit csinál a laboratórium?Kísérleti projekteket végzünk szórakoztató célú képek és zene generálásával kapcsolatban. Különösen érdekelnek minket azok a neurális hálózatok, amelyek lehetővé teszik a tartalom megváltoztatását a felhasználótól (fotóknál ezt a feladatot képmanipulációnak nevezik). Példa munkánk eredménye a YaC 2019 konferencián.
Nagyon sok tudományos konferencia van, de kiemelkednek a csúcsok, az úgynevezett A* konferenciák, ahol általában a legérdekesebb és legfontosabb technológiákról jelennek meg cikkek. Az A* konferenciákról nincs pontos lista, itt van egy hozzávetőleges és hiányos lista: NeurIPS (korábban NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Az utolsó három az önéletrajz témájára specializálódott.

ICCV áttekintése: poszterek, oktatóanyagok, workshopok, standok

A konferenciára 1075 előadás érkezett, a résztvevők száma 7500. Oroszországból 103-an érkeztek, a Yandex, a Skoltech, a Samsung AI Center Moszkva és a Samara Egyetem munkatársaitól érkeztek cikkek. Idén nem sok csúcskutató járt az ICCV-n, hanem például Alexey (Alyosha) Efros, aki mindig sok embert vonz:

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Statisztika Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Minden ilyen konferencián a cikkeket poszterek formájában mutatják be (több a formátumról), a legjobbakat pedig rövid beszámolók formájában is bemutatjuk.

Íme néhány oroszországi alkotás Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Az oktatóanyagok segítségével belemerülhet egy adott tárgykörbe; ez egy egyetemi előadásra emlékeztet. Egy személy olvassa el, általában anélkül, hogy konkrét művekről beszélne. Példa egy remek oktatóanyagra (Michael Brown, Understanding Color and the In-Camera Image Processing Pipeline for Computer Vision):

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

A workshopokon éppen ellenkezőleg, cikkekről beszélnek. Általában ezek valamilyen szűk témához kapcsolódó művek, laboratóriumi vezetők történetei a hallgatók legújabb munkájáról, vagy olyan cikkek, amelyeket nem fogadtak be a főkonferenciára.

A szponzoráló cégek standokkal érkeznek az ICCV-re. Idén érkezett a Google, a Facebook, az Amazon és sok más nemzetközi cég, valamint rengeteg startup – koreai és kínai. Különösen sok olyan startup volt, amely adatcímkézésre szakosodott. A lelátókon előadások vannak, lehet árut venni, kérdéseket feltenni. Vadászati ​​célból a támogató társaságok bulikat rendeznek. Akkor kerülhet be hozzájuk, ha meggyőzi a toborzókat arról, hogy érdekli Önt, és potenciálisan átadhat interjúkat. Ha publikált egy cikket (sőt, bemutatta), elkezdte vagy befejezi a PhD-képzést, ez előnyt jelent, de néha a standnál is tárgyalhat érdekes kérdéseket feltéve a cég mérnökeinek.

trendek

A konferencia lehetővé teszi, hogy a teljes önéletrajzi területet áttekintse. Egy adott témával kapcsolatos poszterek száma alapján felmérheti, hogy mennyire felkapott a téma. Néhány következtetés önmagára utal a kulcsszavak alapján:

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Zero-shot, one-shot, kevés lövés, önfelügyelt és félig felügyelt: új megközelítések a régóta tanulmányozott feladatokhoz

Az emberek megtanulják az adatokat hatékonyabban használni. Például be FUNIT lehetőség van olyan állatok arckifejezésének generálására, amelyek nem szerepeltek a tréningkészletben (alkalmazásban, több referenciakép megadásával). A Deep Image Prior ötletei kidolgozásra kerültek, és most már a GAN hálózatok is egyetlen képre oktathatók – erről lentebb lesz szó kiemelésekben. Használhatja az önfelügyeletet az előképzéshez (olyan probléma megoldásához, amelyhez igazított adatokat szintetizálhat, mint például a kép elforgatási szögének előrejelzése), vagy egyszerre tanulhat címkézett és címkézetlen adatokból. Ebben az értelemben a cikk a teremtés koronájának tekinthető S4L: Self-Supervised Semi-Supervised Learning. És itt az előképzés az ImageNeten nem mindig segít.

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

3D és 360°

A többnyire fényképeknél megoldott problémák (szegmentálás, detektálás) további kutatást igényelnek a 3D modellek és panoráma videók esetében. Sok cikket láttunk az RGB és RGB-D 3D-s átalakításáról. Egyes problémák, mint például az emberi pózbecslés, természetesebben megoldhatók a 3D modellekre való átállással. Arról azonban még nincs konszenzus, hogyan kell pontosan ábrázolni a XNUMXD-s modelleket – háló, pontfelhő, voxel vagy SDF formájában. Íme egy másik lehetőség:

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

A panorámákban a gömb kanyarulatai aktívan fejlődnek (lásd. Orientáció-tudatos szemantikus szegmentáció ikozaéder gömbökön) és keressen kulcsobjektumokat a keretben.

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Pózérzékelés és emberi mozgás előrejelzése

A 2D-ben már történt előrelépés a pózérzékelés terén – most a hangsúly a több kamerával és a 3D-ben való munka felé tolódott el. Például a csontvázat a falon keresztül is észlelheti, ha követi a Wi-Fi jel változásait, ahogy az áthalad az emberi testen.

Sok munka történt a kézi kulcspont-érzékelés területén. Új adatkészletek jelentek meg, köztük olyanok is, amelyek két ember párbeszédeiből készült videókon alapulnak – most már megjósolhatja a kézmozdulatokat egy beszélgetés hangjából vagy szövegéből! Ugyanilyen előrelépés történt a szemkövetési feladatokban (tekintetbecslés).

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Az emberi mozgás előrejelzésével kapcsolatos művek nagy csoportja is azonosítható (pl. Emberi mozgás előrejelzése térbeli-időbeli festéssel vagy A strukturált előrejelzés segít a 3D-s emberi mozgásmodellezésben). A feladat fontos, és a szerzőkkel folytatott beszélgetések alapján leggyakrabban a gyalogosok viselkedésének elemzésére szolgál az autonóm vezetés során.

Manipulációk emberekkel fotókon és videókon, virtuális próbafülkék

A fő trend az arcképek értelmezhető paraméterek szerinti megváltoztatása. Ötletek: mélyhamisítás egy kép alapján, arckifejezés megváltoztatása arcrenderelés alapján (PuppetGAN), előrecsatolás – paraméterek módosítása (például kor). A stílustranszferek a téma címétől a mű alkalmazása felé kerültek. A virtuális próbafülkék egy másik történet: szinte mindig rosszul működnek, itt egy példa demók.

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Generáció vázlatokból/grafikonokból

A „Generáljon valamit a rács a korábbi tapasztalatok alapján” ötlet kidolgozása egy másik lett: „Mutassuk meg a rácsot, hogy melyik lehetőség érdekel minket.”

SC-FEGAN lehetővé teszi az irányított festést: a felhasználó befejezheti az arc egy részének festését a kép törölt területén, és a befejezéstől függően visszaállított képet kaphat.

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Az ICCV-hez készült 25 Adobe-cikk egyike két GAN-t egyesít: az egyik befejezi a vázlatot a felhasználó számára, a másik pedig fotorealisztikus képet generál a vázlatból (projekt oldala).

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Korábban a grafikonokra nem volt szükség a képalkotás során, most azonban a jelenetről szóló ismeretek konténerévé váltak. A cikk elnyerte az ICCV eredményei alapján a Best Paper Honorable Mentions díjat is Objektum attribútumok és kapcsolatok meghatározása az interaktív jelenetgenerálásban. Általában többféleképpen használhatja őket: grafikonokat hozhat létre képekből, vagy képeket és szövegeket grafikonokból.

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Emberek és autók újraazonosítása, a tömeg méretével (!)

Sok cikk foglalkozik az emberek nyomon követésével és az emberek és gépek újraazonosításával. De ami meglepett minket, az volt egy csomó cikk a tömegszámlálásról, mind Kínából.

Plakátok Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei
De a Facebook éppen ellenkezőleg, anonimizálja a fényképet. És ezt érdekes módon teszi: megtanítja a neurális hálózatot egyedi részletek nélküli arc létrehozására - hasonló, de nem annyira hasonló, hogy az arcfelismerő rendszerekkel helyesen azonosítható legyen.

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Védelem az ellenséges támadások ellen

A számítógépes látás alkalmazások valós világban történő fejlődésével (önvezető autókban, arcfelismerésben) egyre inkább felmerül az ilyen rendszerek megbízhatóságának kérdése. A CV teljes körű használatához meg kell győződnie arról, hogy a rendszer ellenáll az ellenséges támadásoknak – ezért nem volt kevesebb cikk az ellenük való védekezésről, mint magukról a támadásokról. Sokat dolgoztak a hálózati előrejelzések magyarázatán (feltűnőségi térkép) és az eredménybe vetett bizalom mérésén.

Kombinált feladatok

A legtöbb egy célú feladatnál gyakorlatilag kimerültek a minőség javításának lehetőségei, a minőség további növelésének egyik új iránya a neurális hálózatok több hasonló probléma egyidejű megoldására való megtanítása. Példák:
— cselekvés előrejelzése + optikai áramlás előrejelzése,
- videó bemutató + nyelvi bemutató (VideóBERT),
- szuper felbontás + HDR.

Vannak cikkek a szegmentálásról, a pózmeghatározásról és az állatok újraazonosításáról is!

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Kiemelések

Szinte minden cikk ismert volt előre, a szöveg elérhető volt az arXiv.org oldalon. Ezért az olyan művek bemutatása, mint az Everybody Dance Now, a FUNIT, az Image2StyleGAN, meglehetősen furcsának tűnik - ezek nagyon hasznos művek, de nem újak. Úgy tűnik, hogy a tudományos publikációk klasszikus folyamata itt összeomlik - a tudomány túl gyorsan halad.

Nagyon nehéz meghatározni a legjobb műveket - sok van belőlük, a témák különbözőek. Több cikk érkezett díjak és említések.

A képmanipuláció szempontjából érdekes munkákat szeretnénk kiemelni, hiszen ez a témánk. Egészen frissnek és érdekesnek bizonyultak számunkra (nem akarunk tárgyilagosnak lenni).

SinGAN (legjobb papír díj) és InGAN

SinGAN: projekt oldala, arXiv, kód.
InGAN: projekt oldala, arXiv, kód.

A Deep Image előzetes ötlete Dmitrij Uljanovtól, Andrea Vedalditól és Victor Lempitskytől. Ahelyett, hogy egy GAN-t egy adatkészleten tanítanának, a hálózatok ugyanazon kép töredékeiből tanulnak, hogy emlékezzenek a benne lévő statisztikákra. A képzett hálózat lehetővé teszi fényképek szerkesztését és animálását (SinGAN), vagy bármilyen méretű új képek generálását az eredeti kép textúráiból, megőrizve a helyi struktúrát (InGAN).

SinGAN:

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

InGAN:

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Látni, amit egy GAN nem tud generálni

Projekt oldal.

A képeket generáló neurális hálózatok gyakran véletlenszerű zaj vektorát veszik be bemenetként. Egy betanított hálózatban sok bemeneti vektor alkot egy teret, amelyek mentén kis mozgások kis változásokhoz vezetnek a képen. Az optimalizálás segítségével megoldhatja az inverz problémát: találjon megfelelő bemeneti vektort egy valós képhez. A szerző megmutatja, hogy egy neurális hálózatban szinte soha nem lehet teljesen egyező képet találni. Néhány objektum a képen nem jön létre (nyilvánvalóan ezen objektumok nagy változatossága miatt).

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

A szerző azt feltételezi, hogy a GAN nem fedi le a képek teljes terét, hanem csak néhány részhalmazt, lyukakkal tömve, mint a sajt. Amikor a való világból próbálunk fotókat találni benne, mindig kudarcot vallunk, mert a GAN még mindig nem teljesen valódi fotókat készít. A valódi és a generált képek közötti különbségeket csak a hálózat súlyainak megváltoztatásával, azaz egy adott fotóra való átképzésével lehet áthidalni.

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Ha a hálózatot egy adott fényképre is kiképezték, különféle manipulációkat próbálhat ki ezzel a képpel. Az alábbi példában egy ablakot adtunk a fényképhez, és a hálózat emellett tükröződéseket generált a konyhai egységen. Ez azt jelenti, hogy a hálózat a fényképezéshez szükséges további képzés után sem veszítette el azt a képességét, hogy lássa a kapcsolatot a jelenetben lévő objektumok között.

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

GANalyze: A kognitív kép tulajdonságainak vizuális meghatározásai felé

Projekt oldal, arXiv.

Az ebből a munkából származó megközelítés segítségével megjelenítheti és elemezheti, mit tanult a neurális hálózat. A szerzők azt javasolják, hogy képezzék a GAN-t olyan képek létrehozására, amelyekhez a hálózat meghatározott előrejelzéseket generál. A cikk számos hálózatot használt példaként, köztük a MemNet-et, amely megjósolja a fényképek emlékezetét. Kiderült, hogy a jobb megjegyezhetőség érdekében a képen látható tárgynak:

  • legyen közelebb a központhoz
  • inkább kerek vagy négyzet alakú és egyszerű szerkezetű,
  • egységes alapon legyen,
  • kifejező szemeket tartalmazzon (legalábbis kutyafotóknál),
  • legyen világosabb, telítettebb, bizonyos esetekben vörösebb.

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Liquid Warping GAN: Egységes keretrendszer az emberi mozgás utánzásához, a megjelenés átviteléhez és az újszerű nézet szintéziséhez

Projekt oldal, arXiv, kód.

Csősor, amellyel fotókat hozhat létre emberekről egyenként. A szerzők sikeres példákat mutatnak be az egyik személy mozgásának a másikra való átvitelére, a ruhák áthelyezésére az emberek között, és egy személy új látószögeinek létrehozására – mindezt egyetlen fényképről. A korábbi munkákkal ellentétben itt nem a 2D-s kulcspontokat (póz), hanem a test 3D-s hálóját (póz + forma) használjuk a feltételek megteremtéséhez. A szerzők azt is kitalálták, hogyan vihetik át az információkat az eredeti képről a generált képre (Liquid Warping Block). Az eredmények megfelelőnek tűnnek, de a kapott kép felbontása csak 256x256. Összehasonlításképpen az egy éve megjelent vid2vid 2048x1024-es felbontásban képes generálni, de adathalmazként akár 10 perces videófelvételt is igényel.

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

FSGAN: Subject Agnostic Face Swapping and Reenactment

Projekt oldal, arXiv.

Elsőre úgy tűnik, hogy nincs semmi szokatlan: egy deepfake többé-kevésbé normális minőségben. De a munka fő eredménye az arcok helyettesítése egy képről. A korábbi munkákkal ellentétben egy adott személyről készült sok fényképre volt szükség képzésre. A pipeline nehézkesnek bizonyult (újrajátszás és szegmentálás, interpoláció, festés, keverés) és sok technikai hackel, de az eredmény megéri.

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

A váratlan észlelése kép-újraszintézis segítségével

arXiv.

Hogyan értheti meg egy drón, hogy hirtelen olyan objektum jelent meg előtte, amely nem tartozik egyetlen szemantikai szegmentációs osztályba sem? Számos módszer létezik, de a szerzők egy új, intuitív algoritmust javasolnak, amely jobban működik, mint elődei. A szemantikus szegmentáció előrejelzése a bemeneti útkép alapján történik. Bemenetként kerül a GAN-ba (pix2pixHD), amely csak a szemantikai térképről próbálja visszaállítani az eredeti képet. Azok az anomáliák, amelyek nem tartoznak egyik szegmensbe sem, jelentősen eltérnek a kimenetben és a generált képben. A három kép (eredeti, szegmentált és rekonstruált) ezután egy másik hálózatba kerül, amely előrejelzi az anomáliákat. Az ehhez szükséges adatkészletet a jól ismert Cityscapes adatkészletből állítottuk elő, véletlenszerűen megváltoztatva a szemantikai szegmentáció osztályait. Érdekes módon ebben a beállításban az út közepén álló, de helyesen szegmentált kutya (ami azt jelenti, hogy van osztálya) nem anomália, hiszen a rendszer képes volt felismerni.

Trendek a számítógépes látásban. Az ICCV 2019 legfontosabb eseményei

Következtetés

A konferencia előtt fontos tudni, hogy mi a tudományos érdeklődési köre, milyen előadásokon szeretne részt venni, és kivel beszélgethet. Akkor minden sokkal produktívabb lesz.

Az ICCV mindenekelőtt hálózatépítés. Megérted, hogy vannak csúcsintézmények és tudományos osztályok, elkezded ezt megérteni, megismerni az embereket. És olvashatsz cikkeket az arXiv-ről – és mellesleg nagyon klassz, hogy nem kell sehova menned a tudás megszerzéséhez.

Emellett a konferencián olyan témákba is belemerülhetsz, amelyek nem állnak közel hozzád, és láthatod a trendeket. Nos, írjon egy listát az elolvasandó cikkekről. Ha diák vagy, akkor ez egy lehetőség, hogy találkozz egy potenciális tanárral, ha az iparból származol, akkor új munkáltatóval, ha pedig cég, akkor megmutathatod magad.

Feliratkozás a @loss_function_porn! Ez egy személyes projekt: együtt vezetjük karfly. Az összes olyan alkotást, amely a konferencia során tetszett, ide tettük fel: @loss_function_live.

Forrás: will.com

Hozzászólás