A neurális hálózatok a számítógépes látásban aktívan fejlődnek, sok probléma még mindig messze van a megoldástól. Ha trendben akar lenni a szakterületén, kövesse az influencereket a Twitteren, és olvassa el a vonatkozó cikkeket az arXiv.org oldalon. De lehetőségünk volt elmenni a 2019-es számítógépes látás nemzetközi konferenciájára (ICCV). Idén Dél-Koreában rendezik meg. Most szeretnénk megosztani a Habr olvasóival, amit láttunk és tanultunk.
Nagyon sokan voltunk ott a Yandextől: jöttek önvezető autók fejlesztői, kutatók, szervizekben önéletrajzi feladatokkal foglalkozók. De most szeretnénk bemutatni egy kissé szubjektív nézőpontot csapatunkról - a Machine Intelligence Laboratoryról (Yandex MILAB). A többi srác valószínűleg a saját szemszögéből nézte a konferenciát.
Mit csinál a laboratórium?Kísérleti projekteket végzünk szórakoztató célú képek és zene generálásával kapcsolatban. Különösen érdekelnek minket azok a neurális hálózatok, amelyek lehetővé teszik a tartalom megváltoztatását a felhasználótól (fotóknál ezt a feladatot képmanipulációnak nevezik).
Nagyon sok tudományos konferencia van, de kiemelkednek a csúcsok, az úgynevezett A* konferenciák, ahol általában a legérdekesebb és legfontosabb technológiákról jelennek meg cikkek. Az A* konferenciákról nincs pontos lista, itt van egy hozzávetőleges és hiányos lista: NeurIPS (korábban NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Az utolsó három az önéletrajz témájára specializálódott.
ICCV áttekintése: poszterek, oktatóanyagok, workshopok, standok
A konferenciára 1075 előadás érkezett, a résztvevők száma 7500. Oroszországból 103-an érkeztek, a Yandex, a Skoltech, a Samsung AI Center Moszkva és a Samara Egyetem munkatársaitól érkeztek cikkek. Idén nem sok csúcskutató járt az ICCV-n, hanem például Alexey (Alyosha) Efros, aki mindig sok embert vonz:
Statisztika
Minden ilyen konferencián a cikkeket poszterek formájában mutatják be (
Íme néhány oroszországi alkotás
Az oktatóanyagok segítségével belemerülhet egy adott tárgykörbe; ez egy egyetemi előadásra emlékeztet. Egy személy olvassa el, általában anélkül, hogy konkrét művekről beszélne. Példa egy remek oktatóanyagra (
A workshopokon éppen ellenkezőleg, cikkekről beszélnek. Általában ezek valamilyen szűk témához kapcsolódó művek, laboratóriumi vezetők történetei a hallgatók legújabb munkájáról, vagy olyan cikkek, amelyeket nem fogadtak be a főkonferenciára.
A szponzoráló cégek standokkal érkeznek az ICCV-re. Idén érkezett a Google, a Facebook, az Amazon és sok más nemzetközi cég, valamint rengeteg startup – koreai és kínai. Különösen sok olyan startup volt, amely adatcímkézésre szakosodott. A lelátókon előadások vannak, lehet árut venni, kérdéseket feltenni. Vadászati célból a támogató társaságok bulikat rendeznek. Akkor kerülhet be hozzájuk, ha meggyőzi a toborzókat arról, hogy érdekli Önt, és potenciálisan átadhat interjúkat. Ha publikált egy cikket (sőt, bemutatta), elkezdte vagy befejezi a PhD-képzést, ez előnyt jelent, de néha a standnál is tárgyalhat érdekes kérdéseket feltéve a cég mérnökeinek.
trendek
A konferencia lehetővé teszi, hogy a teljes önéletrajzi területet áttekintse. Egy adott témával kapcsolatos poszterek száma alapján felmérheti, hogy mennyire felkapott a téma. Néhány következtetés önmagára utal a kulcsszavak alapján:
Zero-shot, one-shot, kevés lövés, önfelügyelt és félig felügyelt: új megközelítések a régóta tanulmányozott feladatokhoz
Az emberek megtanulják az adatokat hatékonyabban használni. Például be
3D és 360°
A többnyire fényképeknél megoldott problémák (szegmentálás, detektálás) további kutatást igényelnek a 3D modellek és panoráma videók esetében. Sok cikket láttunk az RGB és RGB-D 3D-s átalakításáról. Egyes problémák, mint például az emberi pózbecslés, természetesebben megoldhatók a 3D modellekre való átállással. Arról azonban még nincs konszenzus, hogyan kell pontosan ábrázolni a XNUMXD-s modelleket – háló, pontfelhő, voxel vagy SDF formájában. Íme egy másik lehetőség:
A panorámákban a gömb kanyarulatai aktívan fejlődnek (lásd.
Pózérzékelés és emberi mozgás előrejelzése
A 2D-ben már történt előrelépés a pózérzékelés terén – most a hangsúly a több kamerával és a 3D-ben való munka felé tolódott el. Például a csontvázat a falon keresztül is észlelheti, ha követi a Wi-Fi jel változásait, ahogy az áthalad az emberi testen.
Sok munka történt a kézi kulcspont-érzékelés területén. Új adatkészletek jelentek meg, köztük olyanok is, amelyek két ember párbeszédeiből készült videókon alapulnak – most már megjósolhatja a kézmozdulatokat egy beszélgetés hangjából vagy szövegéből! Ugyanilyen előrelépés történt a szemkövetési feladatokban (tekintetbecslés).
Az emberi mozgás előrejelzésével kapcsolatos művek nagy csoportja is azonosítható (pl.
Manipulációk emberekkel fotókon és videókon, virtuális próbafülkék
A fő trend az arcképek értelmezhető paraméterek szerinti megváltoztatása. Ötletek: mélyhamisítás egy kép alapján, arckifejezés megváltoztatása arcrenderelés alapján (
Generáció vázlatokból/grafikonokból
A „Generáljon valamit a rács a korábbi tapasztalatok alapján” ötlet kidolgozása egy másik lett: „Mutassuk meg a rácsot, hogy melyik lehetőség érdekel minket.”
Az ICCV-hez készült 25 Adobe-cikk egyike két GAN-t egyesít: az egyik befejezi a vázlatot a felhasználó számára, a másik pedig fotorealisztikus képet generál a vázlatból (
Korábban a grafikonokra nem volt szükség a képalkotás során, most azonban a jelenetről szóló ismeretek konténerévé váltak. A cikk elnyerte az ICCV eredményei alapján a Best Paper Honorable Mentions díjat is
Emberek és autók újraazonosítása, a tömeg méretével (!)
Sok cikk foglalkozik az emberek nyomon követésével és az emberek és gépek újraazonosításával. De ami meglepett minket, az volt egy csomó cikk a tömegszámlálásról, mind Kínából.
Plakátok
De a Facebook éppen ellenkezőleg, anonimizálja a fényképet. És ezt érdekes módon teszi: megtanítja a neurális hálózatot egyedi részletek nélküli arc létrehozására - hasonló, de nem annyira hasonló, hogy az arcfelismerő rendszerekkel helyesen azonosítható legyen.
Védelem az ellenséges támadások ellen
A számítógépes látás alkalmazások valós világban történő fejlődésével (önvezető autókban, arcfelismerésben) egyre inkább felmerül az ilyen rendszerek megbízhatóságának kérdése. A CV teljes körű használatához meg kell győződnie arról, hogy a rendszer ellenáll az ellenséges támadásoknak – ezért nem volt kevesebb cikk az ellenük való védekezésről, mint magukról a támadásokról. Sokat dolgoztak a hálózati előrejelzések magyarázatán (feltűnőségi térkép) és az eredménybe vetett bizalom mérésén.
Kombinált feladatok
A legtöbb egy célú feladatnál gyakorlatilag kimerültek a minőség javításának lehetőségei, a minőség további növelésének egyik új iránya a neurális hálózatok több hasonló probléma egyidejű megoldására való megtanítása. Példák:
— cselekvés előrejelzése + optikai áramlás előrejelzése,
- videó bemutató + nyelvi bemutató (
-
Vannak cikkek a szegmentálásról, a pózmeghatározásról és az állatok újraazonosításáról is!
Kiemelések
Szinte minden cikk ismert volt előre, a szöveg elérhető volt az arXiv.org oldalon. Ezért az olyan művek bemutatása, mint az Everybody Dance Now, a FUNIT, az Image2StyleGAN, meglehetősen furcsának tűnik - ezek nagyon hasznos művek, de nem újak. Úgy tűnik, hogy a tudományos publikációk klasszikus folyamata itt összeomlik - a tudomány túl gyorsan halad.
Nagyon nehéz meghatározni a legjobb műveket - sok van belőlük, a témák különbözőek. Több cikk érkezett
A képmanipuláció szempontjából érdekes munkákat szeretnénk kiemelni, hiszen ez a témánk. Egészen frissnek és érdekesnek bizonyultak számunkra (nem akarunk tárgyilagosnak lenni).
SinGAN (legjobb papír díj) és InGAN
SinGAN:
InGAN:
A Deep Image előzetes ötlete Dmitrij Uljanovtól, Andrea Vedalditól és Victor Lempitskytől. Ahelyett, hogy egy GAN-t egy adatkészleten tanítanának, a hálózatok ugyanazon kép töredékeiből tanulnak, hogy emlékezzenek a benne lévő statisztikákra. A képzett hálózat lehetővé teszi fényképek szerkesztését és animálását (SinGAN), vagy bármilyen méretű új képek generálását az eredeti kép textúráiból, megőrizve a helyi struktúrát (InGAN).
SinGAN:
InGAN:
Látni, amit egy GAN nem tud generálni
A képeket generáló neurális hálózatok gyakran véletlenszerű zaj vektorát veszik be bemenetként. Egy betanított hálózatban sok bemeneti vektor alkot egy teret, amelyek mentén kis mozgások kis változásokhoz vezetnek a képen. Az optimalizálás segítségével megoldhatja az inverz problémát: találjon megfelelő bemeneti vektort egy valós képhez. A szerző megmutatja, hogy egy neurális hálózatban szinte soha nem lehet teljesen egyező képet találni. Néhány objektum a képen nem jön létre (nyilvánvalóan ezen objektumok nagy változatossága miatt).
A szerző azt feltételezi, hogy a GAN nem fedi le a képek teljes terét, hanem csak néhány részhalmazt, lyukakkal tömve, mint a sajt. Amikor a való világból próbálunk fotókat találni benne, mindig kudarcot vallunk, mert a GAN még mindig nem teljesen valódi fotókat készít. A valódi és a generált képek közötti különbségeket csak a hálózat súlyainak megváltoztatásával, azaz egy adott fotóra való átképzésével lehet áthidalni.
Ha a hálózatot egy adott fényképre is kiképezték, különféle manipulációkat próbálhat ki ezzel a képpel. Az alábbi példában egy ablakot adtunk a fényképhez, és a hálózat emellett tükröződéseket generált a konyhai egységen. Ez azt jelenti, hogy a hálózat a fényképezéshez szükséges további képzés után sem veszítette el azt a képességét, hogy lássa a kapcsolatot a jelenetben lévő objektumok között.
GANalyze: A kognitív kép tulajdonságainak vizuális meghatározásai felé
Az ebből a munkából származó megközelítés segítségével megjelenítheti és elemezheti, mit tanult a neurális hálózat. A szerzők azt javasolják, hogy képezzék a GAN-t olyan képek létrehozására, amelyekhez a hálózat meghatározott előrejelzéseket generál. A cikk számos hálózatot használt példaként, köztük a MemNet-et, amely megjósolja a fényképek emlékezetét. Kiderült, hogy a jobb megjegyezhetőség érdekében a képen látható tárgynak:
- legyen közelebb a központhoz
- inkább kerek vagy négyzet alakú és egyszerű szerkezetű,
- egységes alapon legyen,
- kifejező szemeket tartalmazzon (legalábbis kutyafotóknál),
- legyen világosabb, telítettebb, bizonyos esetekben vörösebb.
Liquid Warping GAN: Egységes keretrendszer az emberi mozgás utánzásához, a megjelenés átviteléhez és az újszerű nézet szintéziséhez
Csősor, amellyel fotókat hozhat létre emberekről egyenként. A szerzők sikeres példákat mutatnak be az egyik személy mozgásának a másikra való átvitelére, a ruhák áthelyezésére az emberek között, és egy személy új látószögeinek létrehozására – mindezt egyetlen fényképről. A korábbi munkákkal ellentétben itt nem a 2D-s kulcspontokat (póz), hanem a test 3D-s hálóját (póz + forma) használjuk a feltételek megteremtéséhez. A szerzők azt is kitalálták, hogyan vihetik át az információkat az eredeti képről a generált képre (Liquid Warping Block). Az eredmények megfelelőnek tűnnek, de a kapott kép felbontása csak 256x256. Összehasonlításképpen az egy éve megjelent vid2vid 2048x1024-es felbontásban képes generálni, de adathalmazként akár 10 perces videófelvételt is igényel.
FSGAN: Subject Agnostic Face Swapping and Reenactment
Elsőre úgy tűnik, hogy nincs semmi szokatlan: egy deepfake többé-kevésbé normális minőségben. De a munka fő eredménye az arcok helyettesítése egy képről. A korábbi munkákkal ellentétben egy adott személyről készült sok fényképre volt szükség képzésre. A pipeline nehézkesnek bizonyult (újrajátszás és szegmentálás, interpoláció, festés, keverés) és sok technikai hackel, de az eredmény megéri.
A váratlan észlelése kép-újraszintézis segítségével
Hogyan értheti meg egy drón, hogy hirtelen olyan objektum jelent meg előtte, amely nem tartozik egyetlen szemantikai szegmentációs osztályba sem? Számos módszer létezik, de a szerzők egy új, intuitív algoritmust javasolnak, amely jobban működik, mint elődei. A szemantikus szegmentáció előrejelzése a bemeneti útkép alapján történik. Bemenetként kerül a GAN-ba (pix2pixHD), amely csak a szemantikai térképről próbálja visszaállítani az eredeti képet. Azok az anomáliák, amelyek nem tartoznak egyik szegmensbe sem, jelentősen eltérnek a kimenetben és a generált képben. A három kép (eredeti, szegmentált és rekonstruált) ezután egy másik hálózatba kerül, amely előrejelzi az anomáliákat. Az ehhez szükséges adatkészletet a jól ismert Cityscapes adatkészletből állítottuk elő, véletlenszerűen megváltoztatva a szemantikai szegmentáció osztályait. Érdekes módon ebben a beállításban az út közepén álló, de helyesen szegmentált kutya (ami azt jelenti, hogy van osztálya) nem anomália, hiszen a rendszer képes volt felismerni.
Következtetés
A konferencia előtt fontos tudni, hogy mi a tudományos érdeklődési köre, milyen előadásokon szeretne részt venni, és kivel beszélgethet. Akkor minden sokkal produktívabb lesz.
Az ICCV mindenekelőtt hálózatépítés. Megérted, hogy vannak csúcsintézmények és tudományos osztályok, elkezded ezt megérteni, megismerni az embereket. És olvashatsz cikkeket az arXiv-ről – és mellesleg nagyon klassz, hogy nem kell sehova menned a tudás megszerzéséhez.
Emellett a konferencián olyan témákba is belemerülhetsz, amelyek nem állnak közel hozzád, és láthatod a trendeket. Nos, írjon egy listát az elolvasandó cikkekről. Ha diák vagy, akkor ez egy lehetőség, hogy találkozz egy potenciális tanárral, ha az iparból származol, akkor új munkáltatóval, ha pedig cég, akkor megmutathatod magad.
Feliratkozás a
Forrás: will.com