Neuronové sítě v počítačovém vidění se aktivně rozvíjejí, mnoho problémů není ještě zdaleka vyřešeno. Chcete-li být ve svém oboru trendem, stačí sledovat influencery na Twitteru a číst příslušné články na arXiv.org. Měli jsme ale možnost jet na Mezinárodní konferenci o počítačovém vidění (ICCV) 2019. Letos se koná v Jižní Koreji. Nyní se chceme s Habrovými čtenáři podělit o to, co jsme viděli a naučili.
Bylo nás tam hodně z Yandexu: přišli vývojáři samořídících aut, výzkumníci a ti, kteří se zabývají CV úkoly ve službách. Nyní ale chceme představit trochu subjektivní pohled našeho týmu – Laboratoř strojové inteligence (Yandex MILAB). Ostatní kluci se pravděpodobně na konferenci podívali ze svého úhlu.
Co dělá laboratoř?Děláme experimentální projekty související s generováním obrázků a hudby pro zábavní účely. Zajímají nás především neuronové sítě, které umožňují měnit obsah od uživatele (u fotografií se tento úkol nazývá manipulace s obrázky).
Vědeckých konferencí je spousta, ale vyčnívají ty špičkové, tzv. A* konference, kde bývají publikovány články o nejzajímavějších a nejdůležitějších technologiích. Přesný seznam A* konferencí neexistuje, zde je přibližný a neúplný seznam: NeurIPS (dříve NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Poslední tři se specializují na téma CV.
ICCV na první pohled: plakáty, návody, workshopy, stojany
Na konferenci přišlo 1075 příspěvků, účastníků bylo 7500. Z Ruska přijelo 103 lidí, byly tam články od zaměstnanců Yandex, Skoltech, Samsung AI Center Moskva a Samara University. ICCV letos nenavštívilo mnoho špičkových výzkumníků, ale například Alexey (Alyosha) Efros, který vždy přitáhne spoustu lidí:
Statistika
Na všech takových konferencích jsou články prezentovány ve formě posterů (
Zde jsou některá díla z Ruska
Pomocí tutoriálů se můžete ponořit do konkrétní oblasti; připomíná to přednášku na univerzitě. Čte ji jeden člověk, většinou bez mluvení o konkrétních dílech. Příklad skvělého tutoriálu (
Na workshopech se naopak mluví o článcích. Obvykle se jedná o práce v nějakém úzkém tématu, příběhy vedoucích laboratoří o všech nejnovějších pracích studentů nebo články, které nebyly přijaty na hlavní konferenci.
Sponzorující společnosti přicházejí na ICCV se stánky. Letos přišel Google, Facebook, Amazon a mnoho dalších mezinárodních společností a také velké množství startupů – korejských a čínských. Existovalo zejména mnoho startupů, které se specializovaly na značkování dat. Na stáncích se konají představení, můžete si vzít merch a zeptat se. Pro účely lovu pořádají sponzorské společnosti večírky. Můžete se do nich dostat, pokud přesvědčíte recruitery, že máte zájem a že potenciálně můžete projít pohovory. Pokud jste publikovali článek (nebo jej navíc prezentovali), zahájili nebo dokončujete doktorandské studium, je to plus, ale někdy se můžete na stánku domluvit a položit zajímavé otázky inženýrům společnosti.
Trendy
Konference umožňuje nahlédnout do celého oboru CV. Podle počtu plakátů na konkrétní téma můžete posoudit, jak horké téma je. Některé závěry se navrhují na základě klíčových slov:
Nulový výstřel, jednorázový výstřel, několik výstřelů, samokontrolovaný a částečně řízený: nové přístupy k dlouho studovaným úkolům
Lidé se učí efektivněji využívat data. Například v
3D a 360°
Problémy, které byly většinou vyřešeny u fotografií (segmentace, detekce), vyžadují další výzkum pro 3D modely a panoramatická videa. Viděli jsme mnoho článků o převodu RGB a RGB-D do 3D. Některé problémy, jako je odhad lidské pozice, lze vyřešit přirozeněji přechodem na 3D modely. Ale zatím neexistuje shoda na tom, jak přesně reprezentovat XNUMXD modely – ve formě sítě, mračna bodů, voxelů nebo SDF. Zde je další možnost:
V panoramatech se konvoluce na kouli aktivně rozvíjejí (viz.
Detekce pozice a predikce lidského pohybu
Již došlo k pokroku v detekci pozice ve 2D – nyní se pozornost přesunula směrem k práci s více kamerami a ve 3D. Například můžete také detekovat kostru přes zeď sledováním změn signálu Wi-Fi při průchodu lidským tělem.
V oblasti detekce klíčových bodů ruky bylo vykonáno mnoho práce. Objevily se nové datové sady, včetně těch, které jsou založeny na videích dialogů mezi dvěma lidmi – nyní můžete předvídat gesta rukou ze zvuku nebo textu konverzace! Stejného pokroku bylo dosaženo v úlohách sledování očí (odhad pohledu).
Lze také identifikovat velký shluk děl souvisejících s predikcí lidského pohybu (např.
Manipulace s lidmi na fotografiích a videích, virtuální montážní místnosti
Hlavním trendem je měnit obrázky obličeje podle interpretovatelných parametrů. Nápady: deepfake na základě jednoho obrázku, změna výrazu na základě vykreslení obličeje (
Generování ze skic/grafů
Vývoj myšlenky „Nechte mřížku generovat něco na základě předchozích zkušeností“ se stal dalším: „Ukažme mřížce, která možnost nás zajímá.“
Jeden z 25 článků Adobe pro ICCV kombinuje dva GANy: jeden doplňuje náčrt pro uživatele, druhý generuje ze náčrtu fotorealistický obrázek (
Dříve nebyly grafy při generování obrázků potřeba, ale nyní se z nich stal kontejner znalostí o scéně. Ocenění Best Paper Honorable Mentions na základě výsledků ICCV získal také článek
Opětovná identifikace lidí a aut, počítání velikosti davu (!)
Mnoho článků se věnuje sledování osob a opětovné identifikaci osob a strojů. Co nás ale překvapilo, byla hromada článků o počítání davů, všechny z Číny.
plakáty
Facebook ale fotku naopak anonymizuje. A dělá to zajímavým způsobem: trénuje neuronovou síť, aby generovala obličej bez jedinečných detailů – podobný, ale ne tak podobný, aby jej systémy rozpoznávání obličejů mohly správně identifikovat.
Ochrana proti nepřátelským útokům
S rozvojem aplikací počítačového vidění v reálném světě (v samořídících autech, v rozpoznávání obličejů) se stále častěji objevuje otázka spolehlivosti takových systémů. Pro plné využití CV si musíte být jisti, že je systém odolný vůči nepřátelským útokům – proto o ochraně proti nim nebylo o nic méně článků než o samotných útocích. Bylo hodně práce na vysvětlení síťových predikcí (mapa význačnosti) a měření důvěry ve výsledek.
Kombinované úkoly
Ve většině úloh s jedním cílem jsou možnosti zlepšení kvality prakticky vyčerpány, jedním z nových směrů dalšího zvyšování kvality je naučit neuronové sítě řešit více podobných problémů současně. Příklady:
— predikce akce + predikce optického toku,
— video prezentace + jazyková prezentace (
-
Jsou zde také články o segmentaci, určování pozice a opětovné identifikaci zvířat!
Zvýraznění
Téměř všechny články byly známy předem, text byl dostupný na arXiv.org. Prezentace takových děl jako Everybody Dance Now, FUNIT, Image2StyleGAN proto působí poněkud zvláštně – jde o velmi užitečná díla, nikoli však nová. Zdá se, že se zde hroutí klasický proces vědeckých publikací – věda jde příliš rychle.
Je velmi těžké určit nejlepší díla – je jich mnoho, předměty jsou různé. Bylo obdrženo několik článků
Chceme vyzdvihnout díla, která jsou zajímavá z pohledu manipulace s obrázky, protože to je naše téma. Ukázalo se, že jsou pro nás docela čerstvé a zajímavé (nepředstíráme objektivitu).
SinGAN (cena za nejlepší papír) a InGAN
SinGAN:
InGAN:
Vývoj myšlenky Deep Image Prior od Dmitrije Uljanova, Andrey Vedaldi a Victora Lempitského. Místo trénování GAN na datové sadě se sítě učí z fragmentů stejného obrázku, aby si zapamatovaly statistiky v něm. Vyškolená síť umožňuje upravovat a animovat fotografie (SinGAN) nebo generovat nové obrázky libovolné velikosti z textur původního obrázku se zachováním místní struktury (InGAN).
SinGAN:
InGAN:
Podívejte se, co GAN nemůže generovat
Neuronové sítě, které generují obrázky, často berou jako vstup vektor náhodného šumu. V trénované síti tvoří mnoho vstupních vektorů prostor, malé pohyby podél nich vedou k malým změnám v obrázku. Pomocí optimalizace můžete vyřešit inverzní problém: najít vhodný vstupní vektor pro obrázek z reálného světa. Autor ukazuje, že téměř nikdy není možné v neuronové síti najít zcela odpovídající obrázek. Některé objekty na obrázku nejsou vygenerovány (zřejmě kvůli velké variabilitě těchto objektů).
Autor předpokládá, že GAN nepokrývá celý prostor obrázků, ale jen nějakou podmnožinu, vycpanou dírami, jako sýr. Když se v něm budeme snažit najít fotky z reálného světa, vždy se nám to nepodaří, protože GAN stejně generuje ne úplně reálné fotky. Rozdíly mezi skutečnými a generovanými obrázky lze překonat pouze změnou vah sítě, tedy jejím přeškolením na konkrétní fotografii.
Když je síť dodatečně natrénována na konkrétní fotografii, můžete s tímto obrázkem zkoušet různé manipulace. V níže uvedeném příkladu bylo na fotografii přidáno okno a síť navíc generovala odlesky na kuchyňské lince. To znamená, že síť ani po dodatečném školení pro fotografování neztratila schopnost vidět spojení mezi objekty ve scéně.
GANalyze: Směrem k vizuálním definicím vlastností kognitivního obrazu
Pomocí přístupu z této práce můžete vizualizovat a analyzovat, co se neuronová síť naučila. Autoři navrhují trénovat GAN tak, aby vytvářel obrázky, pro které bude síť generovat zadané předpovědi. V článku bylo jako příklady použito několik sítí, včetně MemNet, který předpovídá zapamatovatelnost fotografií. Ukázalo se, že pro lepší zapamatovatelnost by měl objekt na fotografii:
- být blíže středu
- mají kulatější nebo čtvercový tvar a jednoduchou strukturu,
- být na jednotném pozadí,
- obsahovat výrazné oči (alespoň u fotek psů),
- být jasnější, sytější, v některých případech červenější.
Liquid Warping GAN: Jednotný rámec pro imitaci lidského pohybu, přenos vzhledu a syntézu nového pohledu
Potrubí pro generování fotografií lidí po jedné fotografii. Autoři ukazují zdařilé příklady přenosu pohybu jednoho člověka na druhého, přenášení oblečení mezi lidmi a generování nových úhlů pohledu člověka – to vše z jedné fotografie. Na rozdíl od předchozích dílů zde k vytváření podmínek nepoužíváme klíčové body ve 2D (pose), ale 3D síť těla (pose + tvar). Autoři také přišli na to, jak přenést informace z původního obrázku do vygenerovaného (Liquid Warping Block). Výsledky vypadají slušně, ale rozlišení výsledného obrázku je pouze 256x256. Pro srovnání vid2vid, který se objevil před rokem, je schopen generovat v rozlišení 2048x1024, ale vyžaduje celých 10 minut záznamu videa jako dataset.
FSGAN: Subject Agnostic Face Swapping and Reenactment
Zpočátku se zdá, že nejde o nic neobvyklého: deepfake s víceméně normální kvalitou. Hlavním úspěchem práce je však záměna tváří z jednoho obrázku. Na rozdíl od předchozích dílů bylo vyžadováno školení na mnoha fotografiích konkrétní osoby. Potrubí se ukázalo být těžkopádné (reenactment a segmentace, interpolace pohledu, malování, prolnutí) a se spoustou technických hacků, ale výsledek stojí za to.
Detekce neočekávaného prostřednictvím resyntézy obrazu
Jak může dron pochopit, že se před ním náhle objevil objekt, který nespadá do žádné třídy sémantické segmentace? Existuje několik metod, ale autoři navrhují nový, intuitivní algoritmus, který funguje lépe než jeho předchůdci. Sémantická segmentace je predikována ze vstupního obrazu silnice. Je přiváděn jako vstup do GAN (pix2pixHD), který se pokouší obnovit původní obraz pouze ze sémantické mapy. Anomálie, které nespadají do žádného ze segmentů, se budou výrazně lišit ve výstupu a generovaném obrázku. Tyto tři snímky (původní, segmentační a rekonstruované) jsou poté přivedeny do další sítě, která předpovídá anomálie. Datový soubor byl vygenerován ze známého datového souboru Cityscapes, který náhodně měnil třídy sémantické segmentace. Zajímavé je, že v tomto nastavení pes stojící uprostřed silnice, ale správně segmentovaný (což znamená, že pro něj existuje třída), není anomálií, protože ho systém dokázal rozpoznat.
Závěr
Před konferencí je důležité vědět, jaké jsou vaše vědecké zájmy, jaké prezentace byste chtěli navštívit a s kým mluvit. Pak bude vše mnohem produktivnější.
ICCV je v první řadě vytváření sítí. Pochopíte, že existují špičkové ústavy a špičková vědecká oddělení, začnete tomu rozumět, poznávat lidi. A můžete číst články na arXiv - a mimochodem, je velmi skvělé, že nemusíte nikam chodit, abyste získali znalosti.
Navíc se na konferenci můžete hluboce ponořit do témat, která vám nejsou blízká a vidět trendy. Dobře, napište si seznam článků ke čtení. Pokud jste student, je to pro vás příležitost seznámit se s potenciálním učitelem, pokud jste z branže, pak s novým zaměstnavatelem, a pokud firma, tak se ukázat.
Přihlásit se k odběru
Zdroj: www.habr.com