Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Neuronové sítě v počítačovém vidění se aktivně rozvíjejí, mnoho problémů není ještě zdaleka vyřešeno. Chcete-li být ve svém oboru trendem, stačí sledovat influencery na Twitteru a číst příslušné články na arXiv.org. Měli jsme ale možnost jet na Mezinárodní konferenci o počítačovém vidění (ICCV) 2019. Letos se koná v Jižní Koreji. Nyní se chceme s Habrovými čtenáři podělit o to, co jsme viděli a naučili.

Bylo nás tam hodně z Yandexu: přišli vývojáři samořídících aut, výzkumníci a ti, kteří se zabývají CV úkoly ve službách. Nyní ale chceme představit trochu subjektivní pohled našeho týmu – Laboratoř strojové inteligence (Yandex MILAB). Ostatní kluci se pravděpodobně na konferenci podívali ze svého úhlu.

Co dělá laboratoř?Děláme experimentální projekty související s generováním obrázků a hudby pro zábavní účely. Zajímají nás především neuronové sítě, které umožňují měnit obsah od uživatele (u fotografií se tento úkol nazývá manipulace s obrázky). příklad výsledek naší práce z konference YaC 2019.
Vědeckých konferencí je spousta, ale vyčnívají ty špičkové, tzv. A* konference, kde bývají publikovány články o nejzajímavějších a nejdůležitějších technologiích. Přesný seznam A* konferencí neexistuje, zde je přibližný a neúplný seznam: NeurIPS (dříve NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Poslední tři se specializují na téma CV.

ICCV na první pohled: plakáty, návody, workshopy, stojany

Na konferenci přišlo 1075 příspěvků, účastníků bylo 7500. Z Ruska přijelo 103 lidí, byly tam články od zaměstnanců Yandex, Skoltech, Samsung AI Center Moskva a Samara University. ICCV letos nenavštívilo mnoho špičkových výzkumníků, ale například Alexey (Alyosha) Efros, který vždy přitáhne spoustu lidí:

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Statistika Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Na všech takových konferencích jsou články prezentovány ve formě posterů (více o formátu) a ty nejlepší jsou prezentovány také formou krátkých zpráv.

Zde jsou některá díla z Ruska Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Pomocí tutoriálů se můžete ponořit do konkrétní oblasti; připomíná to přednášku na univerzitě. Čte ji jeden člověk, většinou bez mluvení o konkrétních dílech. Příklad skvělého tutoriálu (Michael Brown, Understanding Color and the In-Camera Image Processing Pipeline for Computer Vision):

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Na workshopech se naopak mluví o článcích. Obvykle se jedná o práce v nějakém úzkém tématu, příběhy vedoucích laboratoří o všech nejnovějších pracích studentů nebo články, které nebyly přijaty na hlavní konferenci.

Sponzorující společnosti přicházejí na ICCV se stánky. Letos přišel Google, Facebook, Amazon a mnoho dalších mezinárodních společností a také velké množství startupů – korejských a čínských. Existovalo zejména mnoho startupů, které se specializovaly na značkování dat. Na stáncích se konají představení, můžete si vzít merch a zeptat se. Pro účely lovu pořádají sponzorské společnosti večírky. Můžete se do nich dostat, pokud přesvědčíte recruitery, že máte zájem a že potenciálně můžete projít pohovory. Pokud jste publikovali článek (nebo jej navíc prezentovali), zahájili nebo dokončujete doktorandské studium, je to plus, ale někdy se můžete na stánku domluvit a položit zajímavé otázky inženýrům společnosti.

Trendy

Konference umožňuje nahlédnout do celého oboru CV. Podle počtu plakátů na konkrétní téma můžete posoudit, jak horké téma je. Některé závěry se navrhují na základě klíčových slov:

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Nulový výstřel, jednorázový výstřel, několik výstřelů, samokontrolovaný a částečně řízený: nové přístupy k dlouho studovaným úkolům

Lidé se učí efektivněji využívat data. Například v FUNIT je možné generovat výrazy obličeje zvířat, která nebyla ve výcvikové sadě (v aplikaci poskytnutím několika referenčních obrázků). Myšlenky Deep Image Prior byly vyvinuty a nyní lze sítě GAN trénovat na jediném obrázku – o tom budeme hovořit níže ve světlech. Samokontrolu můžete použít pro předtrénink (řešení problému, pro který můžete syntetizovat zarovnaná data, jako je předpovídání úhlu natočení obrázku) nebo se učit současně z označených a neoznačených dat. V tomto smyslu lze článek považovat za korunu stvoření S4L: Semi-supervised learning s vlastním dohledem. A tady je předškolení na ImageNet ne vždy pomáhá.

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

3D a 360°

Problémy, které byly většinou vyřešeny u fotografií (segmentace, detekce), vyžadují další výzkum pro 3D modely a panoramatická videa. Viděli jsme mnoho článků o převodu RGB a RGB-D do 3D. Některé problémy, jako je odhad lidské pozice, lze vyřešit přirozeněji přechodem na 3D modely. Ale zatím neexistuje shoda na tom, jak přesně reprezentovat XNUMXD modely – ve formě sítě, mračna bodů, voxelů nebo SDF. Zde je další možnost:

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

V panoramatech se konvoluce na kouli aktivně rozvíjejí (viz. Orientačně orientovaná sémantická segmentace na dvacetistěnných sférách) a vyhledejte klíčové objekty v rámečku.

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Detekce pozice a predikce lidského pohybu

Již došlo k pokroku v detekci pozice ve 2D – nyní se pozornost přesunula směrem k práci s více kamerami a ve 3D. Například můžete také detekovat kostru přes zeď sledováním změn signálu Wi-Fi při průchodu lidským tělem.

V oblasti detekce klíčových bodů ruky bylo vykonáno mnoho práce. Objevily se nové datové sady, včetně těch, které jsou založeny na videích dialogů mezi dvěma lidmi – nyní můžete předvídat gesta rukou ze zvuku nebo textu konverzace! Stejného pokroku bylo dosaženo v úlohách sledování očí (odhad pohledu).

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Lze také identifikovat velký shluk děl souvisejících s predikcí lidského pohybu (např. Predikce lidského pohybu prostřednictvím časoprostorové malby nebo Strukturovaná předpověď pomáhá 3D modelování lidského pohybu). Úloha je důležitá a na základě rozhovorů s autory se nejčastěji využívá k rozboru chování chodců při autonomní jízdě.

Manipulace s lidmi na fotografiích a videích, virtuální montážní místnosti

Hlavním trendem je měnit obrázky obličeje podle interpretovatelných parametrů. Nápady: deepfake na základě jednoho obrázku, změna výrazu na základě vykreslení obličeje (PuppetGAN), předávání – změna parametrů (např. stáří). Stylové převody se přesunuly od názvu tématu k aplikaci díla. Virtuální montážní místnosti jsou jiný příběh; téměř vždy fungují špatně, Zde je příklad ukázky.

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Generování ze skic/grafů

Vývoj myšlenky „Nechte mřížku generovat něco na základě předchozích zkušeností“ se stal dalším: „Ukažme mřížce, která možnost nás zajímá.“

SC-FEGAN umožňuje provádět řízené malování: uživatel může domalovat část obličeje ve vymazané oblasti obrázku a získat obnovený obrázek v závislosti na dokončení.

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Jeden z 25 článků Adobe pro ICCV kombinuje dva GANy: jeden doplňuje náčrt pro uživatele, druhý generuje ze náčrtu fotorealistický obrázek (stránka projektu).

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Dříve nebyly grafy při generování obrázků potřeba, ale nyní se z nich stal kontejner znalostí o scéně. Ocenění Best Paper Honorable Mentions na základě výsledků ICCV získal také článek Určení atributů a vztahů objektů při generování interaktivní scény. Obecně je můžete použít různými způsoby: generovat grafy z obrázků nebo obrázky a texty z grafů.

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Opětovná identifikace lidí a aut, počítání velikosti davu (!)

Mnoho článků se věnuje sledování osob a opětovné identifikaci osob a strojů. Co nás ale překvapilo, byla hromada článků o počítání davů, všechny z Číny.

plakáty Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019
Facebook ale fotku naopak anonymizuje. A dělá to zajímavým způsobem: trénuje neuronovou síť, aby generovala obličej bez jedinečných detailů – podobný, ale ne tak podobný, aby jej systémy rozpoznávání obličejů mohly správně identifikovat.

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Ochrana proti nepřátelským útokům

S rozvojem aplikací počítačového vidění v reálném světě (v samořídících autech, v rozpoznávání obličejů) se stále častěji objevuje otázka spolehlivosti takových systémů. Pro plné využití CV si musíte být jisti, že je systém odolný vůči nepřátelským útokům – proto o ochraně proti nim nebylo o nic méně článků než o samotných útocích. Bylo hodně práce na vysvětlení síťových predikcí (mapa význačnosti) a měření důvěry ve výsledek.

Kombinované úkoly

Ve většině úloh s jedním cílem jsou možnosti zlepšení kvality prakticky vyčerpány, jedním z nových směrů dalšího zvyšování kvality je naučit neuronové sítě řešit více podobných problémů současně. Příklady:
— predikce akce + predikce optického toku,
— video prezentace + jazyková prezentace (VideoBERT),
- super rozlišení + HDR.

Jsou zde také články o segmentaci, určování pozice a opětovné identifikaci zvířat!

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Zvýraznění

Téměř všechny články byly známy předem, text byl dostupný na arXiv.org. Prezentace takových děl jako Everybody Dance Now, FUNIT, Image2StyleGAN proto působí poněkud zvláštně – jde o velmi užitečná díla, nikoli však nová. Zdá se, že se zde hroutí klasický proces vědeckých publikací – věda jde příliš rychle.

Je velmi těžké určit nejlepší díla – je jich mnoho, předměty jsou různé. Bylo obdrženo několik článků ocenění a uznání.

Chceme vyzdvihnout díla, která jsou zajímavá z pohledu manipulace s obrázky, protože to je naše téma. Ukázalo se, že jsou pro nás docela čerstvé a zajímavé (nepředstíráme objektivitu).

SinGAN (cena za nejlepší papír) a InGAN

SinGAN: stránka projektu, arXiv, kód.
InGAN: stránka projektu, arXiv, kód.

Vývoj myšlenky Deep Image Prior od Dmitrije Uljanova, Andrey Vedaldi a Victora Lempitského. Místo trénování GAN na datové sadě se sítě učí z fragmentů stejného obrázku, aby si zapamatovaly statistiky v něm. Vyškolená síť umožňuje upravovat a animovat fotografie (SinGAN) nebo generovat nové obrázky libovolné velikosti z textur původního obrázku se zachováním místní struktury (InGAN).

SinGAN:

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

InGAN:

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Podívejte se, co GAN nemůže generovat

Stránka projektu.

Neuronové sítě, které generují obrázky, často berou jako vstup vektor náhodného šumu. V trénované síti tvoří mnoho vstupních vektorů prostor, malé pohyby podél nich vedou k malým změnám v obrázku. Pomocí optimalizace můžete vyřešit inverzní problém: najít vhodný vstupní vektor pro obrázek z reálného světa. Autor ukazuje, že téměř nikdy není možné v neuronové síti najít zcela odpovídající obrázek. Některé objekty na obrázku nejsou vygenerovány (zřejmě kvůli velké variabilitě těchto objektů).

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Autor předpokládá, že GAN nepokrývá celý prostor obrázků, ale jen nějakou podmnožinu, vycpanou dírami, jako sýr. Když se v něm budeme snažit najít fotky z reálného světa, vždy se nám to nepodaří, protože GAN stejně generuje ne úplně reálné fotky. Rozdíly mezi skutečnými a generovanými obrázky lze překonat pouze změnou vah sítě, tedy jejím přeškolením na konkrétní fotografii.

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Když je síť dodatečně natrénována na konkrétní fotografii, můžete s tímto obrázkem zkoušet různé manipulace. V níže uvedeném příkladu bylo na fotografii přidáno okno a síť navíc generovala odlesky na kuchyňské lince. To znamená, že síť ani po dodatečném školení pro fotografování neztratila schopnost vidět spojení mezi objekty ve scéně.

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

GANalyze: Směrem k vizuálním definicím vlastností kognitivního obrazu

Stránka projektu, arXiv.

Pomocí přístupu z této práce můžete vizualizovat a analyzovat, co se neuronová síť naučila. Autoři navrhují trénovat GAN tak, aby vytvářel obrázky, pro které bude síť generovat zadané předpovědi. V článku bylo jako příklady použito několik sítí, včetně MemNet, který předpovídá zapamatovatelnost fotografií. Ukázalo se, že pro lepší zapamatovatelnost by měl objekt na fotografii:

  • být blíže středu
  • mají kulatější nebo čtvercový tvar a jednoduchou strukturu,
  • být na jednotném pozadí,
  • obsahovat výrazné oči (alespoň u fotek psů),
  • být jasnější, sytější, v některých případech červenější.

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Liquid Warping GAN: Jednotný rámec pro imitaci lidského pohybu, přenos vzhledu a syntézu nového pohledu

Stránka projektu, arXiv, kód.

Potrubí pro generování fotografií lidí po jedné fotografii. Autoři ukazují zdařilé příklady přenosu pohybu jednoho člověka na druhého, přenášení oblečení mezi lidmi a generování nových úhlů pohledu člověka – to vše z jedné fotografie. Na rozdíl od předchozích dílů zde k vytváření podmínek nepoužíváme klíčové body ve 2D (pose), ale 3D síť těla (pose + tvar). Autoři také přišli na to, jak přenést informace z původního obrázku do vygenerovaného (Liquid Warping Block). Výsledky vypadají slušně, ale rozlišení výsledného obrázku je pouze 256x256. Pro srovnání vid2vid, který se objevil před rokem, je schopen generovat v rozlišení 2048x1024, ale vyžaduje celých 10 minut záznamu videa jako dataset.

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

FSGAN: Subject Agnostic Face Swapping and Reenactment

Stránka projektu, arXiv.

Zpočátku se zdá, že nejde o nic neobvyklého: deepfake s víceméně normální kvalitou. Hlavním úspěchem práce je však záměna tváří z jednoho obrázku. Na rozdíl od předchozích dílů bylo vyžadováno školení na mnoha fotografiích konkrétní osoby. Potrubí se ukázalo být těžkopádné (reenactment a segmentace, interpolace pohledu, malování, prolnutí) a se spoustou technických hacků, ale výsledek stojí za to.

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Detekce neočekávaného prostřednictvím resyntézy obrazu

arXiv.

Jak může dron pochopit, že se před ním náhle objevil objekt, který nespadá do žádné třídy sémantické segmentace? Existuje několik metod, ale autoři navrhují nový, intuitivní algoritmus, který funguje lépe než jeho předchůdci. Sémantická segmentace je predikována ze vstupního obrazu silnice. Je přiváděn jako vstup do GAN (pix2pixHD), který se pokouší obnovit původní obraz pouze ze sémantické mapy. Anomálie, které nespadají do žádného ze segmentů, se budou výrazně lišit ve výstupu a generovaném obrázku. Tyto tři snímky (původní, segmentační a rekonstruované) jsou poté přivedeny do další sítě, která předpovídá anomálie. Datový soubor byl vygenerován ze známého datového souboru Cityscapes, který náhodně měnil třídy sémantické segmentace. Zajímavé je, že v tomto nastavení pes stojící uprostřed silnice, ale správně segmentovaný (což znamená, že pro něj existuje třída), není anomálií, protože ho systém dokázal rozpoznat.

Trendy v počítačovém vidění. Nejdůležitější události ICCV 2019

Závěr

Před konferencí je důležité vědět, jaké jsou vaše vědecké zájmy, jaké prezentace byste chtěli navštívit a s kým mluvit. Pak bude vše mnohem produktivnější.

ICCV je v první řadě vytváření sítí. Pochopíte, že existují špičkové ústavy a špičková vědecká oddělení, začnete tomu rozumět, poznávat lidi. A můžete číst články na arXiv - a mimochodem, je velmi skvělé, že nemusíte nikam chodit, abyste získali znalosti.

Navíc se na konferenci můžete hluboce ponořit do témat, která vám nejsou blízká a vidět trendy. Dobře, napište si seznam článků ke čtení. Pokud jste student, je to pro vás příležitost seznámit se s potenciálním učitelem, pokud jste z branže, pak s novým zaměstnavatelem, a pokud firma, tak se ukázat.

Přihlásit se k odběru @loss_function_porn! Toto je osobní projekt: vedeme ho společně s karfly. Všechny práce, které se nám na konferenci líbily, jsme zveřejnili zde: @loss_function_live.

Zdroj: www.habr.com

Přidat komentář