Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Mitandao ya Neural katika maono ya kompyuta inakua kikamilifu, shida nyingi bado hazijatatuliwa. Ili kuwa maarufu katika uwanja wako, fuata tu wanaoshawishi kwenye Twitter na usome makala muhimu kwenye arXiv.org. Lakini tulipata fursa ya kwenda kwenye Mkutano wa Kimataifa wa Dira ya Kompyuta (ICCV) 2019. Mwaka huu unafanyika Korea Kusini. Sasa tunataka kushiriki na wasomaji wa Habr kile tulichoona na kujifunza.

Kulikuwa na wengi wetu huko kutoka kwa Yandex: watengenezaji wa magari ya kujiendesha, watafiti, na wale wanaohusika na kazi za CV katika huduma walikuja. Lakini sasa tunataka kuwasilisha mtazamo wa chini kidogo wa timu yetu - Maabara ya Ujasusi wa Mashine (Yandex MILAB). Vijana wengine labda walitazama mkutano kutoka kwa mtazamo wao.

Je, maabara hufanya nini?Tunafanya miradi ya majaribio inayohusiana na utengenezaji wa picha na muziki kwa madhumuni ya burudani. Tunavutiwa sana na mitandao ya neural ambayo hukuruhusu kubadilisha yaliyomo kutoka kwa mtumiaji (kwa picha, kazi hii inaitwa upotoshaji wa picha). Mfano matokeo ya kazi yetu kutoka kwa mkutano wa YaC 2019.
Kuna mikutano mingi ya kisayansi, lakini yale ya juu yanajitokeza, inayoitwa mikutano ya A *, ambapo makala juu ya teknolojia ya kuvutia zaidi na muhimu huchapishwa kwa kawaida. Hakuna orodha kamili ya mikutano ya A*, hii hapa ni orodha ya makadirio na ambayo haijakamilika: NeurIPS (zamani NIPS), ICML, SGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Watatu wa mwisho wamebobea katika mada ya CV.

ICCV kwa mtazamo: mabango, mafunzo, warsha, stendi

Mkutano huo ulipokea karatasi 1075, kulikuwa na washiriki 7500. Watu 103 walikuja kutoka Urusi, kulikuwa na makala kutoka kwa wafanyakazi wa Yandex, Skoltech, Samsung AI Center Moscow na Chuo Kikuu cha Samara. Mwaka huu, sio watafiti wengi wa juu waliotembelea ICCV, lakini, kwa mfano, Alexey (Alyosha) Efros, ambaye huwavutia watu wengi kila wakati:

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

takwimu Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Katika mikutano yote kama hii, nakala zinawasilishwa kwa njia ya mabango (zaidi kuhusu umbizo), na bora zaidi pia huwasilishwa kwa njia ya ripoti fupi.

Hapa kuna baadhi ya kazi kutoka Urusi Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Ukiwa na mafunzo unaweza kupiga mbizi katika eneo fulani la somo; ni ukumbusho wa mhadhara katika chuo kikuu. Inasomwa na mtu mmoja, kwa kawaida bila kuzungumza juu ya kazi maalum. Mfano wa mafunzo mazuri (Michael Brown, Rangi ya Kuelewa na Bomba la Kuchakata Picha za Ndani ya Kamera kwa Maono ya Kompyuta):

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Katika warsha, kinyume chake, wanazungumza kuhusu makala. Kawaida hizi ni kazi katika mada finyu, hadithi kutoka kwa wakuu wa maabara kuhusu kazi zote za hivi punde za wanafunzi, au nakala ambazo hazikukubaliwa kwa mkutano mkuu.

Kampuni zinazofadhili huja kwa ICCV na stendi. Mwaka huu, Google, Facebook, Amazon na makampuni mengine mengi ya kimataifa yalikuja, pamoja na idadi kubwa ya startups - Kikorea na Kichina. Kulikuwa na uanzishaji mwingi ambao ulibobea katika kuweka lebo data. Kuna maonyesho kwenye stendi, unaweza kuchukua bidhaa na kuuliza maswali. Kwa madhumuni ya uwindaji, makampuni ya kufadhili yana vyama. Unaweza kuingia ndani yao ikiwa utawashawishi waajiri kuwa una nia na kwamba unaweza kupitisha mahojiano. Ikiwa umechapisha makala (au, zaidi ya hayo, uliwasilisha), ulianza au unamaliza PhD, hii ni pamoja na, lakini wakati mwingine unaweza kujadiliana kwenye msimamo kwa kuuliza maswali ya kuvutia kwa wahandisi wa kampuni.

Mwelekeo

Mkutano hukuruhusu kutazama uwanja mzima wa CV. Kwa idadi ya mabango kwenye mada fulani, unaweza kutathmini jinsi mada ni moto. Baadhi ya hitimisho hujipendekeza kulingana na maneno muhimu:

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Kupiga sifuri, risasi moja, risasi chache, kujisimamia na kusimamiwa nusu: mbinu mpya za kazi zilizosomwa kwa muda mrefu.

Watu wanajifunza kutumia data kwa ufanisi zaidi. Kwa mfano, katika FUNIT inawezekana kuzalisha maonyesho ya uso wa wanyama ambao hawakuwa katika seti ya mafunzo (katika maombi, kwa kutoa picha kadhaa za kumbukumbu). Mawazo ya Deep Image Kabla yameandaliwa, na sasa mitandao ya GAN inaweza kufunzwa kwenye picha moja - tutazungumza juu ya hii hapa chini. katika mambo muhimu. Unaweza kutumia kujisimamia mwenyewe kwa mafunzo ya awali (kusuluhisha tatizo ambalo unaweza kusanikisha data iliyopangwa, kama vile kutabiri pembe ya mzunguko wa picha) au kujifunza kwa wakati mmoja kutoka kwa data iliyo na lebo na isiyo na lebo. Kwa maana hii, makala inaweza kuchukuliwa kuwa taji ya uumbaji S4L: Mafunzo Yanayosimamiwa Nusu Yanayojisimamia. Na hapa kuna mafunzo ya awali kwenye ImageNet si mara zote husaidia.

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

3D na 360Β°

Matatizo ambayo mara nyingi yalitatuliwa kwa picha (segmentation, kugundua) yanahitaji utafiti wa ziada kwa miundo ya 3D na video za panoramiki. Tumeona nakala nyingi za kubadilisha RGB na RGB-D hadi 3D. Baadhi ya matatizo, kama vile ukadiriaji wa mkao wa binadamu, yanaweza kutatuliwa kwa njia ya kawaida zaidi kwa kuhamia miundo ya 3D. Lakini hakuna makubaliano bado juu ya jinsi ya kuwakilisha mifano ya XNUMXD - kwa namna ya mesh, wingu la uhakika, voxels au SDF. Hapa kuna chaguo jingine:

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Katika panorama, mizunguko kwenye tufe inakua kwa bidii (ona. Ugawaji wa Semantiki unaofahamu Mwelekeo kwenye Nyanja za Icosahedron) na utafute vitu muhimu kwenye fremu.

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Ugunduzi wa pose na utabiri wa harakati za binadamu

Tayari kumekuwa na maendeleo katika utambuzi wa pozi katika 2D - sasa mkazo umeelekezwa kwenye kufanya kazi na kamera nyingi na katika 3D. Inawezekana pia, kwa mfano, kugundua mifupa kupitia ukuta kwa kufuatilia mabadiliko katika ishara ya Wi-Fi inapopita kwenye mwili wa mwanadamu.

Kazi kubwa imefanywa katika uwanja wa kugundua vitu muhimu vya mkono. Seti mpya za data zimeonekana, zikiwemo zile zinazotokana na video za mazungumzo kati ya watu wawili - sasa unaweza kutabiri ishara za mkono kutoka kwa sauti au maandishi ya mazungumzo! Maendeleo sawa yamefanywa katika kazi za ufuatiliaji wa macho (makadirio ya kutazama).

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Mtu anaweza pia kutambua kundi kubwa la kazi zinazohusiana na utabiri wa harakati za binadamu (kwa mfano, Utabiri wa Mwendo wa Binadamu kupitia Uchoraji wa Spatio-Temporal au Utabiri Uliopangwa Husaidia Muundo wa Mwendo wa Binadamu wa 3D) Kazi hiyo ni muhimu na, kwa kuzingatia mazungumzo na waandishi, mara nyingi hutumiwa kuchambua tabia ya watembea kwa miguu katika kuendesha gari kwa uhuru.

Udanganyifu na watu katika picha na video, vyumba vya kutoshea mtandaoni

Mwelekeo kuu ni kubadilisha picha za uso kulingana na vigezo vinavyoweza kufasiriwa. Mawazo: deepfake kulingana na picha moja, kubadilisha usemi kulingana na utoaji wa uso (PuppetGAN), feedforward-badilisha vigezo (kwa mfano, umri) Uhamishaji wa mitindo umehama kutoka kichwa cha mada hadi utumiaji wa kazi. Vyumba vya kuweka sawa ni hadithi tofauti; karibu kila wakati hufanya kazi vibaya, hapa kuna mfano demos.

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Kizazi kutoka kwa michoro/grafu

Ukuzaji wa wazo "Acha gridi itengeneze kitu kulingana na uzoefu wa awali" ikawa nyingine: "Hebu tuonyeshe gridi ya taifa ni chaguo gani linatuvutia."

SC-FEGAN inakuwezesha kufanya rangi iliyoongozwa: mtumiaji anaweza kumaliza kuchora sehemu ya uso katika eneo lililofutwa la picha na kupata picha iliyorejeshwa kulingana na kukamilika.

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Moja ya vifungu 25 vya Adobe vya ICCV vinachanganya GAN mbili: moja inakamilisha mchoro kwa mtumiaji, nyingine hutoa picha halisi kutoka kwa mchoro (ukurasa wa mradi).

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Hapo awali, grafu hazikuhitajika katika kizazi cha picha, lakini sasa zimefanywa chombo cha ujuzi kuhusu eneo hilo. Tuzo ya Karatasi Bora ya Kutajwa kwa Heshima kulingana na matokeo ya ICCV pia ilishinda na makala Kubainisha Sifa za Kitu na Mahusiano katika Kizazi Kinachoingiliana cha Scene. Kwa ujumla, unaweza kuzitumia kwa njia tofauti: kuzalisha grafu kutoka kwa picha, au picha na maandiko kutoka kwa grafu.

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Utambulisho upya wa watu na magari, kuhesabu ukubwa wa umati (!)

Nakala nyingi zimejitolea kufuatilia watu na kuwatambua tena watu na mashine. Lakini kilichotushangaza ni rundo la makala kuhusu kuhesabu umati, zote kutoka Uchina.

Mabango Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019
Lakini Facebook, kinyume chake, inaficha picha hiyo. Na hufanya hivi kwa njia ya kuvutia: inafunza mtandao wa neva ili kutoa uso bila maelezo ya kipekee - sawa, lakini sio sawa kwamba inaweza kutambuliwa kwa usahihi na mifumo ya utambuzi wa uso.

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Ulinzi dhidi ya mashambulizi ya wapinzani

Pamoja na maendeleo ya maombi ya maono ya kompyuta katika ulimwengu wa kweli (katika magari ya kujitegemea, katika utambuzi wa uso), swali la kuaminika kwa mifumo hiyo inazidi kutokea. Ili kutumia CV kikamilifu, unahitaji kuwa na uhakika kwamba mfumo unastahimili mashambulizi ya maadui - ndiyo maana hapakuwa na makala chache kuhusu ulinzi dhidi yao kuliko kuhusu mashambulizi yenyewe. Kumekuwa na kazi nyingi ya kuelezea utabiri wa mtandao (ramani ya saliency) na kupima imani katika matokeo.

Kazi zilizojumuishwa

Katika kazi nyingi zenye lengo moja, uwezekano wa kuboresha ubora umekamilika; mojawapo ya maelekezo mapya ya kuongeza ubora zaidi ni kufundisha mitandao ya neva kutatua matatizo kadhaa yanayofanana kwa wakati mmoja. Mifano:
- utabiri wa hatua + utabiri wa mtiririko wa macho,
- uwasilishaji wa video + uwasilishaji wa lugha (VideoBERT),
- super-azimio + HDR.

Pia kuna makala juu ya mgawanyiko, uamuzi wa pose na utambulisho upya wa wanyama!

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Vivutio

Karibu nakala zote zilijulikana mapema, maandishi yalipatikana kwenye arXiv.org. Kwa hivyo, uwasilishaji wa kazi kama vile Everybody Dance Now, FUNIT, Image2StyleGAN inaonekana kuwa ya kushangaza - hizi ni kazi muhimu sana, lakini sio mpya. Inaonekana kwamba mchakato wa kitamaduni wa machapisho ya kisayansi unavunjika hapa - sayansi inakwenda haraka sana.

Ni vigumu sana kuamua kazi bora - kuna wengi wao, masomo ni tofauti. Makala kadhaa yamepokelewa tuzo na kutajwa.

Tunataka kuangazia kazi ambazo zinavutia kutoka kwa mtazamo wa upotoshaji wa picha, kwani hii ndio mada yetu. Waligeuka kuwa safi kabisa na ya kuvutia kwetu (hatujifanya kuwa na malengo).

SinGAN (tuzo bora ya karatasi) na InGAN

SinGAN: ukurasa wa mradi, arXiv, code.
INGAN: ukurasa wa mradi, arXiv, code.

Maendeleo ya Picha ya Kina Wazo la awali kutoka kwa Dmitry Ulyanov, Andrea Vedaldi na Victor Lempitsky. Badala ya kufundisha GAN kwenye mkusanyiko wa data, mitandao hujifunza kutoka kwa vipande vya picha sawa ili kukumbuka takwimu zilizo ndani yake. Mtandao uliofunzwa hukuruhusu kuhariri na kuhuisha picha (SinGAN) au kutoa picha mpya za ukubwa wowote kutoka kwa maumbo ya picha asili, kuhifadhi muundo wa ndani (InGAN).

SinGAN:

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

INGAN:

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Kuona Nini GAN Haiwezi Kuzalisha

Ukurasa wa mradi.

Mitandao ya neva ambayo hutoa picha mara nyingi huchukua vekta ya kelele nasibu kama ingizo. Katika mtandao wa mafunzo, vectors nyingi za pembejeo huunda nafasi, harakati ndogo ambazo husababisha mabadiliko madogo kwenye picha. Kwa kutumia uboreshaji, unaweza kutatua tatizo kinyume: pata vekta ya pembejeo inayofaa kwa picha kutoka kwa ulimwengu halisi. Mwandishi anaonyesha kuwa karibu haiwezekani kupata picha inayolingana kabisa kwenye mtandao wa neva. Vitu vingine kwenye picha havijazalishwa (inaonekana kutokana na tofauti kubwa ya vitu hivi).

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Mwandishi anakisia kuwa GAN haitoi nafasi nzima ya picha, lakini ni sehemu ndogo tu, iliyojaa mashimo, kama jibini. Tunapojaribu kupata picha kutoka kwa ulimwengu wa kweli ndani yake, tutashindwa kila wakati, kwa sababu GAN bado haitoi picha halisi kabisa. Tofauti kati ya picha halisi na zinazozalishwa zinaweza kushinda tu kwa kubadilisha uzito wa mtandao, yaani, kwa kuifanya tena kwa picha maalum.

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Wakati mtandao umefunzwa zaidi kwa picha maalum, unaweza kujaribu udanganyifu mbalimbali na picha hii. Katika mfano hapa chini, dirisha liliongezwa kwenye picha, na mtandao ulizalisha tafakari kwenye kitengo cha jikoni. Hii inamaanisha kuwa mtandao, hata baada ya mafunzo ya ziada ya upigaji picha, haukupoteza uwezo wa kuona uhusiano kati ya vitu kwenye eneo la tukio.

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

GNalyze: Kuelekea Ufafanuzi Unaoonekana wa Sifa za Utambuzi wa Picha

Ukurasa wa mradi, arXiv.

Kwa kutumia mbinu kutoka kwa kazi hii, unaweza kuibua na kuchambua kile ambacho mtandao wa neva umejifunza. Waandishi wanapendekeza kutoa mafunzo kwa GAN kuunda picha ambazo mtandao utatoa ubashiri maalum. Nakala hiyo ilitumia mitandao kadhaa kama mifano, pamoja na MemNet, ambayo inatabiri kukumbukwa kwa picha. Ilibadilika kuwa kwa kukumbukwa bora, kitu kwenye picha kinapaswa:

  • kuwa karibu na kituo hicho
  • kuwa na umbo la duara au mraba zaidi na muundo rahisi,
  • kuwa kwenye mandharinyuma sare,
  • vyenye macho ya kuelezea (angalau kwa picha za mbwa),
  • kuwa mkali, iliyojaa zaidi, katika baadhi ya matukio, nyekundu.

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Liquid Warping GAN: Mfumo Mmoja wa Kuiga Mwendo wa Binadamu, Uhamisho wa Mwonekano na Usanifu wa Mtazamo wa Riwaya

Ukurasa wa mradi, arXiv, code.

Bomba la kutengeneza picha za watu picha moja kwa wakati mmoja. Waandishi wanaonyesha mifano ya mafanikio ya kuhamisha harakati ya mtu mmoja hadi mwingine, kuhamisha nguo kati ya watu na kuzalisha pembe mpya za mtu - wote kutoka kwa picha moja. Tofauti na kazi za awali, hapa hatutumii pointi muhimu katika 2D (pose), lakini mesh ya 3D ya mwili (pose + sura) ili kuunda hali. Waandishi pia walifikiria jinsi ya kuhamisha habari kutoka kwa picha asili hadi iliyotengenezwa (Liquid Warping Block). Matokeo yanaonekana ya heshima, lakini azimio la picha inayosababisha ni 256x256 tu. Kwa kulinganisha, vid2vid, ambayo ilionekana mwaka mmoja uliopita, ina uwezo wa kuzalisha katika azimio la 2048x1024, lakini inahitaji hadi dakika 10 za kurekodi video kama mkusanyiko wa data.

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

FSGAN: Ubadilishanaji wa Uso wa Agnostic na Uigizaji wa Mada

Ukurasa wa mradi, arXiv.

Mara ya kwanza inaonekana kwamba hakuna kitu cha kawaida: kina kirefu na ubora zaidi au chini ya kawaida. Lakini mafanikio kuu ya kazi ni uingizwaji wa nyuso kutoka kwa picha moja. Tofauti na kazi za awali, mafunzo yalihitajika kwenye picha nyingi za mtu fulani. Bomba hilo liligeuka kuwa gumu (uigizaji upya na mgawanyiko, tafsiri ya mtazamo, uchoraji, mchanganyiko) na hacks nyingi za kiufundi, lakini matokeo yake yanafaa.

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Kugundua Yasiyotarajiwa kupitia Usanifu wa Picha

arXiv.

Drone inawezaje kuelewa kuwa kitu kimetokea ghafla mbele yake ambacho hakiingii katika darasa lolote la semantic? Kuna njia kadhaa, lakini waandishi wanapendekeza algorithm mpya, angavu ambayo inafanya kazi vizuri zaidi kuliko watangulizi wake. Ugawaji wa kisemantiki unatabiriwa kutoka kwa taswira ya barabara ingizo. Hulishwa kama ingizo kwa GAN (pix2pixHD), ambayo inajaribu kurejesha picha asili kutoka kwa ramani ya kisemantiki pekee. Makosa ambayo hayaanguki katika sehemu yoyote yatatofautiana sana katika matokeo na picha inayozalishwa. Picha hizo tatu (asili, mgawanyiko, na kuundwa upya) kisha huwekwa kwenye mtandao mwingine unaotabiri hitilafu. Seti ya data ya hii ilitolewa kutoka kwa mkusanyiko wa data unaojulikana wa Cityscapes, ikibadilisha nasibu madarasa kwenye sehemu za kisemantiki. Inashangaza, katika mpangilio huu, mbwa amesimama katikati ya barabara, lakini amegawanywa kwa usahihi (ambayo ina maana kwamba kuna darasa kwa ajili yake), sio shida, kwani mfumo uliweza kuitambua.

Mitindo ya maono ya kompyuta. Vivutio vya ICCV 2019

Hitimisho

Kabla ya mkutano huo, ni muhimu kujua ni nini maslahi yako ya kisayansi ni, ni maonyesho gani ungependa kuhudhuria, na nani wa kuzungumza naye. Kisha kila kitu kitakuwa na tija zaidi.

ICCV ni, kwanza kabisa, mitandao. Unaelewa kuwa kuna taasisi za juu na idara za juu za kisayansi, unaanza kuelewa hili, pata kujua watu. Na unaweza kusoma nakala kwenye arXiv - na kwa njia, ni nzuri sana kwamba sio lazima uende popote kupata maarifa.

Kwa kuongeza, katika mkutano huo unaweza kupiga mbizi kwa undani katika mada ambazo haziko karibu na wewe na kuona mwenendo. Naam, andika orodha ya makala za kusoma. Ikiwa wewe ni mwanafunzi, hii ni fursa kwako kukutana na mwalimu anayeweza, ikiwa unatoka kwenye tasnia, basi na mwajiri mpya, na ikiwa kampuni, basi ujionyeshe.

Jiandikishe kwa @loss_function_porn! Huu ni mradi wa kibinafsi: tunauongoza pamoja karuka. Tulichapisha kazi zote tulizopenda wakati wa mkutano hapa: @loss_function_live.

Chanzo: mapenzi.com

Kuongeza maoni