Mitandao ya Neural katika maono ya kompyuta inakua kikamilifu, shida nyingi bado hazijatatuliwa. Ili kuwa maarufu katika uwanja wako, fuata tu wanaoshawishi kwenye Twitter na usome makala muhimu kwenye arXiv.org. Lakini tulipata fursa ya kwenda kwenye Mkutano wa Kimataifa wa Dira ya Kompyuta (ICCV) 2019. Mwaka huu unafanyika Korea Kusini. Sasa tunataka kushiriki na wasomaji wa Habr kile tulichoona na kujifunza.
Kulikuwa na wengi wetu huko kutoka kwa Yandex: watengenezaji wa magari ya kujiendesha, watafiti, na wale wanaohusika na kazi za CV katika huduma walikuja. Lakini sasa tunataka kuwasilisha mtazamo wa chini kidogo wa timu yetu - Maabara ya Ujasusi wa Mashine (Yandex MILAB). Vijana wengine labda walitazama mkutano kutoka kwa mtazamo wao.
Je, maabara hufanya nini?Tunafanya miradi ya majaribio inayohusiana na utengenezaji wa picha na muziki kwa madhumuni ya burudani. Tunavutiwa sana na mitandao ya neural ambayo hukuruhusu kubadilisha yaliyomo kutoka kwa mtumiaji (kwa picha, kazi hii inaitwa upotoshaji wa picha).
Kuna mikutano mingi ya kisayansi, lakini yale ya juu yanajitokeza, inayoitwa mikutano ya A *, ambapo makala juu ya teknolojia ya kuvutia zaidi na muhimu huchapishwa kwa kawaida. Hakuna orodha kamili ya mikutano ya A*, hii hapa ni orodha ya makadirio na ambayo haijakamilika: NeurIPS (zamani NIPS), ICML, SGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Watatu wa mwisho wamebobea katika mada ya CV.
ICCV kwa mtazamo: mabango, mafunzo, warsha, stendi
Mkutano huo ulipokea karatasi 1075, kulikuwa na washiriki 7500. Watu 103 walikuja kutoka Urusi, kulikuwa na makala kutoka kwa wafanyakazi wa Yandex, Skoltech, Samsung AI Center Moscow na Chuo Kikuu cha Samara. Mwaka huu, sio watafiti wengi wa juu waliotembelea ICCV, lakini, kwa mfano, Alexey (Alyosha) Efros, ambaye huwavutia watu wengi kila wakati:
takwimu
Katika mikutano yote kama hii, nakala zinawasilishwa kwa njia ya mabango (
Hapa kuna baadhi ya kazi kutoka Urusi
Ukiwa na mafunzo unaweza kupiga mbizi katika eneo fulani la somo; ni ukumbusho wa mhadhara katika chuo kikuu. Inasomwa na mtu mmoja, kwa kawaida bila kuzungumza juu ya kazi maalum. Mfano wa mafunzo mazuri (
Katika warsha, kinyume chake, wanazungumza kuhusu makala. Kawaida hizi ni kazi katika mada finyu, hadithi kutoka kwa wakuu wa maabara kuhusu kazi zote za hivi punde za wanafunzi, au nakala ambazo hazikukubaliwa kwa mkutano mkuu.
Kampuni zinazofadhili huja kwa ICCV na stendi. Mwaka huu, Google, Facebook, Amazon na makampuni mengine mengi ya kimataifa yalikuja, pamoja na idadi kubwa ya startups - Kikorea na Kichina. Kulikuwa na uanzishaji mwingi ambao ulibobea katika kuweka lebo data. Kuna maonyesho kwenye stendi, unaweza kuchukua bidhaa na kuuliza maswali. Kwa madhumuni ya uwindaji, makampuni ya kufadhili yana vyama. Unaweza kuingia ndani yao ikiwa utawashawishi waajiri kuwa una nia na kwamba unaweza kupitisha mahojiano. Ikiwa umechapisha makala (au, zaidi ya hayo, uliwasilisha), ulianza au unamaliza PhD, hii ni pamoja na, lakini wakati mwingine unaweza kujadiliana kwenye msimamo kwa kuuliza maswali ya kuvutia kwa wahandisi wa kampuni.
Mwelekeo
Mkutano hukuruhusu kutazama uwanja mzima wa CV. Kwa idadi ya mabango kwenye mada fulani, unaweza kutathmini jinsi mada ni moto. Baadhi ya hitimisho hujipendekeza kulingana na maneno muhimu:
Kupiga sifuri, risasi moja, risasi chache, kujisimamia na kusimamiwa nusu: mbinu mpya za kazi zilizosomwa kwa muda mrefu.
Watu wanajifunza kutumia data kwa ufanisi zaidi. Kwa mfano, katika
3D na 360Β°
Matatizo ambayo mara nyingi yalitatuliwa kwa picha (segmentation, kugundua) yanahitaji utafiti wa ziada kwa miundo ya 3D na video za panoramiki. Tumeona nakala nyingi za kubadilisha RGB na RGB-D hadi 3D. Baadhi ya matatizo, kama vile ukadiriaji wa mkao wa binadamu, yanaweza kutatuliwa kwa njia ya kawaida zaidi kwa kuhamia miundo ya 3D. Lakini hakuna makubaliano bado juu ya jinsi ya kuwakilisha mifano ya XNUMXD - kwa namna ya mesh, wingu la uhakika, voxels au SDF. Hapa kuna chaguo jingine:
Katika panorama, mizunguko kwenye tufe inakua kwa bidii (ona.
Ugunduzi wa pose na utabiri wa harakati za binadamu
Tayari kumekuwa na maendeleo katika utambuzi wa pozi katika 2D - sasa mkazo umeelekezwa kwenye kufanya kazi na kamera nyingi na katika 3D. Inawezekana pia, kwa mfano, kugundua mifupa kupitia ukuta kwa kufuatilia mabadiliko katika ishara ya Wi-Fi inapopita kwenye mwili wa mwanadamu.
Kazi kubwa imefanywa katika uwanja wa kugundua vitu muhimu vya mkono. Seti mpya za data zimeonekana, zikiwemo zile zinazotokana na video za mazungumzo kati ya watu wawili - sasa unaweza kutabiri ishara za mkono kutoka kwa sauti au maandishi ya mazungumzo! Maendeleo sawa yamefanywa katika kazi za ufuatiliaji wa macho (makadirio ya kutazama).
Mtu anaweza pia kutambua kundi kubwa la kazi zinazohusiana na utabiri wa harakati za binadamu (kwa mfano,
Udanganyifu na watu katika picha na video, vyumba vya kutoshea mtandaoni
Mwelekeo kuu ni kubadilisha picha za uso kulingana na vigezo vinavyoweza kufasiriwa. Mawazo: deepfake kulingana na picha moja, kubadilisha usemi kulingana na utoaji wa uso (
Kizazi kutoka kwa michoro/grafu
Ukuzaji wa wazo "Acha gridi itengeneze kitu kulingana na uzoefu wa awali" ikawa nyingine: "Hebu tuonyeshe gridi ya taifa ni chaguo gani linatuvutia."
Moja ya vifungu 25 vya Adobe vya ICCV vinachanganya GAN mbili: moja inakamilisha mchoro kwa mtumiaji, nyingine hutoa picha halisi kutoka kwa mchoro (
Hapo awali, grafu hazikuhitajika katika kizazi cha picha, lakini sasa zimefanywa chombo cha ujuzi kuhusu eneo hilo. Tuzo ya Karatasi Bora ya Kutajwa kwa Heshima kulingana na matokeo ya ICCV pia ilishinda na makala
Utambulisho upya wa watu na magari, kuhesabu ukubwa wa umati (!)
Nakala nyingi zimejitolea kufuatilia watu na kuwatambua tena watu na mashine. Lakini kilichotushangaza ni rundo la makala kuhusu kuhesabu umati, zote kutoka Uchina.
Mabango
Lakini Facebook, kinyume chake, inaficha picha hiyo. Na hufanya hivi kwa njia ya kuvutia: inafunza mtandao wa neva ili kutoa uso bila maelezo ya kipekee - sawa, lakini sio sawa kwamba inaweza kutambuliwa kwa usahihi na mifumo ya utambuzi wa uso.
Ulinzi dhidi ya mashambulizi ya wapinzani
Pamoja na maendeleo ya maombi ya maono ya kompyuta katika ulimwengu wa kweli (katika magari ya kujitegemea, katika utambuzi wa uso), swali la kuaminika kwa mifumo hiyo inazidi kutokea. Ili kutumia CV kikamilifu, unahitaji kuwa na uhakika kwamba mfumo unastahimili mashambulizi ya maadui - ndiyo maana hapakuwa na makala chache kuhusu ulinzi dhidi yao kuliko kuhusu mashambulizi yenyewe. Kumekuwa na kazi nyingi ya kuelezea utabiri wa mtandao (ramani ya saliency) na kupima imani katika matokeo.
Kazi zilizojumuishwa
Katika kazi nyingi zenye lengo moja, uwezekano wa kuboresha ubora umekamilika; mojawapo ya maelekezo mapya ya kuongeza ubora zaidi ni kufundisha mitandao ya neva kutatua matatizo kadhaa yanayofanana kwa wakati mmoja. Mifano:
- utabiri wa hatua + utabiri wa mtiririko wa macho,
- uwasilishaji wa video + uwasilishaji wa lugha (
-
Pia kuna makala juu ya mgawanyiko, uamuzi wa pose na utambulisho upya wa wanyama!
Vivutio
Karibu nakala zote zilijulikana mapema, maandishi yalipatikana kwenye arXiv.org. Kwa hivyo, uwasilishaji wa kazi kama vile Everybody Dance Now, FUNIT, Image2StyleGAN inaonekana kuwa ya kushangaza - hizi ni kazi muhimu sana, lakini sio mpya. Inaonekana kwamba mchakato wa kitamaduni wa machapisho ya kisayansi unavunjika hapa - sayansi inakwenda haraka sana.
Ni vigumu sana kuamua kazi bora - kuna wengi wao, masomo ni tofauti. Makala kadhaa yamepokelewa
Tunataka kuangazia kazi ambazo zinavutia kutoka kwa mtazamo wa upotoshaji wa picha, kwani hii ndio mada yetu. Waligeuka kuwa safi kabisa na ya kuvutia kwetu (hatujifanya kuwa na malengo).
SinGAN (tuzo bora ya karatasi) na InGAN
SinGAN:
INGAN:
Maendeleo ya Picha ya Kina Wazo la awali kutoka kwa Dmitry Ulyanov, Andrea Vedaldi na Victor Lempitsky. Badala ya kufundisha GAN kwenye mkusanyiko wa data, mitandao hujifunza kutoka kwa vipande vya picha sawa ili kukumbuka takwimu zilizo ndani yake. Mtandao uliofunzwa hukuruhusu kuhariri na kuhuisha picha (SinGAN) au kutoa picha mpya za ukubwa wowote kutoka kwa maumbo ya picha asili, kuhifadhi muundo wa ndani (InGAN).
SinGAN:
INGAN:
Kuona Nini GAN Haiwezi Kuzalisha
Mitandao ya neva ambayo hutoa picha mara nyingi huchukua vekta ya kelele nasibu kama ingizo. Katika mtandao wa mafunzo, vectors nyingi za pembejeo huunda nafasi, harakati ndogo ambazo husababisha mabadiliko madogo kwenye picha. Kwa kutumia uboreshaji, unaweza kutatua tatizo kinyume: pata vekta ya pembejeo inayofaa kwa picha kutoka kwa ulimwengu halisi. Mwandishi anaonyesha kuwa karibu haiwezekani kupata picha inayolingana kabisa kwenye mtandao wa neva. Vitu vingine kwenye picha havijazalishwa (inaonekana kutokana na tofauti kubwa ya vitu hivi).
Mwandishi anakisia kuwa GAN haitoi nafasi nzima ya picha, lakini ni sehemu ndogo tu, iliyojaa mashimo, kama jibini. Tunapojaribu kupata picha kutoka kwa ulimwengu wa kweli ndani yake, tutashindwa kila wakati, kwa sababu GAN bado haitoi picha halisi kabisa. Tofauti kati ya picha halisi na zinazozalishwa zinaweza kushinda tu kwa kubadilisha uzito wa mtandao, yaani, kwa kuifanya tena kwa picha maalum.
Wakati mtandao umefunzwa zaidi kwa picha maalum, unaweza kujaribu udanganyifu mbalimbali na picha hii. Katika mfano hapa chini, dirisha liliongezwa kwenye picha, na mtandao ulizalisha tafakari kwenye kitengo cha jikoni. Hii inamaanisha kuwa mtandao, hata baada ya mafunzo ya ziada ya upigaji picha, haukupoteza uwezo wa kuona uhusiano kati ya vitu kwenye eneo la tukio.
GNalyze: Kuelekea Ufafanuzi Unaoonekana wa Sifa za Utambuzi wa Picha
Kwa kutumia mbinu kutoka kwa kazi hii, unaweza kuibua na kuchambua kile ambacho mtandao wa neva umejifunza. Waandishi wanapendekeza kutoa mafunzo kwa GAN kuunda picha ambazo mtandao utatoa ubashiri maalum. Nakala hiyo ilitumia mitandao kadhaa kama mifano, pamoja na MemNet, ambayo inatabiri kukumbukwa kwa picha. Ilibadilika kuwa kwa kukumbukwa bora, kitu kwenye picha kinapaswa:
- kuwa karibu na kituo hicho
- kuwa na umbo la duara au mraba zaidi na muundo rahisi,
- kuwa kwenye mandharinyuma sare,
- vyenye macho ya kuelezea (angalau kwa picha za mbwa),
- kuwa mkali, iliyojaa zaidi, katika baadhi ya matukio, nyekundu.
Liquid Warping GAN: Mfumo Mmoja wa Kuiga Mwendo wa Binadamu, Uhamisho wa Mwonekano na Usanifu wa Mtazamo wa Riwaya
Bomba la kutengeneza picha za watu picha moja kwa wakati mmoja. Waandishi wanaonyesha mifano ya mafanikio ya kuhamisha harakati ya mtu mmoja hadi mwingine, kuhamisha nguo kati ya watu na kuzalisha pembe mpya za mtu - wote kutoka kwa picha moja. Tofauti na kazi za awali, hapa hatutumii pointi muhimu katika 2D (pose), lakini mesh ya 3D ya mwili (pose + sura) ili kuunda hali. Waandishi pia walifikiria jinsi ya kuhamisha habari kutoka kwa picha asili hadi iliyotengenezwa (Liquid Warping Block). Matokeo yanaonekana ya heshima, lakini azimio la picha inayosababisha ni 256x256 tu. Kwa kulinganisha, vid2vid, ambayo ilionekana mwaka mmoja uliopita, ina uwezo wa kuzalisha katika azimio la 2048x1024, lakini inahitaji hadi dakika 10 za kurekodi video kama mkusanyiko wa data.
FSGAN: Ubadilishanaji wa Uso wa Agnostic na Uigizaji wa Mada
Mara ya kwanza inaonekana kwamba hakuna kitu cha kawaida: kina kirefu na ubora zaidi au chini ya kawaida. Lakini mafanikio kuu ya kazi ni uingizwaji wa nyuso kutoka kwa picha moja. Tofauti na kazi za awali, mafunzo yalihitajika kwenye picha nyingi za mtu fulani. Bomba hilo liligeuka kuwa gumu (uigizaji upya na mgawanyiko, tafsiri ya mtazamo, uchoraji, mchanganyiko) na hacks nyingi za kiufundi, lakini matokeo yake yanafaa.
Kugundua Yasiyotarajiwa kupitia Usanifu wa Picha
Drone inawezaje kuelewa kuwa kitu kimetokea ghafla mbele yake ambacho hakiingii katika darasa lolote la semantic? Kuna njia kadhaa, lakini waandishi wanapendekeza algorithm mpya, angavu ambayo inafanya kazi vizuri zaidi kuliko watangulizi wake. Ugawaji wa kisemantiki unatabiriwa kutoka kwa taswira ya barabara ingizo. Hulishwa kama ingizo kwa GAN (pix2pixHD), ambayo inajaribu kurejesha picha asili kutoka kwa ramani ya kisemantiki pekee. Makosa ambayo hayaanguki katika sehemu yoyote yatatofautiana sana katika matokeo na picha inayozalishwa. Picha hizo tatu (asili, mgawanyiko, na kuundwa upya) kisha huwekwa kwenye mtandao mwingine unaotabiri hitilafu. Seti ya data ya hii ilitolewa kutoka kwa mkusanyiko wa data unaojulikana wa Cityscapes, ikibadilisha nasibu madarasa kwenye sehemu za kisemantiki. Inashangaza, katika mpangilio huu, mbwa amesimama katikati ya barabara, lakini amegawanywa kwa usahihi (ambayo ina maana kwamba kuna darasa kwa ajili yake), sio shida, kwani mfumo uliweza kuitambua.
Hitimisho
Kabla ya mkutano huo, ni muhimu kujua ni nini maslahi yako ya kisayansi ni, ni maonyesho gani ungependa kuhudhuria, na nani wa kuzungumza naye. Kisha kila kitu kitakuwa na tija zaidi.
ICCV ni, kwanza kabisa, mitandao. Unaelewa kuwa kuna taasisi za juu na idara za juu za kisayansi, unaanza kuelewa hili, pata kujua watu. Na unaweza kusoma nakala kwenye arXiv - na kwa njia, ni nzuri sana kwamba sio lazima uende popote kupata maarifa.
Kwa kuongeza, katika mkutano huo unaweza kupiga mbizi kwa undani katika mada ambazo haziko karibu na wewe na kuona mwenendo. Naam, andika orodha ya makala za kusoma. Ikiwa wewe ni mwanafunzi, hii ni fursa kwako kukutana na mwalimu anayeweza, ikiwa unatoka kwenye tasnia, basi na mwajiri mpya, na ikiwa kampuni, basi ujionyeshe.
Jiandikishe kwa
Chanzo: mapenzi.com