
Համակարգչային տեսողության նեյրոնային ցանցերը ակտիվորեն զարգանում են, շատ խնդիրներ դեռ հեռու են լուծելուց։ Ձեր ոլորտում թրենդային լինելու համար պարզապես հետևեք ազդեցիկներին Twitter-ում և կարդացեք համապատասխան հոդվածներ arXiv.org-ում: Բայց մենք հնարավորություն ունեցանք գնալ Համակարգչային տեսլականի միջազգային կոնֆերանսին (ICCV) 2019: Այս տարի այն անցկացվում է Հարավային Կորեայում: Այժմ մենք ցանկանում ենք կիսվել Habr-ի ընթերցողների հետ, թե ինչ տեսանք և սովորեցինք:
Այնտեղ շատ էինք Yandex-ից. եկել էին ինքնակառավարվող մեքենաների մշակողները, հետազոտողները և ծառայություններում CV-ի առաջադրանքներով զբաղվողները: Բայց հիմա մենք ուզում ենք ներկայացնել մեր թիմի մի փոքր սուբյեկտիվ տեսակետ՝ Մեքենաների հետախուզության լաբորատորիա (Yandex MILAB): Մյուս տղաները, հավանաբար, համաժողովին նայեցին իրենց տեսանկյունից:
Ի՞նչ է անում լաբորատորիան:Կատարում ենք էքսպերիմենտալ նախագծեր՝ կապված պատկերների և երաժշտության ստեղծման հետ՝ ժամանցային նպատակներով։ Մեզ հատկապես հետաքրքրում են նեյրոնային ցանցերը, որոնք թույլ են տալիս փոխել օգտատիրոջ բովանդակությունը (լուսանկարների համար այս առաջադրանքը կոչվում է պատկերի մանիպուլյացիա): YaC 2019 կոնֆերանսի մեր աշխատանքի արդյունքը:
Գիտական կոնֆերանսները շատ են, բայց առանձնանում են լավագույնները, այսպես կոչված, A* կոնֆերանսները, որտեղ սովորաբար հրապարակվում են հոդվածներ ամենահետաքրքիր ու կարևոր տեխնոլոգիաների մասին։ A* կոնֆերանսների ճշգրիտ ցուցակ չկա, ահա մոտավոր և թերի ցուցակ՝ NeurIPS (նախկինում՝ NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV: Վերջին երեքը մասնագիտացած են CV-ի թեմայում։
ICCV-ն հայացքից՝ պաստառներ, ձեռնարկներ, սեմինարներ, ստենդեր
Համաժողովին ստացվել է 1075 զեկուցում, 7500 մասնակից է եկել Ռուսաստանից, հոդվածներ են եղել Yandex-ի, Skoltech-ի, Samsung AI Center-ի և Սամարայի համալսարանի աշխատակիցներից։ Այս տարի ոչ շատ առաջատար հետազոտողներ են այցելել ICCV, այլ, օրինակ, Ալեքսեյ (Ալյոշա) Էֆրոսը, ով միշտ գրավում է շատ մարդկանց.

Վիճակագրություն 




Բոլոր նման կոնֆերանսներում հոդվածները ներկայացվում են պաստառների տեսքով ( ձևաչափի մասին), իսկ լավագույնները ներկայացված են նաև կարճ զեկույցների տեսքով։
Ահա մի քանի աշխատանքները Ռուսաստանից 


Դասընթացների միջոցով դուք կարող եք սուզվել որոշակի առարկայի մեջ, դա հիշեցնում է դասախոսություն համալսարանում: Այն կարդում է մեկ հոգի, սովորաբար առանց կոնկրետ ստեղծագործությունների մասին խոսելու։ Զովացուցիչ ձեռնարկի օրինակ ():

Սեմինարներում, ընդհակառակը, խոսում են հոդվածների մասին։ Սովորաբար դրանք ինչ-որ նեղ թեմայով աշխատանքներ են, լաբորատորիայի ղեկավարների պատմություններ ուսանողների բոլոր վերջին աշխատանքների մասին կամ հոդվածներ, որոնք չեն ընդունվել հիմնական գիտաժողովին:
Հովանավոր ընկերությունները ICCV են գալիս ստենդներով: Այս տարի եկել են Google-ը, Facebook-ը, Amazon-ը և բազմաթիվ այլ միջազգային ընկերություններ, ինչպես նաև մեծ թվով ստարտափներ՝ կորեական և չինական։ Հատկապես շատ ստարտափներ կային, որոնք մասնագիտացած էին տվյալների հատկորոշման մեջ: Տրիբունաներում ներկայացումներ են, կարող եք ապրանք վերցնել և հարցեր տալ: Որսորդական նպատակներով հովանավոր ընկերությունները խնջույքներ են անում։ Դուք կարող եք դրանց մեջ մտնել, եթե հավաքագրողներին համոզեք, որ դուք հետաքրքրված եք և որ կարող եք հարցազրույցներ անցնել: Եթե հոդված եք հրապարակել (կամ ավելին` ներկայացրել), սկսել եք կամ ավարտում եք ասպիրանտուրան, սա պլյուս է, բայց երբեմն կարող եք բանակցել ստենդի մոտ՝ հետաքրքիր հարցեր տալով ընկերության ինժեներներին:
Միտումները
Կոնֆերանսը թույլ է տալիս դիտել CV-ի ամբողջ դաշտը: Որոշակի թեմայի վերաբերյալ պաստառների քանակով կարող եք գնահատել, թե որքանով է թեժ թեման: Որոշ եզրակացություններ առաջարկվում են հիմնաբառերի հիման վրա.

Զրոյական կրակոց, մեկ կրակոց, մի քանի կրակոց, ինքնավերահսկվող և կիսավերահսկվող. երկար ուսումնասիրված առաջադրանքների նոր մոտեցումներ
Մարդիկ սովորում են ավելի արդյունավետ օգտագործել տվյալները: Օրինակ՝ մեջ հնարավոր է ստեղծել կենդանիների դեմքի արտահայտություններ, որոնք չեն եղել ուսուցման հավաքածուում (կիրառման մեջ՝ տրամադրելով մի քանի տեղեկատու նկարներ): Deep Image Prior-ի գաղափարները մշակվել են, և այժմ GAN ցանցերը կարող են վերապատրաստվել մեկ պատկերի վրա. մենք այս մասին կխոսենք ստորև: . Դուք կարող եք օգտագործել ինքնավերահսկումը նախնական պարապմունքների համար (խնդիր լուծելու համար, որի համար կարող եք սինթեզել համահունչ տվյալներ, օրինակ՝ նկարի պտտման անկյունը կանխատեսելը) կամ միաժամանակ սովորել պիտակավորված և չպիտակավորված տվյալներից: Այս առումով հոդվածը կարելի է համարել արարչագործության պսակ . Եվ ահա նախավարժանքը ImageNet-ում օգնում է.


3D և 360°
Խնդիրները, որոնք հիմնականում լուծվել են լուսանկարների համար (հատվածավորում, հայտնաբերում) պահանջում են լրացուցիչ հետազոտություն 3D մոդելների և համայնապատկերային տեսանյութերի համար։ Մենք տեսել ենք բազմաթիվ հոդվածներ RGB-ի և RGB-D-ի 3D-ի փոխակերպման վերաբերյալ: Որոշ խնդիրներ, ինչպիսիք են մարդու դիրքի գնահատումը, կարելի է ավելի բնական լուծել՝ անցնելով 3D մոդելներին: Սակայն դեռևս չկա կոնսենսուս այն մասին, թե կոնկրետ ինչպես ներկայացնել XNUMXD մոդելները՝ ցանցի, կետային ամպի, վոքսելների կամ SDF-ի տեսքով: Ահա ևս մեկ տարբերակ.

Համայնապատկերներում ակտիվորեն զարգանում են ոլորումներ ոլորտի վրա (տես. ) և որոնել հիմնական օբյեկտները շրջանակում:

Պոզերի հայտնաբերում և մարդու շարժման կանխատեսում
Արդեն առաջընթաց է գրանցվել 2D-ում կեցվածքի հայտնաբերման գործում. այժմ ուշադրությունը փոխվել է մի քանի տեսախցիկների և 3D-ի հետ աշխատելու վրա: Հնարավոր է նաև, օրինակ, կմախքը հայտնաբերել պատի միջով՝ հետևելով Wi-Fi ազդանշանի փոփոխություններին, երբ այն անցնում է մարդու մարմնով:
Մեծ աշխատանք է կատարվել ձեռքի բանալիների հայտնաբերման ոլորտում: Հայտնվել են տվյալների նոր հավաքածուներ, այդ թվում՝ երկու մարդկանց միջև երկխոսությունների տեսանյութերի հիման վրա: Այժմ դուք կարող եք կանխատեսել ձեռքի շարժումները զրույցի աուդիո կամ տեքստից: Նույն առաջընթացն արձանագրվել է աչքի հետագծման առաջադրանքներում (նայվածքի գնահատում):


Կարելի է նաև բացահայտել մարդկային շարժման կանխատեսման հետ կապված աշխատանքների մեծ կլաստեր (օրինակ. կամ ). Առաջադրանքը կարևոր է և, հեղինակների հետ զրույցների հիման վրա, առավել հաճախ օգտագործվում է հետիոտների վարքագիծը վերլուծելու համար ինքնավար վարման ժամանակ:
Մարդկանց հետ մանիպուլյացիաներ լուսանկարներում և տեսանյութերում, վիրտուալ կցամասերում
Հիմնական միտումը դեմքի պատկերները փոխելն է՝ ըստ մեկնաբանելի պարամետրերի: Գաղափարներ՝ մեկ նկարի վրա հիմնված խորը ֆեյք, դեմքի արտահայտման վրա հիմնված արտահայտությունների փոփոխություն (), առաջընթաց-փոխել պարամետրերը (օրինակ, ). Ոճային փոխանցումները թեմայի վերնագրից անցել են աշխատանքի կիրառման։ Վիրտուալ կցամասերը այլ պատմություն են, դրանք գրեթե միշտ վատ են աշխատում, դեմո.


Գեներացիա էսքիզներից/գրաֆիկներից
«Թող ցանցը նախկին փորձի հիման վրա ինչ-որ բան ստեղծի» գաղափարի զարգացումը դարձավ մեկ այլ՝ «Ցույց տանք ցանցին, թե որ տարբերակն է մեզ հետաքրքրում»:
թույլ է տալիս կատարել ուղղորդված ներկ.

ICCV-ի համար Adobe-ի 25 հոդվածներից մեկը միավորում է երկու GAN. մեկը լրացնում է ուրվագիծը օգտվողի համար, մյուսը ստեղծում է ֆոտոռեալիստական պատկեր էսքիզից ().

Նախկինում պատկերների ստեղծման համար գրաֆիկները անհրաժեշտ չէին, սակայն այժմ դրանք վերածվել են տեսարանի մասին գիտելիքների պարունակության: Հոդվածը շահել է նաև ICCV-ի արդյունքների հիման վրա «Լավագույն թղթե պատվավոր հիշատակումներ» մրցանակը . Ընդհանուր առմամբ, դուք կարող եք դրանք օգտագործել տարբեր ձևերով՝ նկարներից գծապատկերներ ստեղծել, կամ գրաֆիկներից նկարներ և տեքստեր:

Մարդկանց և մեքենաների վերանույնականացում՝ հաշվելով ամբոխի չափը (!)
Բազմաթիվ հոդվածներ նվիրված են մարդկանց հետևելուն և մարդկանց ու մեքենաներին վերահաստատելուն: Բայց մեզ զարմացրեց մի խումբ հոդվածներ ամբոխի հաշվման վերաբերյալ, բոլորը Չինաստանից:
Պաստառներ 




Բայց Ֆեյսբուքը, ընդհակառակը, անանունացնում է լուսանկարը։ Եվ դա անում է հետաքրքիր ձևով. այն մարզում է նեյրոնային ցանցը, որպեսզի գեներացնի դեմք առանց եզակի մանրամասների.

Պաշտպանություն հակառակորդի հարձակումներից
Իրական աշխարհում համակարգչային տեսողության հավելվածների զարգացման հետ մեկտեղ (ինքնակառավարվող մեքենաներում, դեմքի ճանաչման մեջ) գնալով ավելի է առաջանում նման համակարգերի հուսալիության հարցը: CV-ն ամբողջությամբ օգտագործելու համար դուք պետք է վստահ լինեք, որ համակարգը դիմացկուն է հակառակորդի հարձակումներին, այդ իսկ պատճառով դրանցից պաշտպանության մասին ոչ պակաս հոդվածներ կային, քան հենց հարձակումների մասին: Շատ աշխատանք է կատարվել ցանցային կանխատեսումների բացատրության (առանձնահատուկ քարտեզ) և արդյունքի նկատմամբ վստահությունը չափելու ուղղությամբ:
Համակցված առաջադրանքներ
Մեկ թիրախով առաջադրանքների մեծ մասում որակի բարելավման հնարավորությունները գործնականում սպառվում են որակի հետագա բարձրացման նոր ուղղություններից մեկը նեյրոնային ցանցերին միաժամանակ մի քանի նմանատիպ խնդիրներ լուծելու սովորեցնելը: Օրինակներ.
- գործողությունների կանխատեսում + օպտիկական հոսքի կանխատեսում,
— վիդեո ներկայացում + լեզվի ներկայացում (),
- .
Կան նաև հոդվածներ սեգմենտավորման, կեցվածքի որոշման և կենդանիների վերամիավորման վերաբերյալ:


Առանձնահատկություններ
Գրեթե բոլոր հոդվածները նախապես հայտնի էին, տեքստը հասանելի էր arXiv.org կայքում։ Հետևաբար, բոլորը Dance Now, FUNIT, Image2StyleGAN-ի նման աշխատանքների ներկայացումը բավականին տարօրինակ է թվում. դրանք շատ օգտակար գործեր են, բայց ոչ նոր։ Թվում է, թե գիտական հրապարակումների դասական գործընթացը խզվում է այստեղ՝ գիտությունը շատ արագ է շարժվում։
Լավագույն ստեղծագործությունները որոշելը շատ դժվար է՝ դրանք շատ են, առարկաները՝ տարբեր։ Ստացվել են մի քանի հոդվածներ .
Ուզում ենք առանձնացնել պատկերների մանիպուլյացիայի տեսանկյունից հետաքրքիր աշխատանքները, քանի որ սա մեր թեման է։ Դրանք բավականին թարմ ու հետաքրքիր ստացվեցին մեզ համար (մենք օբյեկտիվ չենք հավակնում)։
SinGAN (լավագույն թղթի մրցանակ) և InGAN
SingGAN: , , .
InGAN: , , .
Դմիտրի Ուլյանովի, Անդրեա Վեդալդիի և Վիկտոր Լեմպիցկիի խորը պատկերի առաջնային գաղափարի մշակում: Տվյալների բազայի վրա GAN-ը վարժեցնելու փոխարեն, ցանցերը սովորում են նույն նկարի հատվածներից, որպեսզի հիշեն դրա ներսում վիճակագրությունը: Վերապատրաստված ցանցը թույլ է տալիս խմբագրել և կենդանացնել լուսանկարները (SinGAN) կամ ստեղծել ցանկացած չափի նոր պատկերներ բնօրինակ պատկերի հյուսվածքներից՝ պահպանելով տեղական կառուցվածքը (InGAN):
SingGAN:

InGAN:

Տեսնելով, թե ինչ չի կարող ստեղծել GAN-ը
.
Նյարդային ցանցերը, որոնք ստեղծում են պատկերներ, հաճախ որպես մուտք են վերցնում պատահական աղմուկի վեկտորը: Վարժեցված ցանցում բազմաթիվ մուտքային վեկտորներ ձևավորում են տարածություն, փոքր շարժումներ, որոնց երկայնքով հանգեցնում են նկարի փոքր փոփոխությունների: Օպտիմիզացիայի օգնությամբ դուք կարող եք լուծել հակադարձ խնդիրը՝ գտնել համապատասխան մուտքային վեկտոր իրական աշխարհից նկարի համար: Հեղինակը ցույց է տալիս, որ նեյրոնային ցանցում գրեթե երբեք հնարավոր չէ գտնել լիովին համապատասխան պատկեր: Նկարում պատկերված որոշ օբյեկտներ չեն ստեղծվում (ըստ երևույթին, այս օբյեկտների մեծ փոփոխականության պատճառով):

Հեղինակը ենթադրում է, որ GAN-ն ընդգրկում է ոչ թե պատկերների ողջ տարածությունը, այլ միայն որոշ ենթաբազմություն, որոնք լցված են անցքերով, ինչպես պանիրը: Երբ մենք փորձում ենք այնտեղ իրական աշխարհից լուսանկարներ գտնել, մենք միշտ ձախողվելու ենք, քանի որ GAN-ը դեռևս ստեղծում է ոչ ամբողջովին իրական լուսանկարներ: Իրական և գեներացված նկարների տարբերությունները կարելի է հաղթահարել միայն ցանցի կշիռները փոխելով, այսինքն՝ վերապատրաստելով այն կոնկրետ լուսանկարի համար։

Երբ ցանցը լրացուցիչ վերապատրաստվում է կոնկրետ լուսանկարի համար, կարող եք փորձել տարբեր մանիպուլյացիաներ այս պատկերով։ Ստորև բերված օրինակում լուսանկարին ավելացվել է պատուհան, և ցանցը լրացուցիչ արտացոլումներ է առաջացրել խոհանոցի միավորի վրա: Սա նշանակում է, որ ցանցը, նույնիսկ լուսանկարչության համար լրացուցիչ ուսուցումից հետո, չի կորցրել տեսարանի օբյեկտների միջև կապը տեսնելու ունակությունը:

GANAlyze. Դեպի ճանաչողական պատկերի հատկությունների տեսողական սահմանումներ
, .
Օգտագործելով այս աշխատանքի մոտեցումը, դուք կարող եք պատկերացնել և վերլուծել այն, ինչ սովորել է նեյրոնային ցանցը: Հեղինակները առաջարկում են GAN-ին վարժեցնել նկարներ ստեղծելու համար, որոնց համար ցանցը կստեղծի որոշակի կանխատեսումներ։ Հոդվածում որպես օրինակ օգտագործվել են մի քանի ցանցեր, այդ թվում՝ MemNet-ը, որը կանխատեսում է լուսանկարների հիշարժանությունը։ Պարզվեց, որ ավելի լավ հիշելու համար լուսանկարի առարկան պետք է.
- ավելի մոտ լինել կենտրոնին
- ունեն ավելի կլոր կամ քառակուսի ձև և պարզ կառուցվածք,
- լինել միատարր ֆոնի վրա,
- պարունակում է արտահայտիչ աչքեր (գոնե շների լուսանկարների համար),
- լինել ավելի վառ, ավելի հագեցած, որոշ դեպքերում՝ ավելի կարմիր։

Liquid Warping GAN. մարդու շարժման իմիտացիայի, արտաքին տեսքի փոխանցման և նոր տեսքի սինթեզի միասնական շրջանակ
, , .
Խողովակաշար՝ մարդկանց լուսանկարները միանգամից մեկ լուսանկար ստեղծելու համար: Հեղինակները ցույց են տալիս մեկ մարդու շարժումը մյուսին փոխանցելու, հագուստը մարդկանց միջև փոխադրելու և մարդու նոր անկյուններ ստեղծելու հաջող օրինակներ՝ բոլորը մեկ լուսանկարից: Ի տարբերություն նախորդ աշխատանքների, այստեղ պայմաններ ստեղծելու համար մենք օգտագործում ենք ոչ թե առանցքային կետերը 2D-ում (պոզայում), այլ մարմնի 3D ցանցը (պոզ + ձև): Հեղինակները նաև պարզել են, թե ինչպես կարելի է տեղեկատվություն փոխանցել սկզբնական պատկերից գեներացված պատկերին (Liquid Warping Block): Արդյունքները պատշաճ տեսք ունեն, բայց ստացված պատկերի լուծումը ընդամենը 256x256 է: Համեմատության համար նշենք, որ vid2vid-ը, որը հայտնվեց մեկ տարի առաջ, ի վիճակի է 2048x1024 լուծաչափով գեներացնել, սակայն դրա համար անհրաժեշտ է 10 րոպե տեսագրություն՝ որպես տվյալների բազա։

FSGAN. Առարկայի ագնոստիկ դեմքի փոխանակում և վերարտադրում
, .
Սկզբում թվում է, որ ոչ մի արտասովոր բան չկա՝ քիչ թե շատ նորմալ որակով դիփֆեյք։ Բայց աշխատանքի գլխավոր ձեռքբերումը մեկ նկարից դեմքերի փոխարինումն է։ Ի տարբերություն նախորդ աշխատանքների, ուսուցումը պահանջվում էր կոնկրետ անձի բազմաթիվ լուսանկարների վրա: Խողովակաշարը բարդ էր (վերարտադրում և հատվածավորում, դիտումների ինտերպոլացիա, ներկում, միաձուլում) և բազմաթիվ տեխնիկական հաքերներով, բայց արդյունքն արժե այն:

Անսպասելիի հայտնաբերում պատկերի վերասինթեզի միջոցով
.
Ինչպե՞ս կարող է անօդաչու թռչող սարքը հասկանալ, որ իր դիմաց հանկարծ հայտնվել է մի առարկա, որը չի մտնում իմաստային հատվածավորման որևէ դասի: Կան մի քանի մեթոդներ, սակայն հեղինակներն առաջարկում են նոր, ինտուիտիվ ալգորիթմ, որն ավելի լավ է աշխատում, քան իր նախորդները: Իմաստային հատվածավորումը կանխատեսվում է մուտքային ճանապարհի պատկերից: Այն սնվում է որպես մուտքագրում GAN-ին (pix2pixHD), որը փորձում է վերականգնել բնօրինակ պատկերը միայն իմաստային քարտեզից: Անոմալիաները, որոնք չեն ընկնում սեգմենտներից որևէ մեկում, էականորեն կտարբերվեն ելքի և առաջացած պատկերի մեջ: Երեք պատկերները (բնօրինակ, հատվածավորում և վերակառուցված) այնուհետև սնվում են մեկ այլ ցանց, որը կանխատեսում է անոմալիաները: Դրա համար տվյալների հավաքածուն ստեղծվել է հայտնի Cityscapes տվյալների բազայից՝ պատահականորեն փոխելով իմաստային սեգմենտավորման դասերը: Հետաքրքիր է, որ այս պարամետրում ճանապարհի մեջտեղում կանգնած, բայց ճիշտ հատվածավորված շունը (ինչը նշանակում է, որ դրա համար դաս կա), անոմալիա չէ, քանի որ համակարգը կարողացել է ճանաչել այն:

Ամփոփում
Համաժողովից առաջ կարևոր է իմանալ, թե որոնք են ձեր գիտական հետաքրքրությունները, ինչ զեկուցումների կցանկանայիք մասնակցել և ում հետ խոսել: Այդ ժամանակ ամեն ինչ շատ ավելի արդյունավետ կլինի։
ICCV-ն, առաջին հերթին, ցանցային է: Հասկանում ես, որ կան բարձրակարգ ինստիտուտներ և բարձրագույն գիտական բաժիններ, սկսում ես դա հասկանալ, ճանաչել մարդկանց։ Եվ դուք կարող եք հոդվածներ կարդալ arXiv-ի մասին, և, ի դեպ, շատ լավ է, որ կարիք չկա որևէ տեղ գնալ գիտելիք ստանալու համար:
Բացի այդ, համաժողովում դուք կարող եք խորը սուզվել ձեզ ոչ հարազատ թեմաների մեջ և տեսնել միտումներ: Դե, գրեք կարդալու հոդվածների ցանկ: Եթե ուսանող ես, սա քեզ համար հնարավորություն է հանդիպելու պոտենցիալ ուսուցչի, եթե ոլորտից ես, ապա նոր գործատուի հետ, իսկ եթե ընկերություն, ապա քեզ ցույց տալու:
Բաժանորդագրվել ! Սա անձնական նախագիծ է. մենք այն ղեկավարում ենք միասին . Բոլոր աշխատանքները, որոնք մեզ դուր են եկել համաժողովի ընթացքում, մենք տեղադրել ենք այստեղ՝ .
Source: www.habr.com
