🥇Համակարգչային տեսողության միտումները. ICCV 2019 կարևորագույն կետեր

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Համակարգչային տեսողության նեյրոնային ցանցերը ակտիվորեն զարգանում են, շատ խնդիրներ դեռ հեռու են լուծելուց։ Ձեր ոլորտում թրենդային լինելու համար պարզապես հետևեք ազդեցիկներին Twitter-ում և կարդացեք համապատասխան հոդվածներ arXiv.org-ում: Բայց մենք հնարավորություն ունեցանք գնալ Համակարգչային տեսլականի միջազգային կոնֆերանսին (ICCV) 2019: Այս տարի այն անցկացվում է Հարավային Կորեայում: Այժմ մենք ցանկանում ենք կիսվել Habr-ի ընթերցողների հետ, թե ինչ տեսանք և սովորեցինք:

Այնտեղ շատ էինք Yandex-ից. եկել էին ինքնակառավարվող մեքենաների մշակողները, հետազոտողները և ծառայություններում CV-ի առաջադրանքներով զբաղվողները: Բայց հիմա մենք ուզում ենք ներկայացնել մեր թիմի մի փոքր սուբյեկտիվ տեսակետ՝ Մեքենաների հետախուզության լաբորատորիա (Yandex MILAB): Մյուս տղաները, հավանաբար, համաժողովին նայեցին իրենց տեսանկյունից:

Ի՞նչ է անում լաբորատորիան:Կատարում ենք էքսպերիմենտալ նախագծեր՝ կապված պատկերների և երաժշտության ստեղծման հետ՝ ժամանցային նպատակներով։ Մեզ հատկապես հետաքրքրում են նեյրոնային ցանցերը, որոնք թույլ են տալիս փոխել օգտատիրոջ բովանդակությունը (լուսանկարների համար այս առաջադրանքը կոչվում է պատկերի մանիպուլյացիա): Օրինակ YaC 2019 կոնֆերանսի մեր աշխատանքի արդյունքը:
Գիտական կոնֆերանսները շատ են, բայց առանձնանում են լավագույնները, այսպես կոչված, A* կոնֆերանսները, որտեղ սովորաբար հրապարակվում են հոդվածներ ամենահետաքրքիր ու կարևոր տեխնոլոգիաների մասին։ A* կոնֆերանսների ճշգրիտ ցուցակ չկա, ահա մոտավոր և թերի ցուցակ՝ NeurIPS (նախկինում՝ NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV: Վերջին երեքը մասնագիտացած են CV-ի թեմայում։

ICCV-ն հայացքից՝ պաստառներ, ձեռնարկներ, սեմինարներ, ստենդեր

Համաժողովին ստացվել է 1075 զեկուցում, 7500 մասնակից է եկել Ռուսաստանից, հոդվածներ են եղել Yandex-ի, Skoltech-ի, Samsung AI Center-ի և Սամարայի համալսարանի աշխատակիցներից։ Այս տարի ոչ շատ առաջատար հետազոտողներ են այցելել ICCV, այլ, օրինակ, Ալեքսեյ (Ալյոշա) Էֆրոսը, ով միշտ գրավում է շատ մարդկանց.

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Վիճակագրություն

Բոլոր նման կոնֆերանսներում հոդվածները ներկայացվում են պաստառների տեսքով (ավելի շատ ձևաչափի մասին), իսկ լավագույնները ներկայացված են նաև կարճ զեկույցների տեսքով։

Ահա մի քանի աշխատանքները Ռուսաստանից Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Դասընթացների միջոցով դուք կարող եք սուզվել որոշակի առարկայի մեջ, դա հիշեցնում է դասախոսություն համալսարանում: Այն կարդում է մեկ հոգի, սովորաբար առանց կոնկրետ ստեղծագործությունների մասին խոսելու։ Զովացուցիչ ձեռնարկի օրինակ (Մայքլ Բրաուն, Գույնը հասկանալը և տեսախցիկի պատկերի մշակման խողովակաշարը համակարգչային տեսողության համար):

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Սեմինարներում, ընդհակառակը, խոսում են հոդվածների մասին։ Սովորաբար դրանք ինչ-որ նեղ թեմայով աշխատանքներ են, լաբորատորիայի ղեկավարների պատմություններ ուսանողների բոլոր վերջին աշխատանքների մասին կամ հոդվածներ, որոնք չեն ընդունվել հիմնական գիտաժողովին:

Հովանավոր ընկերությունները ICCV են գալիս ստենդներով: Այս տարի եկել են Google-ը, Facebook-ը, Amazon-ը և բազմաթիվ այլ միջազգային ընկերություններ, ինչպես նաև մեծ թվով ստարտափներ՝ կորեական և չինական։ Հատկապես շատ ստարտափներ կային, որոնք մասնագիտացած էին տվյալների հատկորոշման մեջ: Տրիբունաներում ներկայացումներ են, կարող եք ապրանք վերցնել և հարցեր տալ: Որսորդական նպատակներով հովանավոր ընկերությունները խնջույքներ են անում։ Դուք կարող եք դրանց մեջ մտնել, եթե հավաքագրողներին համոզեք, որ դուք հետաքրքրված եք և որ կարող եք հարցազրույցներ անցնել: Եթե հոդված եք հրապարակել (կամ ավելին` ներկայացրել), սկսել եք կամ ավարտում եք ասպիրանտուրան, սա պլյուս է, բայց երբեմն կարող եք բանակցել ստենդի մոտ՝ հետաքրքիր հարցեր տալով ընկերության ինժեներներին:

Միտումները

Կոնֆերանսը թույլ է տալիս դիտել CV-ի ամբողջ դաշտը: Որոշակի թեմայի վերաբերյալ պաստառների քանակով կարող եք գնահատել, թե որքանով է թեժ թեման: Որոշ եզրակացություններ առաջարկվում են հիմնաբառերի հիման վրա.

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Զրոյական կրակոց, մեկ կրակոց, մի քանի կրակոց, ինքնավերահսկվող և կիսավերահսկվող. երկար ուսումնասիրված առաջադրանքների նոր մոտեցումներ

Մարդիկ սովորում են ավելի արդյունավետ օգտագործել տվյալները: Օրինակ՝ մեջ ՖՈՒՆԻՏ հնարավոր է ստեղծել կենդանիների դեմքի արտահայտություններ, որոնք չեն եղել ուսուցման հավաքածուում (կիրառման մեջ՝ տրամադրելով մի քանի տեղեկատու նկարներ): Deep Image Prior-ի գաղափարները մշակվել են, և այժմ GAN ցանցերը կարող են վերապատրաստվել մեկ պատկերի վրա. մենք այս մասին կխոսենք ստորև: ընդգծումներում. Դուք կարող եք օգտագործել ինքնավերահսկումը նախնական պարապմունքների համար (խնդիր լուծելու համար, որի համար կարող եք սինթեզել համահունչ տվյալներ, օրինակ՝ նկարի պտտման անկյունը կանխատեսելը) կամ միաժամանակ սովորել պիտակավորված և չպիտակավորված տվյալներից: Այս առումով հոդվածը կարելի է համարել արարչագործության պսակ S4L. Ինքնավերահսկվող կիսավերահսկվող ուսուցում. Եվ ահա նախավարժանքը ImageNet-ում ոչ միշտ օգնում է.

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

3D և 360°

Խնդիրները, որոնք հիմնականում լուծվել են լուսանկարների համար (հատվածավորում, հայտնաբերում) պահանջում են լրացուցիչ հետազոտություն 3D մոդելների և համայնապատկերային տեսանյութերի համար։ Մենք տեսել ենք բազմաթիվ հոդվածներ RGB-ի և RGB-D-ի 3D-ի փոխակերպման վերաբերյալ: Որոշ խնդիրներ, ինչպիսիք են մարդու դիրքի գնահատումը, կարելի է ավելի բնական լուծել՝ անցնելով 3D մոդելներին: Սակայն դեռևս չկա կոնսենսուս այն մասին, թե կոնկրետ ինչպես ներկայացնել XNUMXD մոդելները՝ ցանցի, կետային ամպի, վոքսելների կամ SDF-ի տեսքով: Ահա ևս մեկ տարբերակ.

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Համայնապատկերներում ակտիվորեն զարգանում են ոլորումներ ոլորտի վրա (տես. Կողմնորոշված իմաստային հատվածավորում իկոսաեդրոնային ոլորտներում) և որոնել հիմնական օբյեկտները շրջանակում:

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Պոզերի հայտնաբերում և մարդու շարժման կանխատեսում

Արդեն առաջընթաց է գրանցվել 2D-ում կեցվածքի հայտնաբերման գործում. այժմ ուշադրությունը փոխվել է մի քանի տեսախցիկների և 3D-ի հետ աշխատելու վրա: Հնարավոր է նաև, օրինակ, կմախքը հայտնաբերել պատի միջով՝ հետևելով Wi-Fi ազդանշանի փոփոխություններին, երբ այն անցնում է մարդու մարմնով:

Մեծ աշխատանք է կատարվել ձեռքի բանալիների հայտնաբերման ոլորտում: Հայտնվել են տվյալների նոր հավաքածուներ, այդ թվում՝ երկու մարդկանց միջև երկխոսությունների տեսանյութերի հիման վրա: Այժմ դուք կարող եք կանխատեսել ձեռքի շարժումները զրույցի աուդիո կամ տեքստից: Նույն առաջընթացն արձանագրվել է աչքի հետագծման առաջադրանքներում (նայվածքի գնահատում):

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Կարելի է նաև բացահայտել մարդկային շարժման կանխատեսման հետ կապված աշխատանքների մեծ կլաստեր (օրինակ. Մարդու շարժման կանխատեսում տարածական-ժամանակավոր ներկման միջոցով կամ Կառուցվածքային կանխատեսումն օգնում է մարդու շարժման 3D մոդելավորմանը). Առաջադրանքը կարևոր է և, հեղինակների հետ զրույցների հիման վրա, առավել հաճախ օգտագործվում է հետիոտների վարքագիծը վերլուծելու համար ինքնավար վարման ժամանակ:

Մարդկանց հետ մանիպուլյացիաներ լուսանկարներում և տեսանյութերում, վիրտուալ կցամասերում

Հիմնական միտումը դեմքի պատկերները փոխելն է՝ ըստ մեկնաբանելի պարամետրերի: Գաղափարներ՝ մեկ նկարի վրա հիմնված խորը ֆեյք, դեմքի արտահայտման վրա հիմնված արտահայտությունների փոփոխություն (Տիկնիկային ԳԱՆ), առաջընթաց-փոխել պարամետրերը (օրինակ, Տարիք). Ոճային փոխանցումները թեմայի վերնագրից անցել են աշխատանքի կիրառման։ Վիրտուալ կցամասերը այլ պատմություն են, դրանք գրեթե միշտ վատ են աշխատում, ահա մի օրինակ դեմո.

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Գեներացիա էսքիզներից/գրաֆիկներից

«Թող ցանցը նախկին փորձի հիման վրա ինչ-որ բան ստեղծի» գաղափարի զարգացումը դարձավ մեկ այլ՝ «Ցույց տանք ցանցին, թե որ տարբերակն է մեզ հետաքրքրում»:

SC-FEGAN թույլ է տալիս կատարել ուղղորդված ներկ.

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

ICCV-ի համար Adobe-ի 25 հոդվածներից մեկը միավորում է երկու GAN. մեկը լրացնում է ուրվագիծը օգտվողի համար, մյուսը ստեղծում է ֆոտոռեալիստական պատկեր էսքիզից (նախագծի էջ).

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Նախկինում պատկերների ստեղծման համար գրաֆիկները անհրաժեշտ չէին, սակայն այժմ դրանք վերածվել են տեսարանի մասին գիտելիքների պարունակության: Հոդվածը շահել է նաև ICCV-ի արդյունքների հիման վրա «Լավագույն թղթե պատվավոր հիշատակումներ» մրցանակը Օբյեկտների հատկանիշների և հարաբերությունների նշում ինտերակտիվ տեսարանի ստեղծման մեջ. Ընդհանուր առմամբ, դուք կարող եք դրանք օգտագործել տարբեր ձևերով՝ նկարներից գծապատկերներ ստեղծել, կամ գրաֆիկներից նկարներ և տեքստեր:

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Մարդկանց և մեքենաների վերանույնականացում՝ հաշվելով ամբոխի չափը (!)

Բազմաթիվ հոդվածներ նվիրված են մարդկանց հետևելուն և մարդկանց ու մեքենաներին վերահաստատելուն: Բայց մեզ զարմացրեց մի խումբ հոդվածներ ամբոխի հաշվման վերաբերյալ, բոլորը Չինաստանից:

Պաստառներ Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Բայց Ֆեյսբուքը, ընդհակառակը, անանունացնում է լուսանկարը։ Եվ դա անում է հետաքրքիր ձևով. այն մարզում է նեյրոնային ցանցը, որպեսզի գեներացնի դեմք առանց եզակի մանրամասների.

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Պաշտպանություն հակառակորդի հարձակումներից

Իրական աշխարհում համակարգչային տեսողության հավելվածների զարգացման հետ մեկտեղ (ինքնակառավարվող մեքենաներում, դեմքի ճանաչման մեջ) գնալով ավելի է առաջանում նման համակարգերի հուսալիության հարցը: CV-ն ամբողջությամբ օգտագործելու համար դուք պետք է վստահ լինեք, որ համակարգը դիմացկուն է հակառակորդի հարձակումներին, այդ իսկ պատճառով դրանցից պաշտպանության մասին ոչ պակաս հոդվածներ կային, քան հենց հարձակումների մասին: Շատ աշխատանք է կատարվել ցանցային կանխատեսումների բացատրության (առանձնահատուկ քարտեզ) և արդյունքի նկատմամբ վստահությունը չափելու ուղղությամբ:

Համակցված առաջադրանքներ

Մեկ թիրախով առաջադրանքների մեծ մասում որակի բարելավման հնարավորությունները գործնականում սպառվում են որակի հետագա բարձրացման նոր ուղղություններից մեկը նեյրոնային ցանցերին միաժամանակ մի քանի նմանատիպ խնդիրներ լուծելու սովորեցնելը: Օրինակներ.
- գործողությունների կանխատեսում + օպտիկական հոսքի կանխատեսում,
— վիդեո ներկայացում + լեզվի ներկայացում (ВидеоԲԵՐՏ),
- սուպեր լուծում + HDR.

Կան նաև հոդվածներ սեգմենտավորման, կեցվածքի որոշման և կենդանիների վերամիավորման վերաբերյալ:

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Առանձնահատկություններ

Գրեթե բոլոր հոդվածները նախապես հայտնի էին, տեքստը հասանելի էր arXiv.org կայքում։ Հետևաբար, բոլորը Dance Now, FUNIT, Image2StyleGAN-ի նման աշխատանքների ներկայացումը բավականին տարօրինակ է թվում. դրանք շատ օգտակար գործեր են, բայց ոչ նոր։ Թվում է, թե գիտական հրապարակումների դասական գործընթացը խզվում է այստեղ՝ գիտությունը շատ արագ է շարժվում։

Լավագույն ստեղծագործությունները որոշելը շատ դժվար է՝ դրանք շատ են, առարկաները՝ տարբեր։ Ստացվել են մի քանի հոդվածներ մրցանակներ և հիշատակումներ.

Ուզում ենք առանձնացնել պատկերների մանիպուլյացիայի տեսանկյունից հետաքրքիր աշխատանքները, քանի որ սա մեր թեման է։ Դրանք բավականին թարմ ու հետաքրքիր ստացվեցին մեզ համար (մենք օբյեկտիվ չենք հավակնում)։

SinGAN (լավագույն թղթի մրցանակ) և InGAN

SingGAN: նախագծի էջ, arXiv, կոդը.
InGAN: նախագծի էջ, arXiv, կոդը.

Դմիտրի Ուլյանովի, Անդրեա Վեդալդիի և Վիկտոր Լեմպիցկիի խորը պատկերի առաջնային գաղափարի մշակում: Տվյալների բազայի վրա GAN-ը վարժեցնելու փոխարեն, ցանցերը սովորում են նույն նկարի հատվածներից, որպեսզի հիշեն դրա ներսում վիճակագրությունը: Վերապատրաստված ցանցը թույլ է տալիս խմբագրել և կենդանացնել լուսանկարները (SinGAN) կամ ստեղծել ցանկացած չափի նոր պատկերներ բնօրինակ պատկերի հյուսվածքներից՝ պահպանելով տեղական կառուցվածքը (InGAN):

SingGAN:

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

InGAN:

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Տեսնելով, թե ինչ չի կարող ստեղծել GAN-ը

Նախագծի էջ.

Նյարդային ցանցերը, որոնք ստեղծում են պատկերներ, հաճախ որպես մուտք են վերցնում պատահական աղմուկի վեկտորը: Վարժեցված ցանցում բազմաթիվ մուտքային վեկտորներ ձևավորում են տարածություն, փոքր շարժումներ, որոնց երկայնքով հանգեցնում են նկարի փոքր փոփոխությունների: Օպտիմիզացիայի օգնությամբ դուք կարող եք լուծել հակադարձ խնդիրը՝ գտնել համապատասխան մուտքային վեկտոր իրական աշխարհից նկարի համար: Հեղինակը ցույց է տալիս, որ նեյրոնային ցանցում գրեթե երբեք հնարավոր չէ գտնել լիովին համապատասխան պատկեր: Նկարում պատկերված որոշ օբյեկտներ չեն ստեղծվում (ըստ երևույթին, այս օբյեկտների մեծ փոփոխականության պատճառով):

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Հեղինակը ենթադրում է, որ GAN-ն ընդգրկում է ոչ թե պատկերների ողջ տարածությունը, այլ միայն որոշ ենթաբազմություն, որոնք լցված են անցքերով, ինչպես պանիրը: Երբ մենք փորձում ենք այնտեղ իրական աշխարհից լուսանկարներ գտնել, մենք միշտ ձախողվելու ենք, քանի որ GAN-ը դեռևս ստեղծում է ոչ ամբողջովին իրական լուսանկարներ: Իրական և գեներացված նկարների տարբերությունները կարելի է հաղթահարել միայն ցանցի կշիռները փոխելով, այսինքն՝ վերապատրաստելով այն կոնկրետ լուսանկարի համար։

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Երբ ցանցը լրացուցիչ վերապատրաստվում է կոնկրետ լուսանկարի համար, կարող եք փորձել տարբեր մանիպուլյացիաներ այս պատկերով։ Ստորև բերված օրինակում լուսանկարին ավելացվել է պատուհան, և ցանցը լրացուցիչ արտացոլումներ է առաջացրել խոհանոցի միավորի վրա: Սա նշանակում է, որ ցանցը, նույնիսկ լուսանկարչության համար լրացուցիչ ուսուցումից հետո, չի կորցրել տեսարանի օբյեկտների միջև կապը տեսնելու ունակությունը:

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

GANAlyze. Դեպի ճանաչողական պատկերի հատկությունների տեսողական սահմանումներ

Նախագծի էջ, arXiv.

Օգտագործելով այս աշխատանքի մոտեցումը, դուք կարող եք պատկերացնել և վերլուծել այն, ինչ սովորել է նեյրոնային ցանցը: Հեղինակները առաջարկում են GAN-ին վարժեցնել նկարներ ստեղծելու համար, որոնց համար ցանցը կստեղծի որոշակի կանխատեսումներ։ Հոդվածում որպես օրինակ օգտագործվել են մի քանի ցանցեր, այդ թվում՝ MemNet-ը, որը կանխատեսում է լուսանկարների հիշարժանությունը։ Պարզվեց, որ ավելի լավ հիշելու համար լուսանկարի առարկան պետք է.

ավելի մոտ լինել կենտրոնին
ունեն ավելի կլոր կամ քառակուսի ձև և պարզ կառուցվածք,
լինել միատարր ֆոնի վրա,
պարունակում է արտահայտիչ աչքեր (գոնե շների լուսանկարների համար),
լինել ավելի վառ, ավելի հագեցած, որոշ դեպքերում՝ ավելի կարմիր։

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Liquid Warping GAN. մարդու շարժման իմիտացիայի, արտաքին տեսքի փոխանցման և նոր տեսքի սինթեզի միասնական շրջանակ

Նախագծի էջ, arXiv, կոդը.

Խողովակաշար՝ մարդկանց լուսանկարները միանգամից մեկ լուսանկար ստեղծելու համար: Հեղինակները ցույց են տալիս մեկ մարդու շարժումը մյուսին փոխանցելու, հագուստը մարդկանց միջև փոխադրելու և մարդու նոր անկյուններ ստեղծելու հաջող օրինակներ՝ բոլորը մեկ լուսանկարից: Ի տարբերություն նախորդ աշխատանքների, այստեղ պայմաններ ստեղծելու համար մենք օգտագործում ենք ոչ թե առանցքային կետերը 2D-ում (պոզայում), այլ մարմնի 3D ցանցը (պոզ + ձև): Հեղինակները նաև պարզել են, թե ինչպես կարելի է տեղեկատվություն փոխանցել սկզբնական պատկերից գեներացված պատկերին (Liquid Warping Block): Արդյունքները պատշաճ տեսք ունեն, բայց ստացված պատկերի լուծումը ընդամենը 256x256 է: Համեմատության համար նշենք, որ vid2vid-ը, որը հայտնվեց մեկ տարի առաջ, ի վիճակի է 2048x1024 լուծաչափով գեներացնել, սակայն դրա համար անհրաժեշտ է 10 րոպե տեսագրություն՝ որպես տվյալների բազա։

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

FSGAN. Առարկայի ագնոստիկ դեմքի փոխանակում և վերարտադրում

Նախագծի էջ, arXiv.

Սկզբում թվում է, որ ոչ մի արտասովոր բան չկա՝ քիչ թե շատ նորմալ որակով դիփֆեյք։ Բայց աշխատանքի գլխավոր ձեռքբերումը մեկ նկարից դեմքերի փոխարինումն է։ Ի տարբերություն նախորդ աշխատանքների, ուսուցումը պահանջվում էր կոնկրետ անձի բազմաթիվ լուսանկարների վրա: Խողովակաշարը բարդ էր (վերարտադրում և հատվածավորում, դիտումների ինտերպոլացիա, ներկում, միաձուլում) և բազմաթիվ տեխնիկական հաքերներով, բայց արդյունքն արժե այն:

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Անսպասելիի հայտնաբերում պատկերի վերասինթեզի միջոցով

arXiv.

Ինչպե՞ս կարող է անօդաչու թռչող սարքը հասկանալ, որ իր դիմաց հանկարծ հայտնվել է մի առարկա, որը չի մտնում իմաստային հատվածավորման որևէ դասի: Կան մի քանի մեթոդներ, սակայն հեղինակներն առաջարկում են նոր, ինտուիտիվ ալգորիթմ, որն ավելի լավ է աշխատում, քան իր նախորդները: Իմաստային հատվածավորումը կանխատեսվում է մուտքային ճանապարհի պատկերից: Այն սնվում է որպես մուտքագրում GAN-ին (pix2pixHD), որը փորձում է վերականգնել բնօրինակ պատկերը միայն իմաստային քարտեզից: Անոմալիաները, որոնք չեն ընկնում սեգմենտներից որևէ մեկում, էականորեն կտարբերվեն ելքի և առաջացած պատկերի մեջ: Երեք պատկերները (բնօրինակ, հատվածավորում և վերակառուցված) այնուհետև սնվում են մեկ այլ ցանց, որը կանխատեսում է անոմալիաները: Դրա համար տվյալների հավաքածուն ստեղծվել է հայտնի Cityscapes տվյալների բազայից՝ պատահականորեն փոխելով իմաստային սեգմենտավորման դասերը: Հետաքրքիր է, որ այս պարամետրում ճանապարհի մեջտեղում կանգնած, բայց ճիշտ հատվածավորված շունը (ինչը նշանակում է, որ դրա համար դաս կա), անոմալիա չէ, քանի որ համակարգը կարողացել է ճանաչել այն:

Համակարգչային տեսողության միտումները. ICCV 2019-ի կարևորագույն իրադարձությունները

Ամփոփում

Համաժողովից առաջ կարևոր է իմանալ, թե որոնք են ձեր գիտական հետաքրքրությունները, ինչ զեկուցումների կցանկանայիք մասնակցել և ում հետ խոսել: Այդ ժամանակ ամեն ինչ շատ ավելի արդյունավետ կլինի։

ICCV-ն, առաջին հերթին, ցանցային է: Հասկանում ես, որ կան բարձրակարգ ինստիտուտներ և բարձրագույն գիտական բաժիններ, սկսում ես դա հասկանալ, ճանաչել մարդկանց։ Եվ դուք կարող եք հոդվածներ կարդալ arXiv-ի մասին, և, ի դեպ, շատ լավ է, որ կարիք չկա որևէ տեղ գնալ գիտելիք ստանալու համար:

Բացի այդ, համաժողովում դուք կարող եք խորը սուզվել ձեզ ոչ հարազատ թեմաների մեջ և տեսնել միտումներ: Դե, գրեք կարդալու հոդվածների ցանկ: Եթե ուսանող ես, սա քեզ համար հնարավորություն է հանդիպելու պոտենցիալ ուսուցչի, եթե ոլորտից ես, ապա նոր գործատուի հետ, իսկ եթե ընկերություն, ապա քեզ ցույց տալու:

Բաժանորդագրվել @loss_function_porn! Սա անձնական նախագիծ է. մենք այն ղեկավարում ենք միասին կարֆլայ. Բոլոր աշխատանքները, որոնք մեզ դուր են եկել համաժողովի ընթացքում, մենք տեղադրել ենք այստեղ՝ @loss_function_live.

Source: www.habr.com