Մորուքով, մուգ ակնոցով և պրոֆիլով. բարդ իրավիճակներ համակարգչային տեսողության համար

Մորուքով, մուգ ակնոցով և պրոֆիլով. բարդ իրավիճակներ համակարգչային տեսողության համար

Մեր ապագա համակարգչային տեսողության համակարգի տեխնոլոգիաներն ու մոդելները ստեղծվել և կատարելագործվել են աստիճանաբար և մեր ընկերության տարբեր նախագծերում՝ Mail, Cloud, Search: Նրանք հասունանում էին լավ պանրի կամ կոնյակի պես։ Մի օր մենք հասկացանք, որ մեր նեյրոնային ցանցերը ճանաչման մեջ գերազանց արդյունքներ են ցույց տալիս, և մենք որոշեցինք դրանք միավորել մեկ b2b արտադրանքի մեջ՝ Vision-ը, որն այժմ մենք ինքներս ենք օգտագործում և առաջարկում ձեզ օգտագործել:

Այսօր Mail.Ru Cloud Solutions հարթակում մեր համակարգչային տեսողության տեխնոլոգիան հաջողությամբ աշխատում և լուծում է շատ բարդ գործնական խնդիրներ: Այն հիմնված է մի շարք նեյրոնային ցանցերի վրա, որոնք պատրաստված են մեր տվյալների հավաքածուների վրա և մասնագիտացած են կիրառական խնդիրների լուծման մեջ: Բոլոր ծառայություններն աշխատում են մեր սերվերի հարմարություններում: Դուք կարող եք ինտեգրել հանրային Vision API-ն ձեր հավելվածներում, որի միջոցով հասանելի են ծառայության բոլոր հնարավորությունները։ API-ն արագ է. սերվերի GPU-ների շնորհիվ մեր ցանցում արձագանքման միջին ժամանակը 100 ms է:

Գնացեք կատվի մոտ, կա մանրամասն պատմություն և Vision-ի աշխատանքի բազմաթիվ օրինակներ:

Ծառայության օրինակ, որտեղ մենք ինքներս օգտագործում ենք դեմքի ճանաչման նշված տեխնոլոգիաները Իրադարձություններ. Դրա բաղադրիչներից է Vision լուսանկարչական ստենդները, որոնք մենք տեղադրում ենք տարբեր կոնֆերանսների ժամանակ։ Եթե ​​դուք մոտենաք նման լուսանկարչական ստենդի, լուսանկարեք ներկառուցված տեսախցիկով և մուտքագրեք ձեր էլ. գտնված լուսանկարները ձեզ կուղարկի էլեկտրոնային փոստով: Եվ մենք չենք խոսում բեմադրված դիմանկարային կադրերի մասին. Vision-ը ձեզ ճանաչում է նույնիսկ ֆոնի վրա՝ այցելուների ամբոխի մեջ: Իհարկե, ճանաչվում են ոչ թե լուսանկարների ստենդները, այլ պարզապես պլանշետներ գեղեցիկ ստենդներում, որոնք պարզապես լուսանկարում են հյուրերին իրենց ներկառուցված տեսախցիկներով և տեղեկատվություն փոխանցում սերվերներին, որտեղ տեղի է ունենում ճանաչման ողջ մոգությունը: Եվ մենք մեկ անգամ չէ, որ տեսել ենք, թե որքան զարմանալի է տեխնոլոգիայի արդյունավետությունը նույնիսկ պատկերների ճանաչման մասնագետների շրջանում: Ստորև կխոսենք մի քանի օրինակների մասին։

1. Մեր դեմքի ճանաչման մոդելը

1.1. Նյարդային ցանց և մշակման արագություն

Ճանաչման համար մենք օգտագործում ենք ResNet 101 նեյրոնային ցանցի մոդելի փոփոխությունը: Վերջում միջին միավորումը փոխարինվում է ամբողջությամբ միացված շերտով, ինչպես դա արվում է ArcFace-ում: Այնուամենայնիվ, վեկտորային պատկերների չափը 128 է, ոչ թե 512: Մեր ուսումնական հավաքածուն պարունակում է 10 մարդու մոտ 273 միլիոն լուսանկար:

Մոդելը շատ արագ է աշխատում՝ շնորհիվ խնամքով ընտրված սերվերի կազմաձևման ճարտարապետության և GPU հաշվարկի: Մեր ներքին ցանցերում API-ից պատասխան ստանալու համար տևում է 100 ms. սա ներառում է դեմքի հայտնաբերում (լուսանկարում դեմքի հայտնաբերում), API-ի պատասխանում անձի ID-ի ճանաչում և վերադարձ: Մուտքային տվյալների մեծ ծավալի դեպքում՝ լուսանկարներ և տեսանյութեր, շատ ավելի շատ ժամանակ կպահանջվի՝ տվյալները ծառայությանը փոխանցելու և պատասխան ստանալու համար:

1.2. Մոդելի արդյունավետության գնահատում

Բայց նեյրոնային ցանցերի արդյունավետությունը որոշելը շատ երկիմաստ խնդիր է։ Նրանց աշխատանքի որակը կախված է նրանից, թե ինչ տվյալների հավաքածուների վրա են վերապատրաստվել մոդելները և արդյոք դրանք օպտիմիզացված են կոնկրետ տվյալների հետ աշխատելու համար:

Մենք սկսեցինք գնահատել մեր մոդելի ճշգրտությունը հանրաճանաչ LFW ստուգման թեստով, բայց այն չափազանց փոքր է և պարզ: 99,8% ճշտության հասնելուց հետո այն այլեւս օգտակար չէ։ Գոյություն ունի լավ մրցակցություն ճանաչման մոդելների գնահատման համար՝ Megaface-ը, որում մենք աստիճանաբար հասել ենք 82% վարկանիշի 1-ին: Megaface թեստը բաղկացած է միլիոն լուսանկարներից՝ շեղողներից, և մոդելը պետք է կարողանա լավ տարբերել հայտնի մարդկանց մի քանի հազար լուսանկարներ Facescrub-ից: տվյալների շեղիչներից: Այնուամենայնիվ, մաքրելով Megaface-ի թեստը սխալներից՝ մենք պարզեցինք, որ մաքրված տարբերակով մենք հասնում ենք 98% 1-ին աստիճանի ճշգրտության (հայտնի մարդկանց լուսանկարներն ընդհանուր առմամբ բավականին կոնկրետ են): Այդ պատճառով նրանք ստեղծել են նույնականացման առանձին թեստ, որը նման է Megaface-ին, բայց «սովորական» մարդկանց լուսանկարներով։ Այնուհետև մենք բարելավեցինք մեր տվյալների հավաքածուների ճանաչման ճշգրտությունը և շատ առաջ գնացինք: Բացի այդ, մենք օգտագործում ենք կլաստերի որակի թեստ, որը բաղկացած է մի քանի հազար լուսանկարներից. այն մոդելավորում է դեմքի պիտակավորումը օգտագործողի ամպում: Այս դեպքում կլաստերները համանման անհատների խմբեր են՝ մեկ խումբ յուրաքանչյուր ճանաչելի անձի համար: Մենք ստուգեցինք իրական խմբերի աշխատանքի որակը (ճիշտ է):

Իհարկե, ճանաչման սխալները տեղի են ունենում ցանկացած մոդելի հետ: Բայց նման իրավիճակները հաճախ լուծվում են որոշակի պայմանների համար շեմերի ճշգրտմամբ (բոլոր կոնֆերանսների համար մենք օգտագործում ենք նույն շեմերը, բայց, օրինակ, մուտքի վերահսկման համակարգերի համար մենք պետք է մեծապես բարձրացնենք շեմերը, որպեսզի քիչ լինեն կեղծ դրականները): Համաժողովի այցելուների ճնշող մեծամասնությունը ճիշտ է ճանաչվել մեր Vision ֆոտոխցիկների կողմից: Երբեմն ինչ-որ մեկը նայում էր կտրված նախադիտմանը և ասում. «Ձեր համակարգը սխալվեց, ես չէի»: Հետո մենք բացեցինք լուսանկարն ամբողջությամբ, և պարզվեց, որ լուսանկարում իսկապես կա այս այցելուն, միայն թե մենք նրան չէինք նկարում, այլ մեկ ուրիշին, ուղղակի պատահաբար այդ մարդը ետին պլանում հայտնվեց մշուշոտ գոտում։ Ավելին, նեյրոնային ցանցը հաճախ ճիշտ է ճանաչում նույնիսկ այն դեպքում, երբ դեմքի մի մասը չի երևում, կամ մարդը պրոֆիլում կանգնած է կամ նույնիսկ կիսով չափ շրջված: Համակարգը կարող է ճանաչել մարդուն նույնիսկ եթե դեմքը գտնվում է օպտիկական աղավաղման գոտում, ասենք՝ լայնանկյուն ոսպնյակով նկարելիս։

1.3. Դժվար իրավիճակներում փորձարկման օրինակներ

Ստորև բերված են օրինակներ, թե ինչպես է աշխատում մեր նեյրոնային ցանցը: Լուսանկարները ներկայացվում են մուտքագրմանը, որը նա պետք է պիտակավորի՝ օգտագործելով PersonID՝ անձի եզակի նույնացուցիչը: Եթե ​​երկու կամ ավելի պատկերներ ունեն նույն ID-ն, ապա, ըստ մոդելների, այս լուսանկարներում պատկերված է նույն մարդը։

Անմիջապես նշենք, որ թեստավորման ժամանակ մեզ հասանելի են տարբեր պարամետրեր և մոդելային շեմեր, որոնք մենք կարող ենք կարգավորել որոշակի արդյունքի հասնելու համար: Հանրային API-ն օպտիմիզացված է սովորական դեպքերի առավելագույն ճշգրտության համար:

Սկսենք ամենապարզից՝ առջևի դեմքի ճանաչմամբ։

Մորուքով, մուգ ակնոցով և պրոֆիլով. բարդ իրավիճակներ համակարգչային տեսողության համար

Դե, դա չափազանց հեշտ էր: Եկեք բարդացնենք խնդիրը, ավելացնենք մորուք ու մի բուռ տարի։

Մորուքով, մուգ ակնոցով և պրոֆիլով. բարդ իրավիճակներ համակարգչային տեսողության համար

Ոմանք կասեն, որ սա նույնպես այնքան էլ դժվար չէր, քանի որ երկու դեպքում էլ ամբողջ դեմքը տեսանելի է, և դեմքի մասին շատ տեղեկություններ հասանելի են ալգորիթմին։ Լավ, եկեք Թոմ Հարդին դարձնենք պրոֆիլ: Այս խնդիրը շատ ավելի բարդ է, և մենք շատ ջանքեր ենք ծախսել այն հաջողությամբ լուծելու համար՝ պահպանելով սխալի ցածր տոկոսադրույքը. մենք ընտրեցինք ուսուցման հավաքածու, մտածեցինք նեյրոնային ցանցի ճարտարապետության միջոցով, կատարելագործեցինք կորստի գործառույթները և բարելավեցինք նախնական մշակումը։ լուսանկարներից։

Մորուքով, մուգ ակնոցով և պրոֆիլով. բարդ իրավիճակներ համակարգչային տեսողության համար

Եկեք նրա վրա գլխազարդ դնենք.

Մորուքով, մուգ ակնոցով և պրոֆիլով. բարդ իրավիճակներ համակարգչային տեսողության համար

Ի դեպ, սա առանձնապես բարդ իրավիճակի օրինակ է, քանի որ դեմքը խիստ մթագնում է, իսկ ներքևի լուսանկարում կա նաև խորը ստվեր, որը թաքցնում է աչքերը: Իրական կյանքում մարդիկ շատ հաճախ են փոխում իրենց արտաքինը մուգ ակնոցի օգնությամբ։ Եկեք նույնն անենք Թոմի հետ:

Մորուքով, մուգ ակնոցով և պրոֆիլով. բարդ իրավիճակներ համակարգչային տեսողության համար

Լավ, եկեք փորձենք նկարել տարբեր տարիքներից, և այս անգամ փորձարկենք այլ դերասանի հետ: Բերենք շատ ավելի բարդ օրինակ, որտեղ տարիքային փոփոխությունները հատկապես ընդգծված են։ Իրավիճակը հեռու չէ, այն տեղի է ունենում բավականին հաճախ, երբ անհրաժեշտ է անձնագրի լուսանկարը համեմատել կրողի դեմքի հետ։ Ի վերջո, առաջին լուսանկարը ավելացվում է անձնագրում, երբ սեփականատերը 20 տարեկան է, և 45 տարեկանում մարդը կարող է մեծապես փոխվել.

Մորուքով, մուգ ակնոցով և պրոֆիլով. բարդ իրավիճակներ համակարգչային տեսողության համար

Ի՞նչ եք կարծում, անհնարին առաքելությունների գլխավոր մասնագետը տարիքի հետ շատ չի՞ փոխվել։ Կարծում եմ, որ նույնիսկ մի քանի հոգի կհամատեղեին վերևի և ներքևի լուսանկարները, տղան տարիների ընթացքում այնքան է փոխվել:

Մորուքով, մուգ ակնոցով և պրոֆիլով. բարդ իրավիճակներ համակարգչային տեսողության համար

Նյարդային ցանցերը շատ ավելի հաճախ են հանդիպում արտաքին տեսքի փոփոխությունների: Օրինակ, երբեմն կանայք կարող են մեծապես փոխել իրենց կերպարը կոսմետիկայի օգնությամբ.

Մորուքով, մուգ ակնոցով և պրոֆիլով. բարդ իրավիճակներ համակարգչային տեսողության համար

Հիմա եկեք ավելի բարդացնենք առաջադրանքը. ենթադրենք, դեմքի տարբեր մասեր ծածկված են տարբեր լուսանկարներով: Նման դեպքերում ալգորիթմը չի կարող համեմատել ամբողջ նմուշները։ Այնուամենայնիվ, Vision-ը լավ է լուծում նման իրավիճակները:

Մորուքով, մուգ ակնոցով և պրոֆիլով. բարդ իրավիճակներ համակարգչային տեսողության համար

Ի դեպ, լուսանկարում շատ դեմքեր կարող են լինել, օրինակ՝ դահլիճի ընդհանուր լուսանկարում կարող է տեղավորվել 100-ից ավելի մարդ։ Սա բարդ իրավիճակ է նեյրոնային ցանցերի համար, քանի որ շատ դեմքեր կարող են տարբեր կերպ լուսավորվել, որոշները՝ առանց ուշադրության: Այնուամենայնիվ, եթե լուսանկարն արված է բավարար լուծաչափով և որակով (առնվազն 75 պիքսել մեկ քառակուսի վրա, որը ծածկում է դեմքը), Vision-ը կկարողանա հայտնաբերել և ճանաչել այն:

Մորուքով, մուգ ակնոցով և պրոֆիլով. բարդ իրավիճակներ համակարգչային տեսողության համար

Ռեպորտաժային լուսանկարների և հսկողության տեսախցիկների պատկերների առանձնահատկությունն այն է, որ մարդիկ հաճախ լղոզվում են, քանի որ նրանք այդ պահին ուշադրության կենտրոնում չեն եղել կամ շարժվել են.

Մորուքով, մուգ ակնոցով և պրոֆիլով. բարդ իրավիճակներ համակարգչային տեսողության համար

Բացի այդ, լուսավորության ինտենսիվությունը կարող է մեծապես տարբերվել պատկերից պատկեր: Սա նույնպես հաճախ դառնում է գայթակղության քար, շատ ալգորիթմներ մեծ դժվարությամբ են մշակում չափազանց մութ և շատ բաց պատկերները, էլ չեմ խոսում դրանց ճշգրիտ համապատասխանության մասին: Հիշեցնեմ, որ այս արդյունքին հասնելու համար անհրաժեշտ է որոշակի ձևով կարգավորել շեմերը, այս ֆունկցիան դեռևս հասանելի չէ հանրությանը: Մենք օգտագործում ենք միևնույն նեյրոնային ցանցը բոլոր հաճախորդների համար, այն ունի շեմեր, որոնք հարմար են շատ գործնական առաջադրանքների համար:

Մորուքով, մուգ ակնոցով և պրոֆիլով. բարդ իրավիճակներ համակարգչային տեսողության համար

Վերջերս մենք թողարկեցինք մոդելի նոր տարբերակը, որը բարձր ճշգրտությամբ ճանաչում է ասիական դեմքերը: Սա նախկինում մեծ խնդիր էր, որը նույնիսկ կոչվում էր «մեքենայական ուսուցում» (կամ «նեյրոնային ցանց») ռասիզմ: Եվրոպական և ամերիկյան նեյրոնային ցանցերը լավ էին ճանաչում կովկասյան դեմքերը, բայց մոնղոլոիդ և նեգրոիդ դեմքերով իրավիճակը շատ ավելի վատ էր։ Հավանաբար, Չինաստանում իրավիճակը ճիշտ հակառակն էր։ Ամեն ինչ վերաբերում է վերապատրաստման տվյալների հավաքածուներին, որոնք արտացոլում են որոշակի երկրում մարդկանց գերիշխող տեսակները: Սակայն իրավիճակը փոխվում է, այսօր այս խնդիրն այնքան էլ սուր չէ։ Տեսիլքը խնդիր չունի տարբեր ռասաների մարդկանց հետ:

Մորուքով, մուգ ակնոցով և պրոֆիլով. բարդ իրավիճակներ համակարգչային տեսողության համար

Դեմքի ճանաչումը մեր տեխնոլոգիայի բազմաթիվ կիրառություններից միայն մեկն է, Vision-ին կարելի է սովորեցնել ճանաչել ցանկացած բան: Օրինակ՝ պետհամարանիշները, այդ թվում՝ ալգորիթմների համար դժվար պայմաններում՝ սուր անկյուններում, կեղտոտ և դժվար ընթեռնելի համարանիշներ։

Մորուքով, մուգ ակնոցով և պրոֆիլով. բարդ իրավիճակներ համակարգչային տեսողության համար

2. Գործնական օգտագործման դեպքեր

2.1. Ֆիզիկական մուտքի վերահսկում. երբ երկու հոգի օգտագործում են նույն անցաթուղթը

Vision-ի օգնությամբ դուք կարող եք ներդրել աշխատողների ժամանումը և մեկնումը գրանցելու համակարգեր։ Էլեկտրոնային անցագրերի վրա հիմնված ավանդական համակարգը ակնհայտ թերություններ ունի, օրինակ՝ կարող եք անցնել երկու հոգու՝ օգտագործելով մեկ կրծքանշան։ Եթե ​​մուտքի վերահսկման համակարգը (ACS) համալրվի Vision-ով, այն ազնվորեն կգրանցի, թե ով և երբ է եկել/գնացել:

2.2. Ժամանակի հետևում

Vision-ի օգտագործման այս դեպքը սերտորեն կապված է նախորդի հետ: Եթե ​​դուք լրացնեք մուտքի համակարգը մեր դեմքի ճանաչման ծառայությունով, այն կկարողանա ոչ միայն հայտնաբերել մուտքի հսկողության խախտումները, այլև գրանցել աշխատակիցների փաստացի ներկայությունը շենքում կամ հաստատությունում: Այլ կերպ ասած, Vision-ը կօգնի ձեզ ազնվորեն հաշվի առնել, թե ով որ ժամին է եկել աշխատանքի և հեռացել, և ով ընդհանրապես բաց է թողել աշխատանքը, նույնիսկ եթե իր գործընկերները վերադասի առաջ ծածկել են նրա համար:

2.3. Տեսանյութերի վերլուծություն. մարդկանց հետագծում և անվտանգություն

Vision-ի միջոցով մարդկանց հետևելով՝ դուք կարող եք ճշգրիտ գնահատել առևտրի տարածքների, երկաթուղային կայարանների, անցուղիների, փողոցների և շատ այլ հասարակական վայրերի իրական երթևեկությունը: Մեր հետագծումը կարող է նաև մեծ օգնություն լինել՝ վերահսկելու մուտքը, օրինակ՝ պահեստ կամ այլ կարևոր գրասենյակային տարածքներ: Եվ, իհարկե, մարդկանց և դեմքերին հետևելը օգնում է լուծել անվտանգության խնդիրները: Բռնե՞լ եք ինչ-որ մեկին ձեր խանութից գողություն անելիս: Ավելացրեք նրա «PersonID»-ը, որը վերադարձրել է Vision-ը, ձեր տեսավերլուծական ծրագրաշարի սև ցուցակում, և հաջորդ անգամ համակարգը անմիջապես կզգուշացնի անվտանգությանը, եթե այս տեսակը նորից հայտնվի:

2.4. Առևտրի մեջ

Մանրածախ և սպասարկման տարբեր բիզնեսներ շահագրգռված են հերթերի ճանաչմամբ: Vision-ի օգնությամբ դուք կարող եք ճանաչել, որ սա ոչ թե պատահական մարդկանց բազմություն է, այլ հերթ, և որոշել դրա երկարությունը: Իսկ հետո համակարգը հերթի մասին տեղեկացնում է պատասխանատուներին, որպեսզի նրանք հասկանան իրավիճակը՝ կա՛մ այցելուների հոսք կա, և՛ լրացուցիչ աշխատողների պետք է կանչել, կա՛մ ինչ-որ մեկը թուլանում է աշխատանքային պարտականությունների կատարմանը։

Մեկ այլ հետաքրքիր խնդիր է սրահում գտնվող ընկերության աշխատակիցներին այցելուներից առանձնացնելը: Որպես կանոն, համակարգը վարժեցվում է առանձնացնել առարկաներ, որոնք կրում են որոշակի հագուստ (դրես կոդ) կամ ինչ-որ տարբերակիչ հատկանիշով (բրենդային շարֆ, կրծքավանդակի կրծքանշան և այլն): Սա օգնում է ավելի ճշգրիտ գնահատել հաճախելիությունը (որպեսզի աշխատակիցները չփքեն դահլիճում գտնվող մարդկանց վիճակագրությունը միայն իրենց ներկայությամբ):

Դեմքի ճանաչման միջոցով կարող եք նաև գնահատել ձեր լսարանը՝ ինչպիսի՞ն է այցելուների հավատարմությունը, այսինքն՝ քանի հոգի է վերադառնում ձեր հաստատություն և ինչ հաճախականությամբ։ Հաշվեք, թե ամսական քանի եզակի այցելու է գալիս ձեզ մոտ: Ներգրավման և պահպանման ծախսերը օպտիմալացնելու համար կարող եք նաև պարզել երթևեկի փոփոխությունը՝ կախված շաբաթվա օրվանից և նույնիսկ օրվա ժամից:

Ֆրանչայզորները և ցանցային ընկերությունները կարող են պատվիրել գնահատում տարբեր մանրածախ կետերի բրենդավորման որակի լուսանկարների հիման վրա՝ լոգոների, նշանների, պաստառների, պաստառների և այլնի առկայություն:

2.5. Տրանսպորտով

Տեսավերլուծության միջոցով անվտանգության ապահովման մեկ այլ օրինակ է օդանավակայանների կամ երկաթուղային կայարանների սրահներում լքված իրերի հայտնաբերումը: Տեսողությունը կարելի է վարժեցնել՝ ճանաչելու հարյուրավոր դասերի առարկաներ՝ կահույքի կտորներ, պայուսակներ, ճամպրուկներ, հովանոցներ, տարբեր տեսակի հագուստներ, շշեր և այլն: Եթե ​​ձեր տեսավերլուծական համակարգը հայտնաբերում է անտեր օբյեկտ և ճանաչում այն ​​Vision-ի միջոցով, այն ազդանշան է ուղարկում անվտանգության ծառայությանը: Նմանատիպ խնդիր կապված է հասարակական վայրերում անսովոր իրավիճակների ավտոմատ հայտնաբերման հետ. ինչ-որ մեկը վատ է զգում, կամ ինչ-որ մեկը ծխում է սխալ տեղում, կամ մարդը ընկնում է ռելսերի վրա և այլն. այս բոլոր օրինաչափությունները կարող են ճանաչվել տեսավերլուծական համակարգերով Vision API-ի միջոցով:

2.6. Փաստաթղթերի հոսք

Vision-ի մեկ այլ հետաքրքիր ապագա կիրառություն, որը մենք ներկայումս մշակում ենք, փաստաթղթերի ճանաչումն է և դրանց ավտոմատ վերլուծությունը տվյալների բազաներում: Անվերջ շարքերը, թվերը, թողարկման ամսաթվերը, հաշվի համարները, բանկային տվյալները, ծննդյան տարեթվերն ու վայրերը և շատ այլ պաշտոնական տվյալներ ձեռքով մուտքագրելու (կամ ավելի վատ՝ մուտքագրելու) փոխարեն, դուք կարող եք սկանավորել փաստաթղթերը և ավտոմատ կերպով դրանք ուղարկել անվտանգ ալիքով՝ API ամպի վրա, որտեղ համակարգը անմիջապես կճանաչի այդ փաստաթղթերը, կվերլուծի դրանք և կվերադարձնի պատասխանը տվյալների բազայում ավտոմատ մուտքագրման համար անհրաժեշտ ձևաչափով: Այսօր Vision-ն արդեն գիտի, թե ինչպես դասակարգել փաստաթղթերը (ներառյալ PDF) - տարբերակում է անձնագրերը, SNILS, TIN, ծննդյան վկայականները, ամուսնության վկայականները և այլն:

Իհարկե, նեյրոնային ցանցն ի վիճակի չէ կարգավորել այս բոլոր իրավիճակները առանց տուփի: Յուրաքանչյուր դեպքում կոնկրետ հաճախորդի համար կառուցվում է նոր մոդել, հաշվի են առնվում բազմաթիվ գործոններ, նրբերանգներ և պահանջներ, ընտրվում են տվյալների հավաքածուներ և իրականացվում են վերապատրաստման, փորձարկման և կազմաձևման կրկնություններ:

3. API-ի շահագործման սխեմա

Vision-ի «մուտքի դարպասը» օգտվողների համար REST API-ն է: Որպես մուտքագրում այն ​​կարող է ստանալ լուսանկարներ, վիդեո ֆայլեր և հեռարձակումներ ցանցային տեսախցիկներից (RTSP հոսքեր):

Vision-ն օգտագործելու համար անհրաժեշտ է գրանցվել Mail.ru Cloud Solutions ծառայությունում և ստացեք մուտքի նշաններ (client_id + client_secret): Օգտատիրոջ նույնականացումը կատարվում է OAuth արձանագրության միջոցով: POST հարցումների մարմիններում աղբյուրի տվյալները ուղարկվում են API: Եվ ի պատասխան՝ հաճախորդը API-ից ստանում է JSON ձևաչափով ճանաչման արդյունք, և պատասխանը կառուցվածքային է՝ այն պարունակում է տեղեկատվություն գտնված օբյեկտների և դրանց կոորդինատների մասին։

Մորուքով, մուգ ակնոցով և պրոֆիլով. բարդ իրավիճակներ համակարգչային տեսողության համար

Պատասխանի օրինակ

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

Պատասխանը պարունակում է մի հետաքրքիր պարամետրի հիասքանչություն. սա է լուսանկարում դեմքի պայմանական «զովությունը», որի օգնությամբ մենք ընտրում ենք դեմքի լավագույն կադրը հաջորդականությունից: Մենք նեյրոնային ցանց ենք վարժեցրել՝ կանխատեսելու սոցիալական ցանցերում լուսանկարը հավանելու հավանականությունը։ Որքան լավն է լուսանկարի որակը և որքան ավելի ժպտում է դեմքը, այնքան մեծ է հիասքանչությունը:

API Vision-ն օգտագործում է տիեզերք կոչվող հայեցակարգ: Սա գործիք է դեմքերի տարբեր հավաքածուներ ստեղծելու համար: Բացատների օրինակներ են սև և սպիտակ ցուցակները, այցելուների, աշխատակիցների, հաճախորդների ցուցակները և այլն: Vision-ում յուրաքանչյուր նշանի համար կարող եք ստեղծել մինչև 10 բացատ, յուրաքանչյուր տարածք կարող է ունենալ մինչև 50 հազար PersonID, այսինքն՝ մինչև 500 հազար: մեկ նշանով: Ավելին, մեկ հաշվի համար նշանների քանակը սահմանափակված չէ:

Այսօր API-ն աջակցում է հայտնաբերման և ճանաչման հետևյալ մեթոդներին.

  • Recognize/Set - դեմքերի հայտնաբերում և ճանաչում: Յուրաքանչյուր եզակի անձի ավտոմատ կերպով նշանակում է PersonID, վերադարձնում է PersonID-ը և գտնված անձանց կոորդինատները:
  • Ջնջել - անձի տվյալների բազայից որոշակի անձի ID-ի ջնջում:
  • Կտրել - մաքրում է ամբողջ տարածքը PersonID-ից, օգտակար է, եթե այն օգտագործվել է որպես թեստային տարածք, և դուք պետք է վերակայեք տվյալների բազան արտադրության համար:
  • Հայտնաբերել - օբյեկտների, տեսարանների, պետհամարանիշների, ուղենիշների, հերթերի և այլնի հայտնաբերում: Վերադարձնում է գտնված օբյեկտների դասը և դրանց կոորդինատները
  • Հայտնաբերել փաստաթղթերի համար - հայտնաբերում է Ռուսաստանի Դաշնության փաստաթղթերի հատուկ տեսակներ (տարբերում է անձնագիր, SNILS, հարկային նույնականացման համար և այլն):

Մենք նաև շուտով կավարտենք OCR-ի մեթոդները, սեռը, տարիքը և զգացմունքները որոշելու, ինչպես նաև առևտրային խնդիրների լուծումը, այսինքն՝ խանութներում ապրանքների ցուցադրումն ավտոմատ վերահսկելու համար: API-ի ամբողջական փաստաթղթերը կարող եք գտնել այստեղ՝ https://mcs.mail.ru/help/vision-api

4. Եզրակացություն

Այժմ հանրային API-ի միջոցով դուք կարող եք մուտք գործել դեմքի ճանաչում լուսանկարներում և տեսանյութերում, աջակցվում է տարբեր առարկաների, պետհամարանիշների, ուղենիշների, փաստաթղթերի և ամբողջ տեսարանների նույնականացում: Կիրառման սցենարներ՝ ծով: Եկեք, փորձարկեք մեր ծառայությունը, դրեք այն ամենաբարդ առաջադրանքները: Առաջին 5000 գործարքներն անվճար են։ Միգուցե դա կլինի ձեր նախագծերի «բացակայող բաղադրիչը»:

Դուք կարող եք ակնթարթորեն մուտք գործել API գրանցման և միանալուց հետո: տեսողություն. Habra-ի բոլոր օգտատերերը լրացուցիչ գործարքների համար ստանում են գովազդային կոդ: Խնդրում եմ, գրեք ինձ էլփոստի հասցեն, որն օգտագործել եք ձեր հաշիվը գրանցելու համար:

Source: www.habr.com

Добавить комментарий