Microsoft-ի վերջին տեխնոլոգիան Azure AI-ում նկարագրում է պատկերները, ինչպես նաև մարդկանց


Microsoft-ի հետազոտողները ստեղծել են արհեստական ​​ինտելեկտի համակարգ, որն ի վիճակի է ստեղծել պատկերների ենթագրեր, որոնք, շատ դեպքերում, ավելի ճշգրիտ են ստացվում, քան մարդկանց կողմից արված նկարագրությունները: Այս ճեղքումը կարևոր իրադարձություն է Microsoft-ի՝ իր արտադրանքն ու ծառայությունները ներառական և հասանելի բոլոր օգտատերերի համար դարձնելու պարտավորության մեջ:

«Պատկերի նկարագրությունը համակարգչային տեսողության հիմնական գործառույթներից մեկն է, որը հնարավոր է դարձնում ծառայությունների լայն շրջանակ», - ասաց Սյուեդոնգ Հուանգը (Սյուեդոնգ Հուանգ), Microsoft-ի տեխնիկական պատասխանատու և Azure AI Cognitive Services-ի CTO-ն Ռեդմոնդում, Վաշինգտոն:

Նոր մոդելն այժմ հասանելի է սպառողներին Computer Vision-ի միջոցով Azure ճանաչողական ծառայություններ, որը Azure AI-ի մի մասն է, և թույլ է տալիս ծրագրավորողներին օգտագործել այս հնարավորությունը՝ բարելավելու իրենց ծառայությունների հասանելիությունը: Այն նաև ներառված է Seeing AI հավելվածում և հասանելի կլինի այս տարվա վերջին Microsoft Word-ում և Outlook-ում Windows-ի և Mac-ի համար, ինչպես նաև PowerPoint-ում Windows-ի, Mac-ի և համացանցում:

Ավտոմատ նկարագրությունը օգնում է օգտվողներին մուտք գործել ցանկացած պատկերի կարևոր բովանդակություն, լինի դա որոնման արդյունքներում վերադարձված լուսանկար, թե ներկայացման նկարազարդում:

«Վեբ էջերում և փաստաթղթերում պատկերների (այսպես կոչված այլընտրանքային կամ այլընտրանքային տեքստի) բովանդակությունը նկարագրող ենթագրերի օգտագործումը հատկապես կարևոր է կույր կամ տեսողության խնդիրներ ունեցող մարդկանց համար», - ասաց Սաքիբ Շեյխը:Սաքիբ Շեյխ), ծրագրային մենեջեր Microsoft-ի AI Platform Group-ում՝ Ռեդմոնդում։

Օրինակ, նրա թիմը օգտագործում է նկարների նկարագրության բարելավված գործառույթ կույր և թույլ տեսողություն ունեցողների համար նախատեսված հավելվածում: ԱՅ-ն տեսնելով, որը ճանաչում է այն, ինչ ֆիքսում է տեսախցիկը և պատմում դրա մասին։ Հավելվածն օգտագործում է ստեղծված ենթագրեր՝ նկարագրելու լուսանկարները, այդ թվում՝ սոցիալական ցանցերում:

«Իդեալում, բոլորը պետք է ավելացնեն alt տեքստ բոլոր պատկերներին փաստաթղթերում, համացանցում, սոցիալական ցանցերում, քանի որ դա թույլ է տալիս կույր մարդկանց մուտք գործել բովանդակություն և մասնակցել զրույցին: Բայց, ավաղ, մարդիկ դա չեն անում»,- ասում է շեյխը։ «Սակայն կան մի քանի հավելվածներ, որոնք օգտագործում են պատկերի նկարագրության գործառույթը՝ այլընտրանքային տեքստ ավելացնելու համար, երբ այն բացակայում է»:
  
Microsoft-ի վերջին տեխնոլոգիան Azure AI-ում նկարագրում է պատկերները, ինչպես նաև մարդկանց

Microsoft-ի Redmond Lab-ի հետազոտությունների գլխավոր մենեջեր Լիրուան Վանգը ղեկավարել է հետազոտական ​​թիմը, որը հասել և գերազանցել է մարդկային արդյունքները: Լուսանկարը՝ Դեն ԴեԼոնգ։

Նոր օբյեկտների նկարագրություն

«Պատկերների նկարագրությունը համակարգչային տեսողության հիմնական խնդիրներից մեկն է, որը պահանջում է արհեստական ​​ինտելեկտի համակարգ՝ պատկերում ներկայացված հիմնական բովանդակությունը կամ գործողությունը հասկանալու և նկարագրելու համար», - բացատրեց Լիրուան Վանգը:Լիխուան Վանգ), Microsoft-ի Ռեդմոնդի լաբորատորիայի հետազոտությունների գլխավոր մենեջեր։

«Դուք պետք է հասկանաք, թե ինչ է կատարվում, պարզեք, թե ինչ հարաբերություններ կան առարկաների և գործողությունների միջև, այնուհետև ամփոփեք և նկարագրեք այդ ամենը մարդու համար ընթեռնելի լեզվով նախադասության մեջ», - ասաց նա:

Վանգը ղեկավարել է հետազոտական ​​թիմը, որը հենանիշների գծով nocaps (նոր օբյեկտների վերնագրերը մասշտաբով, նոր առարկաների լայնածավալ նկարագրություն) հասավ մարդկայինի հետ համեմատելի արդյունքի և գերազանցեց այն։ Այս թեստավորումը թույլ է տալիս գնահատել, թե որքանով են արհեստական ​​ինտելեկտի համակարգերը ստեղծում պատկերված օբյեկտների նկարագրություններ, որոնք ներառված չեն այն տվյալների հավաքածուում, որի վրա մոդելը վերապատրաստվել է:

Սովորաբար, պատկերների նկարագրության համակարգերը վերապատրաստվում են տվյալների հավաքածուների վրա, որոնք պարունակում են պատկերներ, որոնք ուղեկցվում են այդ պատկերների տեքստային նկարագրությամբ, այսինքն՝ ստորագրված պատկերների հավաքածուների վրա:

«Nocaps-ի թեստը ցույց է տալիս, թե որքանով է համակարգը կարողանում նկարագրել նոր առարկաներ, որոնք չեն գտնվել վերապատրաստման տվյալների մեջ», - ասում է Վանգը:

Այս խնդիրը լուծելու համար Microsoft-ի թիմը նախապես պատրաստեց մեծ AI մոդելի մեծ տվյալների բազայի վրա, որը պարունակում էր բառերով պիտակավորված պատկերներ, որոնցից յուրաքանչյուրը կապված էր պատկերի որոշակի օբյեկտի հետ:

Ամբողջական վերնագրերի փոխարեն բառերի պիտակներով պատկերների հավաքածուները ավելի արդյունավետ են ստեղծելու համար՝ թույլ տալով Վանգի թիմին շատ տվյալներ ներդնել իրենց մոդելում: Այս մոտեցումը մոդելին տվեց այն, ինչ թիմն անվանում է տեսողական բառապաշար:

Ինչպես պարզաբանեց Հուանգը, տեսողական բառապաշարի օգտագործմամբ նախադպրոցական մոտեցումը նման է երեխաներին կարդալու նախապատրաստմանը. նախ՝ օգտագործվում է պատկերագիրք, որտեղ առանձին բառեր կապված են պատկերների հետ, օրինակ՝ խնձորի լուսանկարի տակ գրված է «խնձոր»: իսկ կատվի լուսանկարի տակ «կատու» բառն է։

«Վիզուալ բառապաշարով այս նախավարժանքը, ըստ էության, համակարգի վերապատրաստման համար անհրաժեշտ նախնական կրթությունն է: Այսպես մենք փորձում ենք զարգացնել մի տեսակ շարժիչ հիշողություն»,- ասել է Հուանգը։

Նախապես պատրաստված մոդելն այնուհետև զտվում է տվյալների շտեմարանով, որը ներառում է պիտակավորված պատկերներ: Ուսուցման այս փուլում մոդելը սովորում է նախադասություններ կազմել։ Եթե ​​հայտնվում է նոր օբյեկտներ պարունակող պատկեր, AI համակարգը օգտագործում է տեսողական բառարանը ճշգրիտ նկարագրություններ ստեղծելու համար:

«Թեստավորման ընթացքում նոր օբյեկտների հետ աշխատելու համար համակարգը ինտեգրում է այն, ինչ սովորել է նախնական պարապմունքների և հետագա կատարելագործման ընթացքում», - ասում է Վանգը:
Согласно результам հետազոտություն, երբ գնահատվել է nocaps թեստերի վրա, AI համակարգը արտադրել է ավելի բովանդակալից և ճշգրիտ նկարագրություններ, քան մարդիկ արել են նույն պատկերների համար:

Ավելի արագ անցում աշխատանքային միջավայր 

Ի թիվս այլ բաների, պատկերների նկարագրության նոր համակարգը երկու անգամ ավելի լավն է, քան 2015 թվականից ի վեր Microsoft-ի արտադրանքներում և ծառայություններում օգտագործվող մոդելը՝ համեմատած արդյունաբերության մեկ այլ հենանիշի հետ:

Հաշվի առնելով այն առավելությունները, որ Microsoft-ի արտադրանքի և ծառայությունների բոլոր օգտվողները կստանան այս բարելավումից, Հուանգը արագացրեց նոր մոդելի ինտեգրումը Azure աշխատանքային միջավայրում:

«Մենք այս խանգարող AI տեխնոլոգիան տեղափոխում ենք Azure՝ որպես հաճախորդների ավելի լայն շրջանակի սպասարկելու հարթակ», - ասաց նա: «Եվ սա պարզապես բեկում չէ հետազոտության մեջ: Այն ժամանակը, որ պահանջվեց այս բեկումը Azure-ի արտադրության միջավայրում ներառելու համար նույնպես բեկումնային էր»:

Հուանգը հավելեց, որ մարդանման արդյունքների հասնելը շարունակում է Microsoft-ի ճանաչողական հետախուզության համակարգերում արդեն հաստատված միտումը:

«Վերջին հինգ տարիների ընթացքում մենք հասել ենք մարդու նման արդյունքների հինգ հիմնական ոլորտներում՝ խոսքի ճանաչման, մեքենայական թարգմանության, հարցերին պատասխանելու, մեքենայական ընթերցանության և տեքստի ըմբռնման, իսկ 2020 թվականին, չնայած COVID-19-ին, պատկերների նկարագրության մեջ։ ― ասաց Խուանը։

Ըստ թեմայի

Համեմատեք պատկերների նկարագրության արդյունքները, որոնք համակարգը տվել է նախկինում և այժմ օգտագործելով AI

Microsoft-ի վերջին տեխնոլոգիան Azure AI-ում նկարագրում է պատկերները, ինչպես նաև մարդկանց

Լուսանկարը՝ Getty Images-ի կողմից: Նախորդող նկարագրությունը. Տղամարդը կտրող տախտակի վրա հոթ-դոգ է պատրաստում. Նոր նկարագրություն. Տղամարդը հաց է պատրաստում.

Microsoft-ի վերջին տեխնոլոգիան Azure AI-ում նկարագրում է պատկերները, ինչպես նաև մարդկանց

Լուսանկարը՝ Getty Images-ի կողմից: Նախորդող նկարագրություն. Տղամարդը նստած է մայրամուտին. Նոր նկարագրություն՝ Խարույկ ծովափին.

Microsoft-ի վերջին տեխնոլոգիան Azure AI-ում նկարագրում է պատկերները, ինչպես նաև մարդկանց

Լուսանկարը՝ Getty Images-ի կողմից: Նախորդ նկարագրությունը. Կապույտ վերնաշապիկով տղամարդ. Նոր նկարագրություն. Մի քանի հոգի վիրաբուժական դիմակներով.

Microsoft-ի վերջին տեխնոլոգիան Azure AI-ում նկարագրում է պատկերները, ինչպես նաև մարդկանց

Լուսանկարը՝ Getty Images-ի կողմից: Նախորդ նկարագրությունը. Սքեյթբորդով տղամարդը թռչում է պատով. Նոր նկարագրություն. Բեյսբոլիստը գնդակ է բռնում.

Source: www.habr.com

Добавить комментарий