Найновая тэхналогія Microsoft, якая з'явілася ў Azure AI, апісвае выявы гэтак жа добра, як і людзі


Даследнікі з Microsoft стварылі сістэму штучнага інтэлекту, здольную генераваць подпісы да малюнкаў, якія ў многіх выпадках аказваюцца больш дакладнымі, чым апісанні, зробленыя людзьмі. Гэты прарыў стаў важнай вяхой у імкненні Microsoft зрабіць свае прадукты і паслугі інклюзіўнымі і даступнымі для ўсіх карыстачоў.

"Апісанне малюнкаў – адна з асноўных функцый кампутарнага зроку, якая робіць магчымай працу шырокага спектру сэрвісаў", – сказаў Сюэдун Хуан (Сюэдун Хуан), тэхнічны супрацоўнік Microsoft і галоўны тэхнічны дырэктар Azure AI Cognitive Services у Рэдмандзе (штат Вашынгтон).

Новая мадэль зараз даступная спажыўцам праз Computer Vision у Кагнітыўныя службы Azure, якое з'яўляецца часткай Azure AI, і дазваляе распрацоўшчыкам выкарыстоўваць гэтую магчымасць для паляпшэння даступнасці сваіх сэрвісаў. Яна таксама ўключаецца ў дадатак Seeing AI і ў канцы гэтага года пачне працаваць у Microsoft Word і Outlook для Windows і Mac, а таксама ў PowerPoint для Windows, Mac і ў вэб-версіі.

Аўтаматычнае апісанне дапамагае карыстальнікам атрымаць доступ да важнага змесціва любога малюнка, няхай гэта будзе фатаграфія, вернутая ў выніках пошуку, або ілюстрацыя для прэзентацыі.

"Выкарыстанне подпісаў, якія апісваюць змесціва малюнкаў (так званы альтэрнатыўны або замяшчае тэкст), на вэб-старонках і ў дакументах асабліва важна для невідушчых або людзей са слабым зрокам", – адзначыў Сакіб Шэйх (Saqib Shaikh), менеджэр па праграмным забеспячэнні ў групе платформаў AI Microsoft у Рэдмандзе.

Напрыклад, яго каманда выкарыстоўвае палепшаную функцыю апісання малюнкаў у дадатку для невідушчых і людзей, якія дрэнна бачаць. бачачы AI, якое распазнае тое, што здымае камера, і расказвае пра гэта. Дадатак выкарыстоўвае генерыруюцца подпісы, каб апісваць фатаграфіі, у тым ліку ў сацыяльных сетках.

«У ідэале ўсім варта дадаваць альтэрнатыўны тэкст для ўсіх выяў у дакументах, у Інтэрнэце, у сацыяльных сетках, бо гэта дазваляе невідушчым людзям атрымаць доступ да змесціва і прыняць удзел у размове. Але, нажаль, людзі гэтага не робяць, - кажа Шэйх. - Аднак ёсць некалькі прыкладанняў, якія выкарыстоўваюць функцыю апісання малюнкаў, каб дадаваць альтэрнатыўны тэкст, калі ён адсутнічае».
  
Найновая тэхналогія Microsoft, якая з'явілася ў Azure AI, апісвае выявы гэтак жа добра, як і людзі

Ліжуань Ван, галоўны мэнэджар па даследаваннях лабараторыі Microsoft у Рэдмандзе, кіравала даследчай групай, якая дамаглася выніку, параўнальнага з чалавечым, і перасягнула яго. Фота: Dan DeLong.

Апісанне новых аб'ектаў

"Апісанне малюнкаў - адна з асноўных задач кампутарнага зроку, якая патрабуе наяўнасці сістэмы штучнага інтэлекту, якая дазваляе зразумець і апісаць асноўны змест або дзеянне, прадстаўленае ў малюнку", - растлумачыла Ліжуань Ван (Lijuan Wang), галоўны мэнэджар па даследаваннях лабараторыі Microsoft у Рэдмандзе.

"Трэба зразумець, што адбываецца, высветліць, якія адносіны паміж аб'ектамі і дзеяннямі, а затым абагульніць і апісаць усё гэта ў сказе на зразумелай чалавеку мове", - сказала яна.

Ван кіравала даследчай групай, якая ў эталонным тэсціраванні nocaps (novel object captioning at scale, маштабнае апісанне новых аб'ектаў) дабілася выніку, параўнальнага з чалавечым, і перасягнула яго. Гэта тэставанне дазваляе ацаніць, наколькі добра сістэмы ІІ генеруюць апісанні намаляваных аб'ектаў, якія не ўваходзяць у набор дадзеных, на аснове якога навучалася мадэль.

Звычайна сістэмы апісання малюнкаў навучаюцца на наборах дадзеных, якія ўтрымоўваюць выявы, якія суправаджаюцца тэкставым апісаннем гэтых малюнкаў, гэта значыць на наборах падпісаных малюнкаў.

"Тэст nocaps паказвае, наколькі добра сістэма здольная апісаць новыя аб'екты, якія не сустракаюцца ў навучальных дадзеных", – кажа Ван.

Каб вырашыць гэтую задачу, каманда Microsoft папярэдне навучыла вялікую мадэль ІІ на шырокім наборы дадзеных, утрымоўвальным малюнкі са слоўнымі тэгамі, кожны з якіх быў супастаўлены з вызначаным аб'ектам на малюнку.

Наборы малюнкаў са слоўнымі тэгамі замест поўных подпісаў ствараць больш эфектыўна, гэта дазволіла камандзе Ван увесці ў сваю мадэль шмат дадзеных. Дзякуючы такому падыходу мадэль атрымала тое, што каманда называе візуальным слоўнікам.

Як растлумачыў Хуан, падыход да папярэдняга навучання з выкарыстаннем візуальнага слоўніка падобны на падрыхтоўку дзяцей да чытання: спачатку выкарыстоўваецца кніжка з карцінкамі, у якой асобныя словы асацыююцца з выявамі, напрыклад, пад фатаграфіяй яблыка напісана "яблык", а пад фатаграфіяй коткі - слова " котка».

«Такая папярэдняя падрыхтоўка з дапамогай візуальнага слоўніка, па сутнасці, уяўляе сабой пачатковую адукацыю, неабходную для навучання сістэмы. Так мы спрабуем напрацаваць своеасаблівую маторную памяць», - сказаў Хуан.

Мадэль, якая прайшла папярэдняе навучанне, затым дапрацоўваецца з дапамогай набору дадзеных, які ўключае падпісаныя выявы. На гэтым этапе навучання мадэль вучыцца складаць прапановы. Калі з'яўляецца выява, якая змяшчае новыя аб'екты, сістэма ІІ выкарыстоўвае візуальны слоўнік для стварэння дакладных апісанняў.

"Для працы з новымі аб'ектамі пры тэставанні сістэма аб'ядноўвае тое, чаму навучылася падчас папярэдняга навучання і падчас наступнай дапрацоўкі", – кажа Ван.
Згодна з вынікамі даследаванні, Пры адзнацы на тэстах nocaps сістэма ІІ стварала больш змястоўныя і дакладныя апісанні, чым гэта рабілі людзі для тых жа малюнкаў.

Паскораны пераход у працоўнае асяроддзе 

Акрамя ўсяго іншага, новая сістэма апісання малюнкаў у два разы лепшая, чым мадэль, якая выкарыстоўваецца ў прадуктах і службах Microsoft з 2015 года, у параўнанні з іншым галіновым эталонам.

Улічваючы перавагі, якія атрымаюць усе карыстачы прадуктаў і паслуг Microsoft ад гэтага паляпшэння, Хуан паскорыў інтэграцыю новай мадэлі ў навакольнае асяроддзе Azure.

«Мы бярэм гэтую прарыўную тэхналогію ІІ на Azure у якасці платформы для абслугоўвання шырэйшага круга кліентаў, – сказаў ён. - І гэта прарыў не толькі ў даследаваннях. Час, які запатрабаваўся, каб уключыць гэты прарыў у працоўнае асяроддзе Azure, таксама стаў прарывам».

Хуан дадаў, што дасягненне вынікаў, параўнальных з чалавечымі, працягвае тэндэнцыю, якая ўжо склалася ў кагнітыўных інтэлектуальных сістэмах Microsoft.

«За апошнія пяць гадоў мы дасягнулі супастаўных з чалавечымі вынікаў у пяці буйных галінах: у распазнанні прамовы, у машынным перакладзе, у адказах на пытанні, у машынным чытанні і разуменні тэксту, а ў 2020 годзе, нягледзячы на ​​COVID-19, у апісанні выяваў », - Сказаў Хуан.

па тэме

Параўнайце вынікі апісання малюнкаў, якія давала сістэма раней і зараз з дапамогай ІІ

Найновая тэхналогія Microsoft, якая з'явілася ў Azure AI, апісвае выявы гэтак жа добра, як і людзі

Фота з бібліятэкі Getty Images. Папярэдняе апісанне: Буйны план чалавека, які рыхтуе хот-дог на апрацоўчай дошцы. Новае апісанне: Чалавек робіць хлеб.

Найновая тэхналогія Microsoft, якая з'явілася ў Azure AI, апісвае выявы гэтак жа добра, як і людзі

Фота з бібліятэкі Getty Images. Папярэдняе апісанне: Чалавек сядзіць на заходзе. Новае апісанне: Вогнішча на пляжы.

Найновая тэхналогія Microsoft, якая з'явілася ў Azure AI, апісвае выявы гэтак жа добра, як і людзі

Фота з бібліятэкі Getty Images. Папярэдняе апісанне: Мужчына ў блакітнай кашулі. Новае апісанне: Некалькі чалавек у хірургічных масках.

Найновая тэхналогія Microsoft, якая з'явілася ў Azure AI, апісвае выявы гэтак жа добра, як і людзі

Фота з бібліятэкі Getty Images. Папярэдняе апісанне: мужчына на скейтбордзе ўзлятае верх па сцяне. Новае апісанне: бейсбаліст ловіць мяч.

Крыніца: habr.com

Дадаць каментар