Teknolojia ya hivi punde ya Microsoft katika Azure AI inaelezea picha na watu


Watafiti wa Microsoft wameunda mfumo wa kijasusi bandia ambao unaweza kutoa maelezo mafupi ya picha ambayo, mara nyingi, ni sahihi zaidi kuliko maelezo ya binadamu. Mafanikio haya yanaashiria hatua kuu katika kujitolea kwa Microsoft kufanya bidhaa na huduma zake zijumuishwe na kufikiwa na watumiaji wote.

"Maelezo ya picha ni mojawapo ya kazi za msingi za maono ya kompyuta, ambayo huwezesha huduma mbalimbali," alisema Xuedong Huang (Xuedong Huang), mtaalamu mwenza wa Microsoft na afisa mkuu wa teknolojia wa Huduma za Utambuzi za Azure AI huko Redmond, Washington.

Mtindo mpya sasa unapatikana kwa watumiaji kupitia Computer Vision at Huduma za Utambuzi za Azure, ambayo ni sehemu ya Azure AI, na inaruhusu wasanidi programu kutumia uwezo huu kuboresha upatikanaji wa huduma zao. Pia imejumuishwa katika programu ya Seeing AI na itazinduliwa baadaye mwaka huu katika Microsoft Word na Outlook kwa Windows na Mac, pamoja na PowerPoint ya Windows, Mac na wavuti.

Maelezo ya kiotomatiki huwasaidia watumiaji kufikia maudhui muhimu ya picha yoyote, iwe ni picha iliyorejeshwa katika matokeo ya utafutaji au kielelezo cha wasilisho.

"Matumizi ya maelezo mafupi yanayoelezea yaliyomo kwenye picha (inayoitwa maandishi mbadala au alt) kwenye kurasa za wavuti na hati ni muhimu haswa kwa watu ambao ni vipofu au wenye uoni hafifu," alisema Saqib Sheikh (Saqib Sheikh), meneja wa programu katika kikundi cha Microsoft cha AI Platforms huko Redmond.

Kwa mfano, timu yake inatumia kipengele cha maelezo ya picha kilichoboreshwa katika programu kwa ajili ya watu wasioona na wenye matatizo ya kuona Kuona AI, ambayo hutambua kile ambacho kamera inarekodi na kukizungumzia. Programu hutumia manukuu yaliyotolewa kuelezea picha, ikiwa ni pamoja na kwenye mitandao ya kijamii.

"Kwa kweli, kila mtu anapaswa kuongeza maandishi mengine kwa picha zote kwenye hati, mkondoni, na mitandao ya kijamii, kwani hii inaruhusu vipofu kupata yaliyomo na kushiriki katika mazungumzo. Lakini, ole, watu hawafanyi hivi, "anasema Sheikh. "Hata hivyo, kuna programu kadhaa zinazotumia kipengele cha maelezo ya picha ili kuongeza maandishi mbadala wakati hakuna inayopatikana."
  
Teknolojia ya hivi punde ya Microsoft katika Azure AI inaelezea picha na watu

Lijuan Wang, meneja mkuu wa utafiti katika maabara ya Microsoft ya Redmond, aliongoza timu ya utafiti ambayo ilipata matokeo kama ya binadamu na bora zaidi. Picha: Dan DeLong.

Maelezo ya vitu vipya

"Maelezo ya picha ni mojawapo ya kazi kuu za maono ya kompyuta, ambayo inahitaji mfumo wa akili wa bandia kuelewa na kuelezea maudhui kuu au hatua inayowakilishwa kwenye picha," alielezea Lijuan Wang (Lijuan Wang), meneja mkuu wa utafiti katika maabara ya Microsoft ya Redmond.

"Unahitaji kuelewa kinachoendelea, kubaini uhusiano ni nini kati ya vitu na vitendo, na kisha ufupishe na ueleze yote katika sentensi katika lugha inayoeleweka na binadamu," alisema.

Wang aliongoza timu ya utafiti ambayo iliweka alama nocaps (manukuu ya kitu cha riwaya kwa kiwango, maelezo makubwa ya vitu vipya) ilipata matokeo yanayolingana na ya binadamu na kuwapita. Jaribio hili hutathmini jinsi mifumo ya AI inavyozalisha maelezo ya vitu vilivyoonyeshwa ambavyo si sehemu ya data ambayo muundo huo ulifunzwa.

Kwa kawaida, mifumo ya maelezo ya picha hufunzwa kwenye seti za data zilizo na picha zinazoambatana na maelezo ya maandishi ya picha hizi, yaani, kwenye seti za picha zilizo na lebo.

"Jaribio la nocaps linaonyesha jinsi mfumo unavyoweza kuelezea vitu vipya visivyopatikana kwenye data ya mafunzo," anasema Wang.

Ili kutatua tatizo hili, timu ya Microsoft ilifunza awali mfano mkubwa wa AI kwenye mkusanyiko mkubwa wa data ulio na picha zilizo na lebo za maneno, ambazo kila moja ilihusishwa na kitu mahususi kwenye picha.

Ilikuwa bora zaidi kuunda seti za picha zenye tagi za maneno badala ya manukuu kamili, ambayo iliruhusu timu ya Wang kulisha data nyingi katika muundo wao. Mbinu hii ilimpa kielelezo kile ambacho timu inakiita msamiati wa kuona.

Kama Huang alivyoeleza, mbinu ya msamiati wa kuona kabla ya kufundisha ni sawa na kuandaa watoto kusoma: Kwanza, kitabu cha picha hutumiwa ambapo maneno ya mtu binafsi yanahusishwa na picha, kwa mfano, chini ya picha ya apple inasema "apple" na. chini ya picha ya paka neno "paka".

"Mafunzo haya ya awali na kamusi ya kuona kimsingi ndiyo elimu ya awali inayohitajika kutoa mafunzo kwa mfumo. Hivi ndivyo tunavyojaribu kukuza kumbukumbu ya gari, "Huang alisema.

Muundo uliofunzwa awali husasishwa kwa kutumia mkusanyiko wa data unaojumuisha picha zilizo na maelezo mafupi. Katika hatua hii ya mafunzo, mtindo hujifunza kuunda sentensi. Ikiwa picha inaonekana ikiwa na vitu vipya, mfumo wa AI hutumia kamusi inayoonekana kuunda maelezo sahihi.

"Ili kukabiliana na vitu vipya wakati wa kupima, mfumo unachanganya kile ulichojifunza wakati wa mafunzo ya awali na wakati wa maendeleo yaliyofuata," anasema Wang.
Kulingana na matokeo utafitiIlipotathminiwa kwenye majaribio ya nocaps, mfumo wa AI ulitoa maelezo ya maana na sahihi zaidi kuliko wanadamu walivyofanya kwa picha zile zile.

Kuharakisha mpito kwa mazingira ya kazi 

Miongoni mwa mambo mengine, mfumo mpya wa maelezo ya picha ni bora maradufu kuliko mtindo uliotumika katika bidhaa na huduma za Microsoft tangu 2015, kulingana na kiwango cha sekta nyingine.

Kwa kuzingatia manufaa ambayo watumiaji wote wa bidhaa na huduma za Microsoft watapata kutokana na uboreshaji huu, Huang ameharakisha ujumuishaji wa muundo mpya katika mazingira ya eneo-kazi la Azure.

"Tunachukua mafanikio haya ya teknolojia ya AI hadi Azure kama jukwaa la kuhudumia wateja wengi zaidi," alisema. "Na hii ni mafanikio sio tu katika utafiti. Wakati uliochukua kujumuisha mafanikio haya katika mazingira ya uzalishaji wa Azure pia ulikuwa mafanikio.

Huang aliongeza kuwa kupata matokeo yanayofanana na binadamu kunaendelea mtindo ambao tayari umeanzishwa katika mifumo ya akili ya utambuzi ya Microsoft.

"Katika kipindi cha miaka mitano iliyopita, tumepata matokeo ya kiwango cha binadamu katika maeneo makuu matano: utambuzi wa usemi, tafsiri ya mashine, kujibu maswali, usomaji wa mashine na kuelewa maandishi, na mnamo 2020, licha ya COVID-19, maelezo ya picha" alisema Juan.

Kwa mada

Linganisha matokeo ya maelezo ya picha ambayo mfumo ulitoa hapo awali na sasa kwa kutumia AI

Teknolojia ya hivi punde ya Microsoft katika Azure AI inaelezea picha na watu

Picha kutoka kwa maktaba ya Getty Images. Maelezo ya awali: Mtu wa karibu akipika mbwa kwenye ubao wa kukata. Maelezo mapya: Mtu hutengeneza mkate.

Teknolojia ya hivi punde ya Microsoft katika Azure AI inaelezea picha na watu

Picha kutoka kwa maktaba ya Getty Images. Maelezo ya awali: Mwanamume huketi machweo ya jua. Maelezo mapya: Bonfire ufukweni.

Teknolojia ya hivi punde ya Microsoft katika Azure AI inaelezea picha na watu

Picha kutoka kwa maktaba ya Getty Images. Maelezo ya awali: Mwanamume mwenye shati la bluu. Maelezo mapya: Watu kadhaa wamevaa vinyago vya upasuaji.

Teknolojia ya hivi punde ya Microsoft katika Azure AI inaelezea picha na watu

Picha kutoka kwa maktaba ya Getty Images. Maelezo ya awali: mtu kwenye skateboard huruka ukuta. Maelezo mapya: Mchezaji wa besiboli anashika mpira.

Chanzo: mapenzi.com

Kuongeza maoni