L-aħħar teknoloġija ta' Microsoft f'Azure AI tiddeskrivi immaġini kif ukoll nies


Ir-riċerkaturi tal-Microsoft ħolqu sistema ta’ intelliġenza artifiċjali li kapaċi tiġġenera captions tal-immaġini li, f’ħafna każijiet, jirriżultaw li jkunu aktar preċiżi minn deskrizzjonijiet magħmula mill-bnedmin. Dan l-avvanz immarka stadju importanti fl-impenn ta' Microsoft li tagħmel il-prodotti u s-servizzi tagħha inklużivi u aċċessibbli għall-utenti kollha.

"Id-deskrizzjoni tal-immaġni hija waħda mill-funzjonijiet ewlenin tal-viżjoni bil-kompjuter, li tagħmel firxa wiesgħa ta 'servizzi possibbli," qal Xuedong Huang (Xuedong Huang), Uffiċjal Tekniku ta' Microsoft u CTO ta' Azure AI Cognitive Services f'Redmond, Washington.

Il-mudell il-ġdid issa huwa disponibbli għall-konsumaturi permezz tal-Viżjoni tal-Kompjuter fuq Servizzi Konjittivi tad-Dwejra, li hija parti minn Azure AI, u tippermetti lill-iżviluppaturi jużaw din il-karatteristika biex itejbu d-disponibbiltà tas-servizzi tagħhom. Qed tiġi inkluża wkoll fl-app Seeing AI u se tkun disponibbli aktar tard din is-sena fil-Microsoft Word u Outlook għall-Windows u Mac, kif ukoll PowerPoint għall-Windows, Mac u fuq il-web.

Deskrizzjoni Awtomatika tgħin lill-utenti jaċċessaw il-kontenut importanti ta 'kwalunkwe immaġni, kemm jekk huwa ritratt ritornat fir-riżultati tat-tfittxija jew illustrazzjoni għal preżentazzjoni.

"L-użu ta 'titoli li jiddeskrivu l-kontenut ta' stampi (l-hekk imsejjaħ test alternattiv jew alternattiv) fuq paġni tal-web u dokumenti huwa speċjalment importanti għal nies għomja jew neqsin mid-dawl," qal Saqib Sheikh (Saqib Shaikh), Software Manager fil-Microsoft AI Platform Group f'Redmond.

Pereżempju, it-tim tiegħu qed juża karatteristika mtejba ta’ deskrizzjoni tal-immaġni fl-app għal nies għomja u neqsin mid-dawl. Jaraw AI, li jagħraf dak li l-kamera qed taqbad u tgħid dwaru. L-app tuża captions ġġenerati biex tiddeskrivi ritratti, inkluż fuq il-midja soċjali.

“Idealment, kulħadd għandu jżid test alternattiv mal-immaġini kollha fid-dokumenti, fuq il-web, fuq in-netwerks soċjali, peress li dan jippermetti lill-persuni għomja jaċċessaw il-kontenut u jieħdu sehem fil-konversazzjoni. Imma, sfortunatament, in-nies ma jagħmlux dan,” tgħid ix-Sheikh. "Madankollu, hemm ftit apps li jużaw il-karatteristika tad-deskrizzjoni tal-immaġni biex iżidu test alternattiv meta jkun nieqes."
  
L-aħħar teknoloġija ta' Microsoft f'Azure AI tiddeskrivi immaġini kif ukoll nies

Liruan Wang, maniġer ġenerali tar-riċerka fil-laboratorju ta 'Redmond ta' Microsoft, mexxa tim ta 'riċerka li kiseb u qabeż ir-riżultati umani. Ritratt: Dan DeLong.

Deskrizzjoni ta' oġġetti ġodda

"Li tiddeskrivi l-immaġini hija waħda mill-kompiti ewlenin tal-viżjoni bil-kompjuter, li teħtieġ sistema ta 'intelliġenza artifiċjali biex tifhem u tiddeskrivi l-kontenut jew l-azzjoni prinċipali ppreżentati fl-immaġni," spjegat Liruan Wang (Lijuan Wang), maniġer ġenerali tar-riċerka fil-laboratorju ta' Redmond ta' Microsoft.

"Għandek bżonn tifhem x'inhu għaddej, tara x'inhuma r-relazzjonijiet bejn l-oġġetti u l-azzjonijiet, u mbagħad tiġbor fil-qosor u tiddeskrivi dan kollu f'sentenza b'lingwaġġ li jinqara mill-bniedem," qalet.

Wang mexxa t-tim tar-riċerka, li fil-benchmarking nocaps (Captioning ta 'oġġett ġdid fuq skala, deskrizzjoni fuq skala kbira ta' oġġetti ġodda) kiseb riżultat komparabbli ma 'wieħed uman, u qabeż. Dan l-ittestjar jippermettilek tevalwa kemm is-sistemi AI jiġġeneraw deskrizzjonijiet ta' oġġetti mpinġi li mhumiex inklużi fis-sett tad-dejta li fuqu ġie mħarreġ il-mudell.

Tipikament, is-sistemi ta' deskrizzjoni ta' l-immaġini huma mħarrġa fuq settijiet ta' dejta li fihom stampi akkumpanjati minn deskrizzjoni testwali ta' dawn l-immaġini, jiġifieri, fuq settijiet ta' stampi ffirmati.

"It-test nocaps juri kemm is-sistema hija kapaċi tiddeskrivi oġġetti ġodda li ma jinstabux fid-dejta tat-taħriġ," jgħid Wang.

Biex issolvi din il-problema, it-tim tal-Microsoft ħarreġ minn qabel mudell AI kbir fuq sett ta’ dejta kbir li fih immaġini bit-tikketta tal-kelma, kull waħda mmappjata għal oġġett speċifiku fl-immaġini.

Settijiet ta 'immaġni b'tikketti ta' kliem minflok captions sħaħ huma aktar effiċjenti biex jinħolqu, u jippermettu lit-tim ta 'Wang biex idaħħal ħafna dejta fil-mudell tagħhom. Dan l-approċċ ta lill-mudell dak li t-tim isejjaħ vokabularju viżwali.

Kif spjega Huang, l-approċċ ta 'qabel it-tagħlim bl-użu ta' vokabularju viżwali huwa simili għall-preparazzjoni tat-tfal għall-qari: l-ewwel, jintuża ktieb bl-istampi li fih kliem individwali huma assoċjati ma 'immaġini, pereżempju, taħt ritratt ta' tuffieħ huwa miktub "tuffieħ" u taħt ritratt ta' qattus hemm il-kelma "qattus".

“Dan it-taħriġ minn qabel bil-vokabularju viżwali huwa, essenzjalment, l-edukazzjoni inizjali meħtieġa biex titħarreġ is-sistema. Hekk nippruvaw niżviluppaw tip ta’ memorja bil-mutur,” qal Huang.

Il-mudell imħarreġ minn qabel imbagħad jiġi rfinat b'sett tad-dejta li jinkludi immaġini ttikkettjati. F'dan l-istadju tat-taħriġ, il-mudell jitgħallem kif jagħmel sentenzi. Jekk tidher immaġni li fiha oġġetti ġodda, is-sistema AI tuża d-dizzjunarju viżwali biex toħloq deskrizzjonijiet preċiżi.

"Biex taħdem ma 'oġġetti ġodda waqt l-ittestjar, is-sistema tintegra dak li tgħallmet waqt it-taħriġ minn qabel u matul ir-raffinament sussegwenti," jgħid Wang.
Skont ir-riżultati riċerka, meta evalwata fuq it-testijiet nocaps, is-sistema AI pproduċiet deskrizzjonijiet aktar sinifikanti u preċiżi milli għamlu l-bnedmin għall-istess immaġini.

Transizzjoni aktar mgħaġġla għall-ambjent tax-xogħol 

Fost affarijiet oħra, is-sistema l-ġdida tad-deskrizzjoni tal-immaġini hija d-doppju tal-mudell użat fil-prodotti u s-servizzi tal-Microsoft mill-2015, meta mqabbla ma 'benchmark ieħor tal-industrija.

Meta wieħed iqis il-benefiċċji li l-utenti kollha tal-prodotti u s-servizzi Microsoft se jirċievu minn dan it-titjib, Huang aċċellerat l-integrazzjoni tal-mudell il-ġdid fl-ambjent tax-xogħol Azure.

"Qed nieħdu din it-teknoloġija AI li tfixkel lil Azure bħala pjattaforma biex taqdi firxa usa 'ta' klijenti," qal. “U dan mhux biss avvanz fir-riċerka. Iż-żmien li ħa biex jiġi inkorporat dan l-avvanz fl-ambjent ta’ produzzjoni ta’ Azure kien ukoll avvanz.”

Huang żied jgħid li l-kisba ta’ riżultati simili għall-bniedem tkompli xejra diġà stabbilita fis-sistemi ta’ intelliġenza konjittiva ta’ Microsoft.

“Fl-aħħar ħames snin, ksibna riżultati simili għall-bniedem f’ħames oqsma ewlenin: fir-rikonoxximent tad-diskors, fit-traduzzjoni awtomatika, fit-tweġibiet tal-mistoqsijiet, fil-qari bil-magni u l-fehim tat-test, u fl-2020, minkejja COVID-19, fid-deskrizzjoni tal-immaġni 'qal Juan.

Skond is-suġġett

Qabbel ir-riżultati tad-deskrizzjoni tal-immaġini li s-sistema tat qabel u issa bl-użu tal-AI

L-aħħar teknoloġija ta' Microsoft f'Azure AI tiddeskrivi immaġini kif ukoll nies

Ritratt bil-kortesija ta' Getty Images. Deskrizzjoni preċedenti: Close-up ta 'raġel li jipprepara hot dog fuq bord tat-tqattigħ. Deskrizzjoni ġdida: Raġel jagħmel il-ħobż.

L-aħħar teknoloġija ta' Microsoft f'Azure AI tiddeskrivi immaġini kif ukoll nies

Ritratt bil-kortesija ta' Getty Images. Deskrizzjoni preċedenti: Raġel qiegħed bilqiegħda fi nżul ix-xemx. Deskrizzjoni ġdida: Ħuti fuq il-bajja.

L-aħħar teknoloġija ta' Microsoft f'Azure AI tiddeskrivi immaġini kif ukoll nies

Ritratt bil-kortesija ta' Getty Images. Deskrizzjoni preċedenti: Raġel bi qmis blu. Deskrizzjoni ġdida: Diversi nies liebes maskri kirurġiċi.

L-aħħar teknoloġija ta' Microsoft f'Azure AI tiddeskrivi immaġini kif ukoll nies

Ritratt bil-kortesija ta' Getty Images. Deskrizzjoni preċedenti: Raġel fuq skateboard itir mal-ħajt. Deskrizzjoni ġdida: Plejer tal-baseball jaqbad ballun.

Sors: www.habr.com

Żid kumment