La plej nova teknologio de Microsoft en Azure AI priskribas bildojn same kiel homojn


Mikrosoftaj esploristoj kreis artefaritan inteligentecan sistemon kapablan generi bildotekstojn, kiuj, en multaj kazoj, rezultas esti pli precizaj ol priskriboj faritaj de homoj. Ĉi tiu sukceso markis gravan mejloŝtonon en la engaĝiĝo de Mikrosofto fari ĝiajn produktojn kaj servojn inkluzivaj kaj alireblaj por ĉiuj uzantoj.

"Bilda priskribo estas unu el la ĉefaj funkcioj de komputila vizio, kiu ebligas ampleksan gamon de servoj," diris Xuedong Huang (Xuedong Huang), Microsoft Technical Officer kaj CTO de Azure AI Cognitive Services en Redmond, Vaŝingtono.

La nova modelo nun haveblas al konsumantoj per Komputila Vizio ĉe Lazuraj Kognaj Servoj, kiu estas parto de Azure AI, kaj permesas al programistoj uzi ĉi tiun funkcion por plibonigi la haveblecon de siaj servoj. Ĝi ankaŭ estas inkluzivita en la programo Seeing AI kaj estos disponebla poste ĉi-jare en Microsoft Word kaj Outlook por Vindozo kaj Mac, same kiel PowerPoint por Vindozo, Mac kaj en la reto.

Aŭtomata Priskribo helpas uzantojn aliri la gravan enhavon de iu bildo, ĉu ĝi estas foto resendita en serĉrezultoj aŭ ilustraĵo por prezento.

"La uzo de bildotekstoj, kiuj priskribas la enhavon de bildoj (tiel nomata alternativa aŭ alternativa teksto) en retpaĝoj kaj dokumentoj estas speciale grava por blinduloj aŭ viddifektitaj homoj," diris Saqib Sheikh (Saqib Shaikh), Programaro-Manaĝero ĉe la AI Platform Group de Mikrosofto en Redmond.

Ekzemple, lia teamo uzas plibonigitan bildan priskriban funkcion en la apo por blinduloj kaj viddifektitaj homoj. Vidante AI, kiu rekonas kion la fotilo kaptas kaj rakontas pri ĝi. La programo uzas generitajn subtitolojn por priskribi fotojn, inkluzive en sociaj amaskomunikiloj.

“Ideale, ĉiuj aldonu alttekston al ĉiuj bildoj en dokumentoj, en la reto, en sociaj retoj, ĉar tio permesas al blinduloj aliri la enhavon kaj partopreni la konversacion. Sed, ve, homoj ne faras tion,” diras la Ŝejko. "Tamen, ekzistas kelkaj aplikaĵoj, kiuj uzas la bildan priskribon por aldoni alternativan tekston kiam ĝi mankas."
  
La plej nova teknologio de Microsoft en Azure AI priskribas bildojn same kiel homojn

Liruan Wang, ĝenerala direktoro de esplorado ĉe Redmond Lab de Mikrosofto, gvidis esplorteamon kiu atingis kaj superis homajn rezultojn. Foto: Dan DeLong.

Priskribo de novaj objektoj

"Priskribi bildojn estas unu el la ĉefaj taskoj de komputila vizio, kiu postulas artefaritan inteligentecan sistemon por kompreni kaj priskribi la ĉefan enhavon aŭ agon prezentitan en la bildo," klarigis Liruan Wang (Lijuan Wang), ĝenerala direktoro de esplorado ĉe la Redmond-laboratorio de Mikrosofto.

"Vi devas kompreni, kio okazas, ekscii, kiaj estas la rilatoj inter objektoj kaj agoj, kaj poste resumi kaj priskribi ĉion en frazo en homlegebla lingvo," ŝi diris.

Wang gvidis la esplorteamon, kiu en benchmarking nocaps (Nova objektoteksto laŭskale, grandskala priskribo de novaj objektoj) atingis rezulton kompareblan al homa, kaj superis ĝin. Ĉi tiu provo ebligas al vi taksi kiom bone AI-sistemoj generas priskribojn de prezentitaj objektoj, kiuj ne estas inkluzivitaj en la datumaro sur kiu la modelo estis trejnita.

Tipe, bildaj priskribosistemoj estas trejnitaj sur datumserioj kiuj enhavas bildojn akompanitajn per teksta priskribo de tiuj bildoj, tio estas, sur aroj de subskribitaj bildoj.

"La nocaps-testo montras kiom bone la sistemo kapablas priskribi novajn objektojn ne trovitajn en la trejnaj datumoj," diras Wang.

Por solvi ĉi tiun problemon, la Microsoft-teamo antaŭtrejnis grandan AI-modelon sur granda datumaro enhavanta vort-etikeditajn bildojn, ĉiu asociita kun specifa objekto en la bildo.

Bildaroj kun vortaj etikedoj anstataŭ plenaj bildotekstoj estas pli efikaj por krei, permesante al la teamo de Wang nutri multajn datumojn en sian modelon. Ĉi tiu aliro donis al la modelo kion la teamo nomas vida vortprovizo.

Kiel Huang klarigis, la antaŭlernado per vida vortprovizo similas al preparado de infanoj por legado: unue oni uzas bildlibron, en kiu unuopaj vortoj estas asociitaj kun bildoj, ekzemple sub foto de pomo estas skribita "pomo". kaj sub foto de kato estas la vorto "kato".

"Ĉi tiu antaŭtrejnado kun vida vortprovizo estas, esence, la komenca edukado necesa por trejni la sistemon. Jen kiel ni provas evoluigi specon de motora memoro,” diris Huang.

La antaŭtrejnita modelo tiam estas rafinita kun datumaro inkluzive de etikeditaj bildoj. En ĉi tiu etapo de trejnado, la modelo lernas fari frazojn. Se aperas bildo enhavanta novajn objektojn, la AI-sistemo uzas la vidan vortaron por krei precizajn priskribojn.

"Por labori kun novaj objektoj dum testado, la sistemo integras tion, kion ĝi lernis dum antaŭtrejnado kaj dum posta rafinado," diras Wang.
Laŭ la rezultoj esploro, kiam taksita sur la nocaps-testoj, la AI-sistemo produktis pli signifajn kaj precizajn priskribojn ol homoj faris por la samaj bildoj.

Pli rapida transiro al la labormedio 

Interalie, la nova bilda priskribosistemo estas duoble pli bona ol la modelo uzata en Mikrosoftaj produktoj kaj servoj ekde 2015, kompare kun alia industria komparnormo.

Konsiderante la avantaĝojn, kiujn ĉiuj uzantoj de Microsoft-produktoj kaj servoj ricevos de ĉi tiu plibonigo, Huang akcelis la integriĝon de la nova modelo en la Azure-laboran medion.

"Ni portas ĉi tiun interrompan AI-teknologion al Azure kiel platformo por servi pli larĝan gamon da klientoj," li diris. "Kaj ĉi tio ne estas nur sukceso en esplorado. La tempo necesa por korpigi ĉi tiun sukceson en la Azure-produktadmedion ankaŭ estis sukceso."

Huang aldonis, ke atingi homajn rezultojn daŭrigas tendencon jam establitan en la sistemoj de kogna inteligenteco de Mikrosofto.

"Dum la lastaj kvin jaroj, ni atingis homajn rezultojn en kvin ĉefaj kampoj: en parolrekono, en maŝintradukado, en respondado de demandoj, en maŝinlegado kaj tekstokompreno, kaj en 2020, malgraŭ COVID-19, en bilda priskribo. ' Johano diris.

Por temo

Komparu la rezultojn de la priskribo de bildoj, kiujn la sistemo donis antaŭe kaj nun uzante AI

La plej nova teknologio de Microsoft en Azure AI priskribas bildojn same kiel homojn

Foto ĝentileco de Getty Images. Antaŭa priskribo: Deproksima foto de viro preparanta varman hundon sur tranĉtabulo. Nova priskribo: Viro faras panon.

La plej nova teknologio de Microsoft en Azure AI priskribas bildojn same kiel homojn

Foto ĝentileco de Getty Images. Antaŭa priskribo: Viro sidas ĉe sunsubiro. Nova priskribo: Fajro sur la strando.

La plej nova teknologio de Microsoft en Azure AI priskribas bildojn same kiel homojn

Foto ĝentileco de Getty Images. Antaŭa priskribo: Viro en blua ĉemizo. Nova priskribo: Pluraj homoj portantaj kirurgiajn maskojn.

La plej nova teknologio de Microsoft en Azure AI priskribas bildojn same kiel homojn

Foto ĝentileco de Getty Images. Antaŭa priskribo: Viro sur rultabulo flugas supren laŭ la muro. Nova priskribo: basballudanto kaptas pilkon.

fonto: www.habr.com

Aldoni komenton