🥇Microsofti uusim tehnoloogia, mis on saadaval Azure AI-s, kirjeldab pilte sama hästi kui inimesed

Microsofti teadlased on loonud tehisintellekti süsteemi, mis suudab genereerida piltide pealkirju, mis paljuski osutuvad täpsemaks kui inimeste tehtud kirjeldused. See läbimurre on oluline verstapost Microsofti püüdlustes muuta oma tooteid ja teenuseid kõigile kasutajatele kaasavaks ja ligipääsetavaks.

„Piltide kirjeldamine on üks peamisi arvutinägemise funktsioone, mis võimaldab erinevate teenuste tööd,” ütles Xue Dong Huang (Xuedong Huang), Microsofti tehnoloogiatöötaja ja Azure AI Cognitive Services peamine tehniline direktor Redmondis (Washingtoni osariik).

Uus mudel on nüüd tarbijatele saadaval Computer Visioni kaudu Azure Cognitive Services, mis on osa Azure AI-st, ning võimaldab arendajatel selle võimaluse abil oma teenuste ligipääsetavust parandada. See on samuti kaasatud rakendusse Seeing AI ja hakkab lõpusel aastal tööle Microsoft Wordis ja Outlookis Windowsi ja Maci jaoks, samuti PowerPointis Windowsis, Macis ja veebiversioonis.

Automaatne kirjeldus aitab kasutajatel juurdepääsu saada igasugusele pildiga seotud olulisele sisule, olgu selleks fotod, mis ilmuvad otsingutulemustes, või esitlusillustratsioonid.

„Kasutades märkusi, mis kirjeldavad piltide sisu (nii-öelda alternatiivne või asendustekst), veebilehtedel ja dokumentides, on see eriti oluline nägemispuudega inimestele,“ ütles Saqib Shaikh (Saqib Shaikh), Microsofti AI platvormide grupi tarkvarajuht Redmondis.

Näiteks kasutab tema meeskond rakenduses, mis on mõeldud nägemispuudega inimestele, täiustatud pildikirjelduse funktsiooni Seeing AI, mis tuvastab kaamera jäädvustatud sisu ja räägib sellest. Rakendus kasutab genereeritud märkuseid, et pilte, sealhulgas sotsiaalmeedias, kirjeldada.

Ideaalis peaks kõigil olema alternatiivne tekst iga pildi jaoks dokumentides, internetis ja sotsiaalmeedias, kuna see võimaldab nägemispuudega inimestel pääseda sisu juurde ja osaleda arutelus. Kahjuks inimesed seda ei tee, – ütleb Sheikh. – Siiski on mõned rakendused, mis kasutavad piltide kirjeldamise funktsiooni, et lisada alternatiivne tekst, kui see puudub.

Lijuani Wang, Microsofti uurimislabori peajuht Redmondis, juhtis teadusmeeskonda, mis saavutas tulemuse, mis on sarnane inimvõimekusele, ja isegi ületas selle. Foto: Dan DeLong.

Uute objektide kirjeldus

Piltide kirjeldamine on üks arvutikatsetuste põhitegevusi, mis vajab kunstliku intellekti süsteemi, et mõista ja kirjeldada põhisisu või tegevust, mis on pildil esitatud, "selgitas Lijuani Wang (Lijuan Wang), Microsofti uurimislabori peajuht Redmondis.

„On oluline mõista, mis toimub, välja selgitada, kuidas objektide ja tegevuste vahelisi suhteid ning seejärel kõik see sageli inimesesõbralikul keelel kokku võtta,” ütles ta.

Wan juhtis uuringute meeskonda, mis saavutas normtestimisel nocaps (novel object captioning at scale, uute objektide ulatuslik kirjeldamine) tulemuse, mis on võrreldav inimeste omaga ning ületas selle. See testimine võimaldab hinnata, kui hästi AI süsteemid genereerivad kirjeldusi kujutatud objektidest, mis ei kuulu andmehulka, mille alusel mudel on koolitatud.

Tavaliselt koolitatakse pildikirjeldussüsteemid andmehulkades, mis sisaldavad pilte koos nende piltide tekstiliste kirjeldustega, st allkirjastatud pildihulkades.

„Nocaps’i test näitab, kui hästi süsteem on võimeline kirjeldama uusi objekte, mis ei esine koolitusandmetes,” ütleb Wan.

Selle ülesande lahendamiseks treenis Microsofti meeskond suurt tehisintellekti mudelit ulatuslikul andmestikul, mis sisaldas pildigalerii sõnalisi silte, millest igaühel oli vastav objekt pildil.

Pildigalerii sõnaliste silmade kasutamine täisteksti asemel on efektiivsem, see võimaldas Van meeskonnal oma mudelisse palju andmeid sisestada. Tänu sellele lähenemisele omandas mudel selle, mida meeskond nimetab visuaalseks sõnaraamatuks.

Kuidas Juan selgitas, on see lähenemine visuaalse sõnaraamatu kasutamiseks eelõppeks sarnane laste lugemisoskuse õpetamisele: alguses kasutatakse piltide raamatu, kus eraldi sõnad seostatakse piltide, näiteks õuna pildiga, mille all on kirjutatud 'õun', ning kassi pildiga, mille all on sõna 'kass'.

„Selline eelõpe visuaalse sõnaraamatuga on tegelikult vajalik algkoolitus süsteemi õpetamiseks. Nii püüame välja töötada omamoodi lihasmälu,“ ütles Juan.

Eelnevalt koolitatud mudel täiendatakse seejärel andmestiku kogumi abil, mis sisaldab allkirjastatud pilte. Selles õppimise etapis õpib mudel lauseid koostama. Kui ilmub pilt, mis sisaldab uusi objekte, kasutab tehisintellekti süsteem visuaalset sõnastikku täpsete kirjelduste loomiseks.

„Uute objektide testimise käigus ühendab süsteem selle, mida ta õppis eelnevatel ja täiustatud koolitusetappidel,“ ütleb Wang.
Vastavalt tulemusele uurimise, nocaps testide hindamisel genereeris tehisintellekti süsteem sisukamaid ja täpsemaid kirjeldusi kui inimesed sama pildi kohta.

Kiire üleminek töökeskkonda

Uus piltide kirjeldamise süsteem on kahekordselt parem kui mudel, mida on kasutatud Microsofti toodetes ja teenustes alates 2015. aastast, võrreldes teiste tööstusharu standarditega.

Arvestades selle täiustuse eeliseid, mida kõik Microsofti toodete ja teenuste kasutajad saavad, kiirendas Juan uue mudeli integreerimist töökeskkonda Azure.

«Me võtame selle läbimurdelise AI tehnoloogia Azure'is platvormina, et teenindada laiemat klientide ringi,» ütles ta. «Ja see läbimurre ei ole ainult teadusuuringutes. Aeg, mis läks selle läbimurde toomiseks Azure'i töökeskkonda, on samuti olnud läbimurre.»

Juan lisas, et inimvõimetega võrdsete tulemuste saavutamine jätkab Microsofti kognitiivsete intelligentsüsteemide juba välja kujunenud suunda.

«Viimase viie aasta jooksul oleme saavutanud inimvõimetega sarnased tulemused viies peamises valdkonnas: kõnetuvastuses, masintõlkes, küsimustele vastamises, masinloetavuses ja tekstide mõistmises. 2020. aastal, hoolimata COVID-19-st, ka piltide kirjeldamises,» ütles Juan.

Teema

Külastage veebilehte Azure Cognitive Services et saada teada rohkem arvutinägemisest (Arvutinägemine)
Lugege artiklit Ajalooline saavutus — Microsofti teadlased saavutasid automaatse kõnetuvastuse inimvõimekuse taseme

Võrrelge piltide kirjeldamise tulemusi, mida süsteem andis varem ja nüüd AI abil

Getty Images'i fotod. Eelmine kirjeldus: lähedane plaan inimesest, kes valmistab lõikelaual kuuma koera. Uus kirjeldus: inimene valmistab leiba.

Getty Images'i fotod. Eelmine kirjeldus: inimene istub päikeseloojangul. Uus kirjeldus: lõkkeplats rannas.

Getty Images'i fotod. Eelmine kirjeldus: mees sinises särgis. Uus kirjeldus: mitu inimest kirurgiliste maskidega.