Microsoftin uusin Azure AI -tekniikka kuvaa sekä kuvia että ihmisiä


Microsoftin tutkijat ovat luoneet tekoälyjärjestelmän, joka pystyy luomaan kuvatekstit, jotka monissa tapauksissa osoittautuvat tarkempiksi kuin ihmisten tekemät kuvaukset. Tämä läpimurto oli merkittävä virstanpylväs Microsoftin sitoutumisessa tekemään tuotteistaan ​​ja palveluistaan ​​osallistavia ja kaikkien käyttäjien saatavilla.

"Kuvan kuvaus on yksi tietokonenäön päätoiminnoista, mikä mahdollistaa laajan valikoiman palveluita", sanoi Xuedong Huang (Xuedong Huang), Microsoftin tekninen johtaja ja Azure AI Cognitive Servicesin teknologiajohtaja Redmondissa, Washingtonissa.

Uusi malli on nyt kuluttajien saatavilla Computer Visionin kautta osoitteessa Azure-kognitiiviset palvelut, joka on osa Azure AI:tä ja jonka avulla kehittäjät voivat käyttää tätä ominaisuutta parantaakseen palveluidensa saatavuutta. Se on myös sisällytetty Seeing AI -sovellukseen, ja se on saatavilla myöhemmin tänä vuonna Microsoft Wordissa ja Outlook for Windowsissa ja Macissa sekä PowerPointissa Windowsille, Macille ja verkossa.

Automaattinen kuvaus auttaa käyttäjiä pääsemään käsiksi minkä tahansa kuvan tärkeään sisältöön, olipa kyseessä sitten hakutuloksissa palautettu valokuva tai esityksen havainnointi.

"Kuvien sisältöä kuvaavien kuvatekstien (niin sanottu vaihtoehtoinen tai vaihtoehtoinen teksti) käyttö verkkosivuilla ja asiakirjoissa on erityisen tärkeää sokeille tai näkövammaisille", sanoi Saqib Sheikh.Saqib Shaikh), ohjelmistopäällikkö Microsoftin AI Platform Groupissa Redmondissa.

Esimerkiksi hänen tiiminsä käyttää sovelluksessa parannettua kuvankuvausominaisuutta sokeille ja näkövammaisille. AI: n näkeminen, joka tunnistaa kameran ottaman kuvan ja kertoo siitä. Sovellus käyttää luotuja kuvatekstejä kuvien kuvaamiseen, myös sosiaalisessa mediassa.

”Ihannetapauksessa kaikkien pitäisi lisätä vaihtoehtoinen teksti kaikkiin kuviin dokumenteissa, verkossa, sosiaalisissa verkostoissa, koska näin sokeat pääsevät käsiksi sisältöön ja osallistuvat keskusteluun. Mutta valitettavasti ihmiset eivät tee tätä”, Sheikh sanoo. "On kuitenkin olemassa muutamia sovelluksia, jotka käyttävät kuvan kuvausominaisuutta lisätäkseen vaihtoehtoista tekstiä, kun se puuttuu."
  
Microsoftin uusin Azure AI -tekniikka kuvaa sekä kuvia että ihmisiä

Liruan Wang, Microsoftin Redmond Labin tutkimuksen pääjohtaja, johti tutkimusryhmää, joka saavutti ja ylitti inhimillisiä tuloksia. Kuva: Dan DeLong.

Uusien kohteiden kuvaus

"Kuvien kuvaaminen on yksi tietokonenäön päätehtävistä, mikä vaatii tekoälyjärjestelmän ymmärtämään ja kuvaamaan kuvassa esitetyn pääsisällön tai toiminnan", Liruan Wang selittää.Lijuan Wang), tutkimusjohtaja Microsoftin Redmond-laboratoriossa.

"Sinun täytyy ymmärtää, mitä tapahtuu, selvittää, mitkä suhteet ovat esineiden ja toimien välillä, ja sitten tiivistää ja kuvata se kaikki lauseella ihmisen luettavalla kielellä", hän sanoi.

Wang johti tutkimusryhmää, joka benchmarkingissa nokkarit (uusi esinetekstitys mittakaavassa, laajamittainen kuvaus uusista esineistä) saavutti ihmiseen verrattavan tuloksen ja ylitti sen. Tämän testauksen avulla voit arvioida, kuinka hyvin tekoälyjärjestelmät luovat kuvauksia kuvatuista objekteista, jotka eivät sisälly tietojoukkoon, johon mallia opetettiin.

Tyypillisesti kuvankuvausjärjestelmiä koulutetaan tietosarjoihin, jotka sisältävät kuvia, joihin liittyy näiden kuvien tekstillinen kuvaus, eli allekirjoitettujen kuvien sarjoihin.

"Nocaps-testi osoittaa, kuinka hyvin järjestelmä pystyy kuvaamaan uusia esineitä, joita ei löydy harjoitustiedoista", Wang sanoo.

Tämän ongelman ratkaisemiseksi Microsoft-tiimi esiopetti suuren tekoälymallin suurelle tietojoukolle, joka sisälsi sanamerkityt kuvat, joista kukin liittyy tiettyyn kuvan objektiin.

Kuvasarjat, joissa on sanatunnisteet täydellisten kuvatekstien sijaan, ovat tehokkaampia luoda, jolloin Wangin tiimi voi syöttää paljon tietoa malliinsa. Tämä lähestymistapa antoi mallille sen, mitä tiimi kutsuu visuaaliseksi sanastoksi.

Kuten Huang selitti, visuaalista sanastoa käyttävä esioppiminen on samanlainen kuin lasten valmistaminen lukemiseen: ensin käytetään kuvakirjaa, jossa yksittäiset sanat yhdistetään kuviin, esimerkiksi omenan valokuvan alle kirjoitetaan "omena". ja kissan valokuvan alla on sana "kissa".

”Tämä visuaalisen sanaston esikoulutus on pohjimmiltaan peruskoulutus, jota tarvitaan järjestelmän kouluttamiseen. Tällä tavalla yritämme kehittää eräänlaista motorista muistia", Huang sanoi.

Esiopetettu malli hiotaan sitten tietojoukolla, joka sisältää merkittyjä kuvia. Tässä koulutusvaiheessa malli oppii tekemään lauseita. Jos uusia objekteja sisältävä kuva tulee näkyviin, tekoälyjärjestelmä käyttää visuaalista sanakirjaa tarkkojen kuvausten luomiseen.

"Jos haluat työskennellä uusien kohteiden kanssa testauksen aikana, järjestelmä integroi sen, mitä se on oppinut esikoulutuksen ja myöhemmän tarkentamisen aikana", Wang sanoo.
Tulosten perusteella tutkimusNocaps-testeillä arvioituna tekoälyjärjestelmä tuotti merkityksellisempiä ja tarkempia kuvauksia kuin ihmiset tekivät samoista kuvista.

Nopeampi siirtyminen työympäristöön 

Muun muassa uusi kuvankuvausjärjestelmä on kaksi kertaa parempi kuin Microsoftin tuotteissa ja palveluissa vuodesta 2015 lähtien käytetty malli verrattuna toiseen toimialaan.

Ottaen huomioon edut, joita kaikki Microsoft-tuotteiden ja -palveluiden käyttäjät saavat tästä parannuksesta, Huang vauhditti uuden mallin integrointia Azure-työympäristöön.

"Viemme tämän häiritsevän tekoälyteknologian Azureen alustana palvellaksemme laajempaa asiakaskuntaa", hän sanoi. ”Eikä tämä ole vain läpimurto tutkimuksessa. Aika, joka kului tämän läpimurron sisällyttämiseen Azure-tuotantoympäristöön, oli myös läpimurto."

Huang lisäsi, että ihmisen kaltaisten tulosten saavuttaminen jatkaa Microsoftin kognitiivisissa älyjärjestelmissä jo vakiintunutta trendiä.

”Viimeisen viiden vuoden aikana olemme saavuttaneet inhimillisiä tuloksia viidellä pääalueella: puheentunnistuksessa, konekääntämisessä, kysymyksiin vastaamisessa, konelukemisessa ja tekstin ymmärtämisessä sekä vuonna 2020 COVID-19:stä huolimatta kuvakuvauksessa. ' Juan sanoi.

Aiheittain

Vertaa järjestelmän antamien kuvien kuvauksen tuloksia ennen ja nyt tekoälyä käyttäen

Microsoftin uusin Azure AI -tekniikka kuvaa sekä kuvia että ihmisiä

Kuva: Getty Images. Edellinen kuvaus: Lähikuva miehestä, joka valmistelee hot dogia leikkuulaudalla. Uusi kuvaus: Mies tekee leipää.

Microsoftin uusin Azure AI -tekniikka kuvaa sekä kuvia että ihmisiä

Kuva: Getty Images. Edellinen kuvaus: Mies istuu auringonlaskun aikaan. Uusi kuvaus: Kokko rannalla.

Microsoftin uusin Azure AI -tekniikka kuvaa sekä kuvia että ihmisiä

Kuva: Getty Images. Edellinen kuvaus: Mies sinisessä paidassa. Uusi kuvaus: Useita ihmisiä, jotka käyttävät kirurgisia maskeja.

Microsoftin uusin Azure AI -tekniikka kuvaa sekä kuvia että ihmisiä

Kuva: Getty Images. Edellinen kuvaus: Mies rullalaudalla lentää seinää pitkin. Uusi kuvaus: Pesäpalloilija nappaa pallon.

Lähde: will.com

Lisää kommentti