Microsofti uusim Azure AI tehnoloogia kirjeldab nii pilte kui ka inimesi


Microsofti teadlased on loonud tehisintellekti süsteemi, mis on võimeline genereerima piltide pealdisi, mis paljudel juhtudel osutuvad täpsemaks kui inimeste tehtud kirjeldused. See läbimurre tähistas olulist verstaposti Microsofti pühendumuses muuta oma tooted ja teenused kaasavaks ja kõigile kasutajatele juurdepääsetavaks.

"Pildikirjeldus on arvutinägemise üks peamisi funktsioone, mis teeb võimalikuks laia valikut teenuseid," ütles Xuedong Huang (Xuedong Huang), Microsofti tehniline ametnik ja Azure AI kognitiivsete teenuste CTO Redmondis, Washingtonis.

Uus mudel on nüüd tarbijatele saadaval Computer Visioni kaudu aadressil Azure'i kognitiivsed teenused, mis on osa Azure AI-st ja võimaldab arendajatel seda funktsiooni kasutada oma teenuste kättesaadavuse parandamiseks. See lisatakse ka rakendusse Seeing AI ja see on saadaval hiljem sel aastal Microsoft Wordis ja Outlookis Windowsi ja Maci jaoks, samuti PowerPointis Windowsile, Macile ja veebis.

Automaatne kirjeldus aitab kasutajatel pääseda juurde mis tahes pildi olulisele sisule, olgu see siis otsingutulemustes tagastatud foto või esitluse illustratsioon.

"Piltide (nn alternatiivsete või alternatiivsete tekstide) sisu kirjeldavate subtiitrite kasutamine veebilehtedel ja dokumentides on eriti oluline pimedatele või vaegnägijatele," ütles Saqib Sheikh.Saqib Shaikh), tarkvarahaldur Microsofti AI Platform Groupis Redmondis.

Näiteks kasutab tema meeskond pimedatele ja vaegnägijatele mõeldud rakenduses täiustatud pildikirjelduse funktsiooni. Tehisintellekti nägemine, mis tunneb ära, mida kaamera pildistab ja räägib sellest. Rakendus kasutab fotode kirjeldamiseks loodud pealkirju, sealhulgas sotsiaalmeedias.

“Ideaalis peaks igaüks lisama kõikidele piltidele dokumentides, veebis, sotsiaalvõrgustikes alternatiivteksti, kuna see võimaldab pimedatel sisule ligi pääseda ja vestlusest osa võtta. Aga paraku inimesed seda ei tee,” ütleb šeik. "Samas on mõned rakendused, mis kasutavad pildikirjelduse funktsiooni, et lisada alternatiivset teksti, kui see puudub."
  
Microsofti uusim Azure AI tehnoloogia kirjeldab nii pilte kui ka inimesi

Liruan Wang, Microsofti Redmond Labi uuringute üldjuht, juhtis uurimisrühma, mis saavutas ja ületas inimeste tulemusi. Foto: Dan DeLong.

Uute objektide kirjeldus

"Piltide kirjeldamine on arvutinägemise üks peamisi ülesandeid, mis nõuab tehisintellekti süsteemi, et mõista ja kirjeldada pildil esitatud põhisisu või tegevust," selgitas Liruan Wang (Lijuan Wang), Microsofti Redmondi labori uuringute üldjuht.

"Peate aru saama, mis toimub, välja mõtlema, millised on seosed objektide ja tegevuste vahel ning seejärel võtma kokku ja kirjeldama seda kõike inimloetavas keeles lausega," ütles ta.

Wang juhtis uurimisrühma, mis tegeles võrdlusuuringuga nocaps (uudne objektide pealdis mastaabis, uute objektide laiaulatuslik kirjeldus) saavutas inimesega võrreldava tulemuse ja ületas selle. See testimine võimaldab teil hinnata, kui hästi AI-süsteemid genereerivad kujutatud objektide kirjeldusi, mis ei sisaldu andmekogus, mille alusel mudelit koolitati.

Tavaliselt õpetatakse pildikirjeldussüsteeme andmekogumitele, mis sisaldavad kujutisi koos nende piltide tekstilise kirjeldusega, st allkirjastatud kujutiste komplektidega.

"Nocapsi test näitab, kui hästi suudab süsteem kirjeldada uusi objekte, mida koolitusandmetes ei leitud, " ütleb Wang.

Selle probleemi lahendamiseks koolitas Microsofti meeskond suure tehisintellekti mudeli suure andmestiku põhjal, mis sisaldas sõnasildiga pilte, millest igaüks oli seotud pildil konkreetse objektiga.

Pildikomplekte, millel on täistiitrite asemel sõnamärgised, on tõhusam luua, võimaldades Wangi meeskonnal oma mudelisse palju andmeid sisestada. See lähenemine andis mudelile selle, mida meeskond nimetab visuaalseks sõnavaraks.

Nagu Huang selgitas, on visuaalset sõnavara kasutav eelõppe lähenemine sarnane laste lugemiseks ettevalmistamisega: esiteks kasutatakse pildiraamatut, milles üksikud sõnad on seotud piltidega, näiteks õuna foto alla on kirjutatud "õun". ja kassi foto all on sõna "kass".

«See visuaalse sõnavaraga eelkoolitus on sisuliselt süsteemi koolitamiseks vajalik algharidus. Nii püüame arendada teatud tüüpi motoorset mälu, ”ütles Huang.

Seejärel täiustatakse eelkoolitatud mudelit andmestikuga, mis sisaldab märgistatud pilte. Selles koolitusetapis õpib modell lauseid koostama. Kui ilmub uusi objekte sisaldav pilt, kasutab AI-süsteem täpsete kirjelduste loomiseks visuaalset sõnastikku.

"Uute objektidega testimise ajal töötamiseks integreerib süsteem eelkoolituse ja hilisema täiustamise ajal õpitu, " ütleb Wang.
Vastavalt tulemustele teadustöö, kui seda hinnati nocapsi testides, andis AI-süsteem samade piltide jaoks tähendusrikkamad ja täpsemad kirjeldused kui inimesed.

Kiirem üleminek töökeskkonda 

Muuhulgas on uus pildikirjeldussüsteem võrreldes teise valdkonna võrdlusalusega kaks korda parem kui Microsofti toodetes ja teenustes alates 2015. aastast kasutatud mudel.

Arvestades eeliseid, mida kõik Microsofti toodete ja teenuste kasutajad sellest täiustusest saavad, kiirendas Huang uue mudeli integreerimist Azure'i töökeskkonda.

"Viime selle häiriva AI-tehnoloogia Azure'i platvormina, et teenindada laiemat hulka kliente," ütles ta. "Ja see pole ainult läbimurre teadusuuringutes. Aeg, mis kulus selle läbimurde lisamiseks Azure'i tootmiskeskkonda, oli samuti läbimurre.

Huang lisas, et inimlike tulemuste saavutamine jätkab Microsofti kognitiivse intelligentsuse süsteemides juba väljakujunenud suundumust.

„Viimase viie aasta jooksul oleme saavutanud inimlikke tulemusi viies suures valdkonnas: kõnetuvastuses, masintõlkes, küsimustele vastamises, masinlugemises ja teksti mõistmises ning 2020. aastal, vaatamata COVID-19-le, pildikirjelduses. " ütles Juan.

Teema järgi

Võrrelge piltide kirjelduse tulemusi, mille süsteem andis enne ja nüüd tehisintellekti kasutades

Microsofti uusim Azure AI tehnoloogia kirjeldab nii pilte kui ka inimesi

Foto autorilt Getty Images. Eelmine kirjeldus: Lähivõte mehest, kes valmistab lõikelaual hot dogi. Uus kirjeldus: Mees teeb leiba.

Microsofti uusim Azure AI tehnoloogia kirjeldab nii pilte kui ka inimesi

Foto autorilt Getty Images. Eelmine kirjeldus: Mees istub päikeseloojangul. Uus kirjeldus: Lõke rannas.

Microsofti uusim Azure AI tehnoloogia kirjeldab nii pilte kui ka inimesi

Foto autorilt Getty Images. Eelmine kirjeldus: Mees sinises särgis. Uus kirjeldus: Mitu inimest kannavad kirurgilisi maske.

Microsofti uusim Azure AI tehnoloogia kirjeldab nii pilte kui ka inimesi

Foto autorilt Getty Images. Eelmine kirjeldus: Mees rulal lendab mööda seina üles. Uus kirjeldus: pesapallimängija püüab palli.

Allikas: www.habr.com

Lisa kommentaar