Naujausia „Microsoft“ technologija, ateinanti į Azure AI, apibūdina vaizdus ir žmones


„Microsoft“ mokslininkai sukūrė dirbtinio intelekto sistemą, kuri gali generuoti vaizdų antraštes, kurios daugeliu atvejų yra tikslesnės nei žmogaus aprašymai. Šis laimėjimas yra svarbus žingsnis siekiant Microsoft įsipareigojimo padaryti savo produktus ir paslaugas įtraukiančius ir prieinamus visiems vartotojams.

„Vaizdo aprašymas yra viena iš pagrindinių kompiuterinio matymo funkcijų, leidžiančių teikti platų paslaugų spektrą“, – sakė Xuedong Huang (Xuedong Huang), „Microsoft“ techninis bendradarbis ir „Azure AI Cognitive Services“ Redmonde, Vašingtone, vyriausiasis technologijų pareigūnas.

Naujasis modelis dabar prieinamas vartotojams per Computer Vision adresu „Azure“ pažintinės paslaugos, kuri yra Azure AI dalis, ir leidžia kūrėjams naudoti šią galimybę, kad pagerintų savo paslaugų prieinamumą. Jis taip pat įtrauktas į „Seeing AI“ programą ir vėliau šiais metais bus paleistas „Microsoft Word“ ir „Outlook“, skirtose „Windows“ ir „Mac“, taip pat „PowerPoint“, skirtoje „Windows“, „Mac“ ir žiniatinklyje.

Automatinis aprašymas padeda naudotojams pasiekti svarbų bet kurio vaizdo turinį, nesvarbu, ar tai būtų paieškos rezultate pateikta nuotrauka, ar pristatymo iliustracija.

„Antraštės, apibūdinančios vaizdų turinį (vadinamus alternatyviu arba alternatyviu tekstu) tinklalapiuose ir dokumentuose, yra ypač svarbūs akliems ar silpnaregiams žmonėms“, – sakė Saqibas Sheikhas.Saqibas Shaikhas), programinės įrangos valdytojas „Microsoft“ AI platformų grupėje Redmonde.

Pavyzdžiui, jo komanda akliesiems ir silpnaregiams programoje naudoja patobulintą vaizdo aprašymo funkciją Pamatyti AI, kuri atpažįsta ką filmuoja kamera ir apie tai kalba. Programėlė naudoja sugeneruotas antraštes nuotraukoms apibūdinti, taip pat ir socialiniuose tinkluose.

„Idealiu atveju visi turėtų pridėti alternatyvųjį tekstą prie visų vaizdų dokumentuose, internete ir socialiniuose tinkluose, nes tai leidžia akliesiems pasiekti turinį ir dalyvauti pokalbyje. Bet, deja, žmonės to nedaro“, – sako šeichas. „Tačiau yra keletas programų, kurios naudoja vaizdo aprašymo funkciją, kad pridėtų alternatyvų tekstą, kai jo nėra.
  
Naujausia „Microsoft“ technologija, ateinanti į Azure AI, apibūdina vaizdus ir žmones

Lijuanas Wangas, „Microsoft“ Redmondo laboratorijos vyresnysis tyrimų vadovas, vadovavo tyrimų grupei, kuri pasiekė žmones panašių ir geresnių rezultatų. Nuotrauka: Dan DeLong.

Naujų objektų aprašymas

„Vaizdo aprašymas yra viena iš pagrindinių kompiuterinio matymo užduočių, kuriai reikalinga dirbtinio intelekto sistema, kad suprastų ir apibūdintų pagrindinį vaizde pavaizduotą turinį ar veiksmą“, – aiškino Lijuanas Wangas (Lijuanas Vangas), vyresnysis tyrimų vadovas Microsoft Redmond laboratorijoje.

„Reikia suprasti, kas vyksta, išsiaiškinti, kokie yra santykiai tarp objektų ir veiksmų, o tada visa tai apibendrinti ir apibūdinti sakiniu žmonėms suprantama kalba“, – sakė ji.

Wang vadovavo tyrimų grupei, kuri atliko etaloninį tyrimą nocaps (naujų objektų antraštės masteliu, platus naujų objektų aprašymas) pasiekė rezultatų, palyginamų su žmogiškaisiais ir juos pranoko. Šis bandymas įvertina, kaip gerai AI sistemos sukuria pavaizduotų objektų, kurie nėra duomenų rinkinio, pagal kurį buvo apmokytas modelis, dalis.

Paprastai vaizdų aprašymo sistemos yra apmokomos duomenų rinkiniuose, kuriuose yra vaizdų kartu su tekstiniais šių vaizdų aprašymais, ty pažymėtų vaizdų rinkiniais.

„Nocaps testas parodo, kaip gerai sistema gali apibūdinti naujus objektus, kurių nėra mokymo duomenyse“, – sako Wang.

Siekdama išspręsti šią problemą, „Microsoft“ komanda iš anksto parengė didelį AI modelį didžiuliame duomenų rinkinyje, kuriame yra vaizdų su žodžių žymomis, kurių kiekvienas buvo susietas su konkrečiu vaizdo objektu.

Veiksmingiau buvo kurti vaizdų rinkinius su žodžių žymomis, o ne pilnas antraštes, o tai leido Wang komandai į savo modelį įtraukti daug duomenų. Šis metodas modeliui suteikė tai, ką komanda vadina vaizdiniu žodynu.

Kaip paaiškino Huangas, vizualinio žodyno išankstinio mokymo metodas yra panašus į vaikų paruošimą skaityti: Pirma, naudojama paveikslėlių knyga, kurioje atskiri žodžiai susiejami su paveikslėliais, pavyzdžiui, po obuolio nuotrauka parašyta „obuolys“ ir po katės nuotrauka yra žodis „katė“.

„Šis išankstinis mokymas su vaizdiniu žodynu iš esmės yra pradinis mokymas, reikalingas sistemai apmokyti. Taip stengiamės išvystyti savotišką motorinę atmintį“, – sakė Huangas.

Tada iš anksto paruoštas modelis patobulinamas naudojant duomenų rinkinį, kuriame yra vaizdų su antraštėmis. Šiame mokymo etape modelis išmoksta formuoti sakinius. Jei pasirodo vaizdas, kuriame yra naujų objektų, AI sistema naudoja vaizdinį žodyną tiksliam aprašymui sukurti.

„Norint susidoroti su naujais objektais bandymo metu, sistema sujungia tai, ko išmoko per išankstinį mokymą ir vėlesnio tobulinimo metu“, - sako Wang.
Pagal rezultatus tyrimasĮvertinus nocaps testus, AI sistema sukūrė prasmingesnius ir tikslesnius tų pačių vaizdų aprašymus nei žmonės.

Greitesnis perėjimas į darbo aplinką 

Be kita ko, pagal kitą pramonės etaloną naujoji vaizdų aprašymo sistema yra dvigubai geresnė nei modelis, naudojamas „Microsoft“ produktuose ir paslaugose nuo 2015 m.

Atsižvelgdama į naudą, kurią iš šio patobulinimo gaus visi „Microsoft“ produktų ir paslaugų vartotojai, „Huang“ paspartino naujojo modelio integravimą į „Azure“ darbalaukio aplinką.

„Šią proveržio AI technologiją perkeliame į Azure kaip platformą, skirtą aptarnauti platesnį klientų ratą“, – sakė jis. „Ir tai yra proveržis ne tik mokslinių tyrimų srityje. Laikas, kurio prireikė, kad šis proveržis būtų įtrauktas į Azure gamybos aplinką, taip pat buvo proveržis.

Huangas pridūrė, kad į žmones panašių rezultatų siekimas tęsia tendenciją, jau nusistovėjusią „Microsoft“ kognityvinio intelekto sistemose.

„Per pastaruosius penkerius metus pasiekėme žmogaus lygio rezultatų penkiose pagrindinėse srityse: kalbos atpažinimo, mašininio vertimo, atsakymo į klausimus, mašininio skaitymo ir teksto supratimo, o 2020 m., nepaisant COVID-19, vaizdo aprašyme“, – sakė Juanas.

Pagal temą

Palyginkite vaizdų aprašymų, kuriuos sistema pateikė anksčiau ir dabar naudodama AI, rezultatus

Naujausia „Microsoft“ technologija, ateinanti į Azure AI, apibūdina vaizdus ir žmones

Nuotrauka iš Getty Images bibliotekos. Ankstesnis aprašymas: Vyro, gaminančio dešrainį ant pjaustymo lentos, vaizdas iš arti. Naujas aprašymas: vyras gamina duoną.

Naujausia „Microsoft“ technologija, ateinanti į Azure AI, apibūdina vaizdus ir žmones

Nuotrauka iš Getty Images bibliotekos. Ankstesnis aprašymas: Vyras sėdi saulei leidžiantis. Naujas aprašymas: Laužas paplūdimyje.

Naujausia „Microsoft“ technologija, ateinanti į Azure AI, apibūdina vaizdus ir žmones

Nuotrauka iš Getty Images bibliotekos. Ankstesnis aprašymas: Vyras mėlynais marškiniais. Naujas aprašymas: Keli žmonės dėvi chirurgines kaukes.

Naujausia „Microsoft“ technologija, ateinanti į Azure AI, apibūdina vaizdus ir žmones

Nuotrauka iš Getty Images bibliotekos. Ankstesnis aprašymas: vyras ant riedlentės skrenda siena. Naujas aprašymas: beisbolo žaidėjas gaudo kamuolį.

Šaltinis: www.habr.com

Добавить комментарий