Microsoftova najnovejša tehnologija v Azure AI opisuje slike in ljudi


Microsoftovi raziskovalci so ustvarili sistem umetne inteligence, ki lahko ustvari napise slik, ki se v mnogih primerih izkažejo za natančnejše od opisov, ki jih naredijo ljudje. Ta preboj je pomenil velik mejnik v Microsoftovi zavezi, da svoje izdelke in storitve naredi vključujoče in dostopne vsem uporabnikom.

»Opis slike je ena glavnih funkcij računalniškega vida, ki omogoča široko paleto storitev,« je dejal Xuedong Huang (Xuedong Huang), Microsoftov tehnični uradnik in tehnični direktor Azure AI Cognitive Services v Redmondu v Washingtonu.

Novi model je zdaj na voljo potrošnikom preko Computer Vision na naslovu Azurne kognitivne storitve, ki je del Azure AI, in razvijalcem omogoča uporabo te funkcije za izboljšanje razpoložljivosti svojih storitev. Vključen je tudi v aplikacijo Seeing AI in bo na voljo pozneje v tem letu v Microsoft Wordu in Outlooku za Windows in Mac ter PowerPoint za Windows, Mac in v spletu.

Samodejni opis uporabnikom pomaga pri dostopu do pomembne vsebine katere koli slike, ne glede na to, ali gre za fotografijo, vrnjeno v rezultatih iskanja, ali ilustracijo za predstavitev.

»Uporaba napisov, ki opisujejo vsebino slik (tako imenovano alternativno ali alternativno besedilo) na spletnih straneh in dokumentih, je še posebej pomembna za slepe ali slabovidne osebe,« je dejal Saqib Sheikh (Saqib Shaikh), vodja programske opreme pri Microsoftovi AI Platform Group v Redmondu.

Njegova ekipa na primer uporablja izboljšano funkcijo opisa slike v aplikaciji za slepe in slabovidne osebe. Videti AI, ki prepozna, kaj kamera zajema in o tem pove. Aplikacija uporablja ustvarjene napise za opis fotografij, tudi na družbenih medijih.

»Idealno bi bilo, če bi vsi dodali nadomestno besedilo vsem slikam v dokumentih, na spletu, na družbenih omrežjih, saj tako slepim omogočimo dostop do vsebine in sodelovanje v pogovoru. Ampak, žal, ljudje tega ne počnejo,« pravi šejk. "Vendar pa obstaja nekaj aplikacij, ki uporabljajo funkcijo opisa slike za dodajanje alternativnega besedila, ko manjka."
  
Microsoftova najnovejša tehnologija v Azure AI opisuje slike in ljudi

Liruan Wang, generalni direktor raziskav v Microsoftovem laboratoriju Redmond, je vodil raziskovalno skupino, ki je dosegla in presegla človeške rezultate. Fotografija: Dan DeLong.

Opis novih objektov

»Opisovanje slik je ena glavnih nalog računalniškega vida, ki zahteva sistem umetne inteligence, da razume in opiše glavno vsebino ali dejanje, predstavljeno na sliki,« je pojasnil Liruan Wang (Lijuan Wang), generalni direktor raziskav v Microsoftovem laboratoriju Redmond.

"Razumeti morate, kaj se dogaja, ugotoviti, kakšna so razmerja med predmeti in dejanji, nato pa vse to povzeti in opisati v stavku v človeku berljivem jeziku," je dejala.

Wang je vodil raziskovalno skupino, ki je v primerjalni analizi nocaps (veliko podnapisovanje novih objektov, obsežni opis novih objektov) dosegel rezultat, ki je primerljiv s človeškim, in ga presegel. To testiranje vam omogoča, da ocenite, kako dobro sistemi AI generirajo opise upodobljenih predmetov, ki niso vključeni v nabor podatkov, na podlagi katerega je bil model usposobljen.

Običajno so sistemi za opisovanje slik usposobljeni na nizih podatkov, ki vsebujejo slike, ki jih spremlja besedilni opis teh slik, to je na nizih podpisanih slik.

"Test nocaps kaže, kako dobro je sistem sposoben opisati nove predmete, ki jih v podatkih o usposabljanju ni," pravi Wang.

Da bi rešili to težavo, je ekipa Microsofta vnaprej usposobila velik model AI na velikem naboru podatkov, ki vsebuje slike, označene z besedami, od katerih je vsaka povezana z določenim predmetom na sliki.

Nabore slik z besednimi oznakami namesto s polnimi napisi je učinkoviteje ustvariti, kar Wangovi ekipi omogoča, da v svoj model vnese veliko podatkov. Ta pristop je modelu dal tisto, kar ekipa imenuje vizualni besednjak.

Kot je pojasnil Huang, je pristop pred učenjem z uporabo vizualnega besedišča podoben pripravi otrok na branje: najprej se uporabi slikanica, v kateri so posamezne besede povezane s podobami, na primer pod fotografijo jabolka piše "jabolko" in pod fotografijo mačke je beseda "mačka".

»To predhodno usposabljanje z vizualnim besediščem je v bistvu začetno izobraževanje, potrebno za usposabljanje sistema. Tako poskušamo razviti neke vrste motorični spomin,« je dejal Huang.

Vnaprej usposobljen model se nato izboljša z naborom podatkov, vključno z označenimi slikami. Na tej stopnji usposabljanja se model nauči sestavljati stavke. Če se pojavi slika, ki vsebuje nove predmete, sistem AI uporablja vizualni slovar za ustvarjanje natančnih opisov.

»Za delo z novimi objekti med testiranjem sistem integrira tisto, kar se je naučil med predhodnim usposabljanjem in med kasnejšim izpopolnjevanjem,« pravi Wang.
Glede na rezultate Raziskave, ko je bil ocenjen na testih nocaps, je sistem AI ustvaril bolj smiselne in natančne opise kot ljudje za iste slike.

Hitrejši prehod v delovno okolje 

Med drugim je novi sistem opisovanja slik dvakrat boljši od modela, ki se uporablja v Microsoftovih izdelkih in storitvah od leta 2015, v primerjavi z drugim primerjalnim merilom v industriji.

Glede na prednosti, ki jih bodo s to izboljšavo prejeli vsi uporabniki Microsoftovih izdelkov in storitev, je Huang pospešil integracijo novega modela v delovno okolje Azure.

»To prelomno tehnologijo umetne inteligence prenašamo v Azure kot platformo za oskrbo širšega kroga strank,« je dejal. »In to ni le preboj v raziskavah. Tudi čas, ki je bil potreben za vključitev tega preboja v produkcijsko okolje Azure, je bil preboj.«

Huang je dodal, da doseganje človeških rezultatov nadaljuje trend, ki je že vzpostavljen v Microsoftovih sistemih kognitivne inteligence.

»V zadnjih petih letih smo dosegli rezultate, podobne človeškim, na petih glavnih področjih: pri prepoznavanju govora, pri strojnem prevajanju, pri odgovarjanju na vprašanja, pri strojnem branju in razumevanju besedila ter leta 2020, kljub COVID-19, pri opisovanju slik. « je rekel Juan.

Po temah

Primerjajte rezultate opisa slik, ki jih je sistem dal prej in zdaj z uporabo AI

Microsoftova najnovejša tehnologija v Azure AI opisuje slike in ljudi

Fotografija z dovoljenjem Getty Images. Prejšnji opis: Moški od blizu pripravlja hot dog na deski za rezanje. Nov opis: Človek peče kruh.

Microsoftova najnovejša tehnologija v Azure AI opisuje slike in ljudi

Fotografija z dovoljenjem Getty Images. Prejšnji opis: Moški sedi ob sončnem zahodu. Nov opis: Kres na plaži.

Microsoftova najnovejša tehnologija v Azure AI opisuje slike in ljudi

Fotografija z dovoljenjem Getty Images. Prejšnji opis: Moški v modri srajci. Nov opis: Več ljudi nosi kirurške maske.

Microsoftova najnovejša tehnologija v Azure AI opisuje slike in ljudi

Fotografija z dovoljenjem Getty Images. Prejšnji opis: Moški na rolki leti po steni. Nov opis: igralec bejzbola lovi žogo.

Vir: www.habr.com

Dodaj komentar