Microsoftova najnovija tehnologija u Azure AI opisuje slike jednako dobro kao i ljude


Microsoftovi istraživači stvorili su sustav umjetne inteligencije koji može generirati opise slika koji su u mnogim slučajevima točniji od ljudskih opisa. Ovaj napredak označava veliku prekretnicu u Microsoftovoj predanosti da svoje proizvode i usluge učini inkluzivnim i dostupnim svim korisnicima.

"Opis slike jedna je od temeljnih funkcija računalnog vida, koja omogućuje širok raspon usluga", rekao je Xuedong Huang (Xuedong Huang), Microsoftov tehnički suradnik i glavni tehnološki direktor Azure AI Cognitive Services u Redmondu, Washington.

Novi model sada je dostupan potrošačima putem računalnog vida na adresi Kognitivne usluge Azure, koji je dio Azure AI, i omogućuje programerima da koriste ovu mogućnost za poboljšanje dostupnosti svojih usluga. Također je uključena u aplikaciju Seeing AI i pokrenut će se kasnije ove godine u Microsoft Wordu i Outlooku za Windows i Mac, kao i PowerPoint za Windows, Mac i web.

Automatski opis pomaže korisnicima da pristupe važnom sadržaju bilo koje slike, bilo da se radi o fotografiji vraćenoj u rezultatu pretraživanja ili ilustraciji za prezentaciju.

"Korištenje naslova koji opisuju sadržaj slika (zvanih alternativni ili alternativni tekst) na web stranicama i dokumentima posebno je važno za slijepe ili slabovidne osobe", rekao je Saqib Sheikh (Saqib Shaikh), upravitelj softvera u Microsoftovoj grupi AI Platforms u Redmondu.

Na primjer, njegov tim koristi poboljšanu značajku opisa slike u aplikaciji za slijepe i slabovidne osobe Vidjevši AI, koji prepoznaje što kamera snima i o tome govori. Aplikacija koristi generirane naslove za opisivanje fotografija, uključujući i na društvenim mrežama.

“U idealnom slučaju, svatko bi trebao dodati alternativni tekst svim slikama u dokumentima, na internetu i na društvenim mrežama, jer to slijepim osobama omogućuje pristup sadržaju i sudjelovanje u razgovoru. Ali, nažalost, ljudi to ne rade", kaže Sheikh. "Međutim, postoji nekoliko aplikacija koje koriste značajku opisa slike za dodavanje alternativnog teksta kada nijedan nije dostupan."
  
Microsoftova najnovija tehnologija u Azure AI opisuje slike jednako dobro kao i ljude

Lijuan Wang, viši voditelj istraživanja u Microsoftovom laboratoriju u Redmondu, vodio je istraživački tim koji je postigao rezultate slične ljudskim i bolje. Fotografija: Dan DeLong.

Opis novih objekata

"Opis slike jedan je od glavnih zadataka računalnog vida, koji zahtijeva sustav umjetne inteligencije za razumijevanje i opisivanje glavnog sadržaja ili radnje predstavljene na slici", objasnio je Lijuan Wang (Lijuan Wang), viši voditelj istraživanja u Microsoftovom laboratoriju u Redmondu.

"Morate razumjeti što se događa, shvatiti koji su odnosi između objekata i radnji, a zatim sve to sažeti i opisati u rečenici jezikom razumljivim ljudima", rekla je.

Wang je vodio istraživački tim koji je mjerio nocaps (označavanje novog objekta u mjerilu, veliki opis novih objekata) postigli rezultate usporedive s ljudskim i nadmašili ih. Ovo testiranje procjenjuje koliko dobro AI sustavi generiraju opise prikazanih objekata koji nisu dio skupa podataka na kojem je model obučen.

Obično se sustavi za opis slika obučavaju na skupovima podataka koji sadrže slike popraćene tekstualnim opisima tih slika, odnosno na skupovima označenih slika.

"Nocaps test pokazuje koliko dobro sustav može opisati nove objekte koji nisu pronađeni u podacima za obuku", kaže Wang.

Kako bi riješio ovaj problem, Microsoftov tim je unaprijed uvježbao veliki AI model na ogromnom skupu podataka koji sadrži slike s oznakama riječi, od kojih je svaka bila povezana s određenim objektom na slici.

Bilo je učinkovitije stvarati skupove slika s oznakama riječi umjesto s punim opisima, što je omogućilo Wangovom timu da unese mnogo podataka u svoj model. Ovaj pristup je modelu dao ono što tim naziva vizualnim rječnikom.

Kao što je Huang objasnio, pristup predučavanju vizualnog vokabulara sličan je pripremi djece za čitanje: prvo se koristi slikovnica u kojoj su pojedinačne riječi povezane sa slikama, na primjer, ispod fotografije jabuke piše "jabuka" i ispod fotografije mačke riječ "mačka".

“Ova prethodna obuka s vizualnim rječnikom u biti je početna edukacija potrebna za obuku sustava. Ovako pokušavamo razviti neku vrstu motoričke memorije,” rekao je Huang.

Unaprijed uvježbani model se zatim usavršava pomoću skupa podataka koji uključuje slike s naslovima. U ovoj fazi obuke model uči oblikovati rečenice. Ako se pojavi slika koja sadrži nove objekte, AI sustav koristi vizualni rječnik za stvaranje točnih opisa.

"Da bi se nosio s novim objektima tijekom testiranja, sustav kombinira ono što je naučio tijekom predvježbe i tijekom naknadnog razvoja", kaže Wang.
Soglasno rezulʹtatam istraživanjeKada je procijenjen na nocaps testovima, AI sustav proizveo je smislenije i točnije opise od ljudi za iste slike.

Ubrzani prijelaz u radnu sredinu 

Između ostalog, novi sustav opisa slika dvostruko je bolji od modela koji se koristi u Microsoftovim proizvodima i uslugama od 2015. godine, prema drugoj industrijskoj mjerilu.

S obzirom na prednosti koje će svi korisnici Microsoftovih proizvoda i usluga dobiti od ovog poboljšanja, Huang je ubrzao integraciju novog modela u Azure desktop okruženje.

"Prenosimo ovu revolucionarnu AI tehnologiju na Azure kao platformu za opsluživanje šireg kruga korisnika", rekao je. “I ovo je napredak ne samo u istraživanju. Vrijeme koje je bilo potrebno za ugradnju ovog otkrića u Azure proizvodno okruženje također je bilo veliko otkriće.”

Huang je dodao da postizanje rezultata sličnih ljudskim nastavlja trend koji je već uspostavljen u Microsoftovim sustavima kognitivne inteligencije.

"Tijekom proteklih pet godina postigli smo rezultate na ljudskoj razini u pet glavnih područja: prepoznavanje govora, strojno prevođenje, odgovaranje na pitanja, strojno čitanje i razumijevanje teksta, a 2020., unatoč COVID-19, opis slike", rekao je Juan.

Po temi

Usporedite rezultate opisa slika koje je sustav davao prije i sada koristeći AI

Microsoftova najnovija tehnologija u Azure AI opisuje slike jednako dobro kao i ljude

Fotografija iz biblioteke Getty Images. Prethodni opis: Krupni plan čovjeka koji kuha hot dog na dasci za rezanje. Novi opis: Čovjek pravi kruh.

Microsoftova najnovija tehnologija u Azure AI opisuje slike jednako dobro kao i ljude

Fotografija iz biblioteke Getty Images. Prethodni opis: Čovjek sjedi na zalasku sunca. Novi opis: Vatra na plaži.

Microsoftova najnovija tehnologija u Azure AI opisuje slike jednako dobro kao i ljude

Fotografija iz biblioteke Getty Images. Prethodni opis: Muškarac u plavoj košulji. Novi opis: Nekoliko ljudi nosi kirurške maske.

Microsoftova najnovija tehnologija u Azure AI opisuje slike jednako dobro kao i ljude

Fotografija iz biblioteke Getty Images. Prethodni opis: čovjek na skateboardu leti uza zid. Novi opis: Bejzbolaš hvata loptu.

Izvor: www.habr.com

Dodajte komentar