Najnovija Microsoftova tehnologija u Azure AI opisuje slike kao i ljude


Microsoftovi istraživači su kreirali sistem veštačke inteligencije koji je sposoban da generiše natpise slika koji se u mnogim slučajevima ispostavljaju tačnijim od opisa koje su napravili ljudi. Ovaj napredak označio je veliku prekretnicu u Microsoftovoj posvećenosti da svoje proizvode i usluge učini inkluzivnim i dostupnim svim korisnicima.

"Opis slike je jedna od glavnih funkcija kompjuterskog vida, koja omogućava širok spektar usluga", rekao je Xuedong Huang (Xuedong Huang), Microsoft tehnički službenik i CTO Azure AI Cognitive Services u Redmondu, Washington.

Novi model je sada dostupan potrošačima preko Computer Vision na adresi Azure kognitivne usluge, koji je dio Azure AI, i omogućava programerima da koriste ovu funkciju za poboljšanje dostupnosti svojih usluga. Također je uključen u aplikaciju Seeing AI i bit će dostupan kasnije ove godine u Microsoft Wordu i Outlooku za Windows i Mac, kao i PowerPoint za Windows, Mac i na webu.

Automatski opis pomaže korisnicima da pristupe važnom sadržaju bilo koje slike, bilo da je to fotografija vraćena u rezultatima pretrage ili ilustracija za prezentaciju.

“Upotreba natpisa koji opisuju sadržaj slika (tzv. alternativni ili alternativni tekst) na web stranicama i dokumentima posebno je važna za slijepe ili slabovide osobe”, rekao je Saqib Sheikh (Saqib Shaikh), menadžer softvera u Microsoftovoj grupi za AI platformu u Redmondu.

Na primjer, njegov tim koristi poboljšanu funkciju opisa slika u aplikaciji za slijepe i slabovide osobe. Vidjeti AI, koji prepoznaje ono što kamera snima i govori o tome. Aplikacija koristi generirane natpise za opis fotografija, uključujući na društvenim mrežama.

“U idealnom slučaju, svi bi trebali dodati zamjenski tekst svim slikama u dokumentima, na webu, na društvenim mrežama, jer to omogućava slijepim osobama da pristupe sadržaju i učestvuju u razgovoru. Ali, nažalost, ljudi to ne rade”, kaže šeik. "Međutim, postoji nekoliko aplikacija koje koriste funkciju opisa slike da dodaju alternativni tekst kada nedostaje."
  
Najnovija Microsoftova tehnologija u Azure AI opisuje slike kao i ljude

Liruan Wang, generalni menadžer istraživanja u Microsoftovoj laboratoriji Redmond, predvodio je istraživački tim koji je postigao i nadmašio ljudske rezultate. Fotografija: Dan DeLong.

Opis novih objekata

„Opisivanje slika je jedan od glavnih zadataka kompjuterskog vida, koji zahteva sistem veštačke inteligencije da razume i opiše glavni sadržaj ili radnju predstavljenu na slici“, objasnio je Liruan Vang (Lijuan Wang), generalni menadžer istraživanja u Microsoftovoj laboratoriji Redmond.

„Morate razumjeti šta se dešava, shvatiti kakvi su odnosi između objekata i radnji, a zatim sve to sažmiti i opisati u rečenici na jeziku koji je čitljiv za ljude“, rekla je.

Wang je vodio istraživački tim koji je u benčmarkingu nocaps (opis novih objekata u velikom obimu, opsežni opis novih objekata) postigao je rezultat koji je uporediv s ljudskim, i nadmašio ga. Ovo testiranje vam omogućava da procenite koliko dobro AI sistemi generišu opise prikazanih objekata koji nisu uključeni u skup podataka na kojem je model obučen.

Tipično, sistemi opisa slika se obučavaju na skupovima podataka koji sadrže slike praćene tekstualnim opisom ovih slika, odnosno na skupovima potpisanih slika.

“Nocaps test pokazuje koliko dobro je sistem u stanju da opiše nove objekte koji se ne nalaze u podacima o obuci,” kaže Wang.

Da bi riješio ovaj problem, Microsoftov tim je unaprijed obučio veliki AI model na velikom skupu podataka koji sadrži slike označene riječima, od kojih je svaka povezana s određenim objektom na slici.

Skupovi slika s oznakama riječi umjesto punim natpisima su efikasniji za kreiranje, omogućavajući Wangovom timu da unese mnogo podataka u svoj model. Ovaj pristup je modelu dao ono što tim naziva vizuelnim vokabularom.

Kako je Huang objasnio, pristup prije učenja koji koristi vizualni vokabular sličan je pripremi djece za čitanje: prvo se koristi slikovnica u kojoj su pojedine riječi povezane sa slikama, na primjer, ispod fotografije jabuke piše "jabuka" a ispod fotografije mačke je riječ "mačka".

„Ova predtrening sa vizuelnim vokabularom je, u suštini, početno obrazovanje potrebno za obuku sistema. Ovako pokušavamo da razvijemo neku vrstu motoričke memorije”, rekao je Huang.

Unaprijed obučeni model se zatim rafinira skupom podataka koji uključuje označene slike. U ovoj fazi obuke, model uči da pravi rečenice. Ako se pojavi slika koja sadrži nove objekte, AI sistem koristi vizuelni rečnik za kreiranje tačnih opisa.

„Da bi radio sa novim objektima tokom testiranja, sistem integriše ono što je naučio tokom pre-treninga i tokom naknadnog usavršavanja“, kaže Vang.
Soglasno rezulʹtatam istraživanje, kada se procijeni na nocaps testovima, AI sistem je proizveo smislenije i preciznije opise od ljudi za iste slike.

Brži prelazak u radno okruženje 

Između ostalog, novi sistem opisa slika dvostruko je bolji od modela koji se koristi u Microsoft proizvodima i uslugama od 2015. godine, u poređenju sa drugim referentnim pokazateljem u industriji.

Uzimajući u obzir prednosti koje će svi korisnici Microsoft proizvoda i usluga dobiti od ovog poboljšanja, Huang je ubrzao integraciju novog modela u Azure radno okruženje.

„Prenosimo ovu disruptivnu AI tehnologiju u Azure kao platformu za opsluživanje šireg spektra kupaca“, rekao je. “I ovo nije samo napredak u istraživanju. Vrijeme koje je bilo potrebno da se ovaj proboj ugradi u Azure proizvodno okruženje također je bio iskorak.”

Huang je dodao da postizanje rezultata sličnih ljudima nastavlja trend koji je već uspostavljen u Microsoftovim kognitivnim inteligentnim sistemima.

“Tokom proteklih pet godina postigli smo ljudske rezultate u pet glavnih područja: u prepoznavanju govora, u mašinskom prevođenju, u odgovaranju na pitanja, u mašinskom čitanju i razumijevanju teksta, te 2020. godine, uprkos COVID-19, u opisu slika ' rekao je Huan.

Po temama

Uporedite rezultate opisa slika koje je sistem davao ranije i sada koristeći AI

Najnovija Microsoftova tehnologija u Azure AI opisuje slike kao i ljude

Fotografija ljubaznošću Getty Images. Prethodni opis: Krupni plan muškarca koji priprema hot dog na dasci za sečenje. Novi opis: Čovek pravi hleb.

Najnovija Microsoftova tehnologija u Azure AI opisuje slike kao i ljude

Fotografija ljubaznošću Getty Images. Prethodni opis: Čovjek sjedi na zalasku sunca. Novi opis: Krijes na plaži.

Najnovija Microsoftova tehnologija u Azure AI opisuje slike kao i ljude

Fotografija ljubaznošću Getty Images. Prethodni opis: Muškarac u plavoj košulji. Novi opis: Nekoliko ljudi nosi hirurške maske.

Najnovija Microsoftova tehnologija u Azure AI opisuje slike kao i ljude

Fotografija ljubaznošću Getty Images. Prethodni opis: Čovjek na skejtbordu leti uz zid. Novi opis: Igrač bejzbola hvata loptu.

izvor: www.habr.com

Dodajte komentar