Microsoft-ek Azure AI-n duen azken teknologiak irudiak zein pertsonak deskribatzen ditu


Microsoft-eko ikertzaileek adimen artifizialeko sistema bat sortu dute, irudi-oinak sortzeko gai dena, eta, askotan, gizakiek egindako deskribapenak baino zehatzagoak izaten dira. Aurrerapen honek mugarri garrantzitsu bat markatu zuen Microsoft-ek bere produktuak eta zerbitzuak inklusiboak eta erabiltzaile guztientzat eskuragarriak izan daitezen konpromisoan.

"Irudiaren deskribapena ordenagailu bidezko ikusmenaren funtzio nagusietako bat da, eta horrek zerbitzu sorta zabala ahalbidetzen du", esan zuen Xuedong Huang-ek (Xuedong Huang), Microsoft-eko arduradun teknikoa eta Azure AI Cognitive Services-eko CTO bat Redmond-en, Washingtonen.

Eredu berria eskuragarri dago orain kontsumitzaileentzat Computer Vision helbidean Azure Zerbitzu kognitiboak, Azure AIren parte dena, eta garatzaileei eginbide hau erabiltzeko aukera ematen die beren zerbitzuen erabilgarritasuna hobetzeko. Seeing AI aplikazioan ere sartzen ari da eta urte honetan bertan eskuragarri egongo da Microsoft Word eta Outlook Windows eta Mac-en, baita PowerPoint-en Windows, Mac eta sarean.

Deskribapen automatikoak edozein irudiren eduki garrantzitsua atzitzen laguntzen die erabiltzaileei, bilaketa-emaitzetan jasotako argazki bat edo aurkezpen baterako ilustrazio bat izan.

"Web orrietan eta dokumentuetan irudien edukia (testu alternatiboa edo alternatiboa deitzen dena) deskribatzen duten epigrafeen erabilera bereziki garrantzitsua da itsu edo ikusmen-urritasuna duten pertsonentzat", esan du Saqib Sheikh-ek (Saqib Shaikh), Redmond-eko Microsoft-en AI Platform Group-eko software-kudeatzailea.

Esaterako, bere taldeak irudien deskribapen-funtzio hobetu bat erabiltzen ari da itsuentzako eta ikusmen-urritasuna duten pertsonentzako aplikazioan. AI ikustea, kamerak ateratzen ari dena ezagutzen eta horri buruz kontatzen duena. Aplikazioak sortutako epigrafeak erabiltzen ditu argazkiak deskribatzeko, sare sozialetan barne.

“Egokiena, denek testu alternatiboa gehitu beharko lieke dokumentuetako irudi guztiei, sarean, sare sozialetan, itsuei edukia sartzeko eta elkarrizketan parte hartzeko aukera ematen dielako. Baina, ai, jendeak ez du hau egiten», dio xeikak. "Hala ere, badira irudien deskribapen funtzioa erabiltzen duten aplikazio batzuk testu alternatiboak gehitzeko falta denean".
  
Microsoft-ek Azure AI-n duen azken teknologiak irudiak zein pertsonak deskribatzen ditu

Liruan Wang, Microsoft-eko Redmond Lab-eko ikerketa-zuzendari nagusiak, giza emaitzak lortu eta gainditu zituen ikerketa-talde bat zuzendu zuen. Argazkia: Dan DeLong.

Objektu berrien deskribapena

"Irudiak deskribatzea ordenagailu bidezko ikusmenaren zeregin nagusietako bat da, eta horrek adimen artifizialaren sistema bat behar du irudian aurkezten diren eduki edo ekintza nagusiak ulertzeko eta deskribatzeko", azaldu du Liruan Wangek (Lijuan Wang), Microsoft-en Redmond laborategiko ikerketa zuzendari nagusia.

"Gertatzen ari dena ulertu behar duzu, objektuen eta ekintzen arteko erlazioak zeintzuk diren asmatu behar duzu, eta, ondoren, dena laburtu eta deskribatu behar duzu gizakiek irakur daitekeen hizkuntzan esaldi batean", esan zuen.

Wangek ikerketa-taldea zuzendu zuen, benchmarking-ean nokaps (objektu berrien azpitituluak eskalan, objektu berrien eskala handiko deskribapena) gizakiaren pareko emaitza lortu zuen, eta gainditu egin zuen. Proba honi esker, AI sistemek eredua trebatu zen datu-multzoan sartzen ez diren irudikatutako objektuen deskribapenak nola sortzen dituzten ebalua dezakezu.

Normalean, irudien deskribapen-sistemak irudi horien testu-deskribapenarekin batera irudiak dituzten datu multzoetan trebatzen dira, hau da, sinatutako irudien multzoetan.

"Nocaps probak sistemak trebakuntza datuetan aurkitu ez diren objektu berriak deskribatzeko gai diren erakusten du", dio Wangek.

Arazo hau konpontzeko, Microsoft-ek AI eredu handi bat aurretiaz trebatu zuen hitzekin etiketatutako irudiak zituen datu multzo handi batean, bakoitza irudiko objektu zehatz batekin mapatuta.

Epigrafe osoen ordez hitz-etiketak dituzten irudi multzoak eraginkorragoak dira sortzeko, Wang-en taldeak bere ereduan datu asko sartzeko aukera emanez. Planteamendu horrek taldeak ikusizko hiztegia deitzen duen ereduari eman zion.

Huang-ek azaldu zuenez, ikusizko hiztegia erabiliz aurre-ikaskuntzaren ikuspegia haurrak irakurtzeko prestatzearen antzekoa da: lehenik eta behin, irudi-liburu bat erabiltzen da, non hitz indibidualak irudiekin lotzen diren, adibidez, sagar baten argazki baten azpian "sagarra" idazten da. eta katu baten argazki baten azpian "katu" hitza dago.

«Hiztegi bisuala duen aurre-prestakuntza hau, funtsean, sistema trebatzeko behar den hasierako heziketa da. Horrela saiatzen gara memoria motor moduko bat garatzen», esan zuen Huangek.

Aurrez trebatutako eredua etiketatutako irudiak dituen datu multzo batekin fintzen da. Prestakuntza fase honetan, ereduak esaldiak egiten ikasten du. Objektu berriak dituen irudi bat agertzen bada, AI sistemak hiztegi bisuala erabiltzen du deskribapen zehatzak sortzeko.

"Probetan zehar objektu berriekin lan egiteko, sistemak aurre-entrenamenduan eta ondorengo hobekuntzan ikasitakoa integratzen du", dio Wangek.
Emaitzen arabera ikerketa, nocaps probetan ebaluatu zenean, AI sistemak gizakiek irudi berdinetarako baino deskribapen esanguratsu eta zehatzagoak egin zituen.

Lan-ingurunerako trantsizio azkarragoa 

Besteak beste, irudien deskribapen-sistema berria 2015az geroztik Microsoft produktu eta zerbitzuetan erabilitako eredua baino bi aldiz ona da, beste sektoreko beste erreferentzia batekin alderatuta.

Microsoft produktu eta zerbitzuen erabiltzaile guztiek hobekuntza honetatik jasoko dituzten onurak kontuan hartuta, Huang-ek eredu berria Azure lan-ingurunean integratzea bizkortu zuen.

"AI teknologia apurtzaile hau Azurera eramaten ari gara bezero sorta zabalago bati zerbitzatzeko plataforma gisa", esan zuen. «Eta hau ez da ikerketan aurrerapauso bat soilik. Aurrerapen hori Azure produkzio-ingurunean txertatzeko behar izan zen denbora ere aurrerapen bat izan zen».

Huang-ek gaineratu du gizakiaren antzeko emaitzak lortzeak Microsoft-en adimen kognitiboko sistemetan jada ezarritako joerari eusten diola.

"Azken bost urteotan, gizakiaren antzeko emaitzak lortu ditugu bost arlo nagusitan: hizkeraren aitorpenean, itzulpen automatikoan, galderei erantzuten, irakurketa automatikoan eta testuen ulermenean, eta 2020an, COVID-19 izan arren, irudien deskribapenean. ' esan zuen Juanek.

Gai honi buruz

Alderatu aurretik sistemak ematen zituen irudien deskribapenaren emaitzak eta orain AI erabiliz

Microsoft-ek Azure AI-n duen azken teknologiak irudiak zein pertsonak deskribatzen ditu

Getty Images erabiltzailearen argazkia. Aurreko deskribapena: Gizon baten lehen planoa txakur bat prestatzen ebaketa-ohol batean. Deskribapen berria: Gizon batek ogia egiten du.

Microsoft-ek Azure AI-n duen azken teknologiak irudiak zein pertsonak deskribatzen ditu

Getty Images erabiltzailearen argazkia. Aurreko deskribapena: Gizon bat ilunabarrean eserita dago. Deskribapen berria: Sua hondartzan.

Microsoft-ek Azure AI-n duen azken teknologiak irudiak zein pertsonak deskribatzen ditu

Getty Images erabiltzailearen argazkia. Aurreko deskribapena: Alkandora urdineko gizon bat. Deskribapen berria: hainbat pertsona maskara kirurgikoak jantzita.

Microsoft-ek Azure AI-n duen azken teknologiak irudiak zein pertsonak deskribatzen ditu

Getty Images erabiltzailearen argazkia. Aurreko deskribapena: skate gainean dagoen gizon bat horman gora egiten du hegan. Deskribapen berria: beisbol jokalari batek pilota bat harrapatzen du.

Iturria: www.habr.com

Gehitu iruzkin berria