Microsoft jaunākā tehnoloģija Azure AI apraksta attēlus, kā arī cilvēkus


Microsoft pētnieki ir radÄ«juÅ”i mākslÄ«gā intelekta sistēmu, kas spēj Ä£enerēt attēlu parakstus, kas daudzos gadÄ«jumos izrādās precÄ«zāki nekā cilvēku radÄ«tie apraksti. Å is sasniegums iezÄ«mēja bÅ«tisku pavērsienu Microsoft apņēmÄ«bā padarÄ«t savus produktus un pakalpojumus iekļaujoÅ”us un pieejamus visiem lietotājiem.

"Attēla apraksts ir viena no galvenajām datorredzes funkcijām, kas padara iespējamu plaÅ”u pakalpojumu klāstu," sacÄ«ja Sjuedongs Huangs (Sjuduns Huans), Microsoft tehniskais darbinieks un Azure AI Cognitive Services tehniskais vadÄ«tājs Redmondā, VaÅ”ingtonā.

Jaunais modelis tagad ir pieejams patērētājiem, izmantojot Computer Vision vietnē Azure kognitÄ«vie pakalpojumi, kas ir daļa no Azure AI, un ļauj izstrādātājiem izmantot Å”o funkciju, lai uzlabotu savu pakalpojumu pieejamÄ«bu. Tas tiek iekļauts arÄ« lietotnē Seeing AI un bÅ«s pieejams vēlāk Å”ogad programmās Microsoft Word un Outlook operētājsistēmai Windows un Mac, kā arÄ« PowerPoint operētājsistēmai Windows, Mac un tÄ«meklÄ«.

Automātiskais apraksts palÄ«dz lietotājiem piekļūt jebkura attēla svarÄ«gajam saturam neatkarÄ«gi no tā, vai tas ir fotoattēls, kas atgriezts meklÄ“Å”anas rezultātos, vai prezentācijas ilustrācija.

"Parakstu izmantoÅ”ana, kas apraksta attēlu saturu (tā saukto alternatÄ«vo vai alternatÄ«vo tekstu) tÄ«mekļa lapās un dokumentos, ir Ä«paÅ”i svarÄ«gi neredzÄ«giem vai vājredzÄ«giem cilvēkiem," sacÄ«ja Sakibs Å eihs (Sakibs Å aiks), programmatÅ«ras vadÄ«tājs Microsoft AI platformu grupā Redmondā.

Piemēram, viņa komanda akliem un vājredzÄ«giem cilvēkiem paredzētā lietotnē izmanto uzlabotu attēlu apraksta funkciju. Redzot AI, kas atpazÄ«st kameras uzņemto un stāsta par to. Lietotne izmanto Ä£enerētus parakstus, lai aprakstÄ«tu fotoattēlus, tostarp sociālajos medijos.

ā€œIdeālā gadÄ«jumā ikvienam bÅ«tu jāpievieno alternatÄ«vais teksts visiem attēliem dokumentos, tÄ«meklÄ«, sociālajos tÄ«klos, jo tas ļauj neredzÄ«giem cilvēkiem piekļūt saturam un piedalÄ«ties sarunā. Bet, diemžēl, cilvēki tā nedara,ā€ saka Å”eihs. "Tomēr ir dažas lietotnes, kas izmanto attēla apraksta funkciju, lai pievienotu alternatÄ«vu tekstu, ja tā trÅ«kst."
  
Microsoft jaunākā tehnoloģija Azure AI apraksta attēlus, kā arī cilvēkus

Liruan Wang, Microsoft Redmond Lab pētījumu galvenais vadītājs, vadīja pētnieku grupu, kas sasniedza un pārspēja cilvēku rezultātus. Foto: Dan DeLong.

Jauno objektu apraksts

"Attēlu aprakstÄ«Å”ana ir viens no galvenajiem datorredzes uzdevumiem, kam nepiecieÅ”ama mākslÄ«gā intelekta sistēma, lai saprastu un aprakstÄ«tu galveno attēlā parādÄ«to saturu vai darbÄ«bu," skaidroja Liruana Vanga (Liruan Wang)Lihuans Vans), pētÄ«jumu galvenais vadÄ«tājs Microsoft Redmondas laboratorijā.

"Jums ir jāsaprot, kas notiek, jāizdomā, kādas ir attiecības starp objektiem un darbībām, un pēc tam tas viss jāapkopo un jāapraksta teikumā cilvēkiem lasāmā valodā," viņa teica.

Vangs vadÄ«ja pētnieku grupu, kas veica salÄ«dzinoÅ”o novērtÄ“Å”anu nocaps (romānu objektu paraksti mērogā, jaunu objektu liela mēroga apraksts) panāca ar cilvēka rezultātu salÄ«dzināmu rezultātu un pārspēja to. Å Ä« pārbaude ļauj novērtēt, cik labi AI sistēmas Ä£enerē attēloto objektu aprakstus, kas nav iekļauti datu kopā, uz kuras tika apmācÄ«ts modelis.

Parasti attēlu aprakstu sistēmas tiek apmācÄ«tas datu kopās, kurās ir attēli, kam pievienots Å”o attēlu tekstuāls apraksts, tas ir, parakstÄ«tu attēlu kopās.

"Nocaps tests parāda, cik labi sistēma spēj aprakstīt jaunus objektus, kas nav atrasti apmācības datos," saka Vanga.

Lai atrisinātu Å”o problēmu, Microsoft komanda iepriekÅ” sagatavoja lielu AI modeli lielai datu kopai, kas satur attēlus, kas marķēti ar vārdiem, un katrs no tiem ir saistÄ«ts ar konkrētu attēla objektu.

Efektīvāk ir izveidot attēlu kopas ar vārdu tagiem, nevis pilniem parakstiem, ļaujot Vanga komandai savā modelī ievadīt daudz datu. Šī pieeja modelim deva to, ko komanda sauc par vizuālo vārdu krājumu.

Kā skaidroja Huangs, pirmsmācÄ«bas pieeja, izmantojot vizuālo vārdu krājumu, ir lÄ«dzÄ«ga bērnu sagatavoÅ”anai lasÄ«Å”anai: pirmkārt, tiek izmantota bilžu grāmata, kurā atseviŔķi vārdi tiek saistÄ«ti ar attēliem, piemēram, zem ābola fotoattēla ir rakstÄ«ts "ābols". un zem kaÄ·a fotoattēla ir vārds "kaÄ·is".

ā€œÅ Ä« iepriekŔēja apmācÄ«ba ar vizuālo vārdu krājumu bÅ«tÄ«bā ir sākotnējā izglÄ«tÄ«ba, kas nepiecieÅ”ama, lai apmācÄ«tu sistēmu. Tādā veidā mēs cenÅ”amies attÄ«stÄ«t sava veida motorisko atmiņu, ā€sacÄ«ja Huangs.

Pēc tam iepriekÅ” apmācÄ«tais modelis tiek pilnveidots, izmantojot datu kopu, kas ietver marķētus attēlus. Å ajā apmācÄ«bas posmā modelis mācās veidot teikumus. Ja parādās attēls ar jauniem objektiem, AI sistēma izmanto vizuālo vārdnÄ«cu, lai izveidotu precÄ«zus aprakstus.

"Lai testÄ“Å”anas laikā strādātu ar jauniem objektiem, sistēma integrē to, ko tā iemācÄ«jās iepriekŔējas apmācÄ«bas un turpmākās pilnveidoÅ”anas laikā," saka Vans.
Saskaņā ar rezultātiem pētniecÄ«ba, novērtējot nocaps testos, AI sistēma radÄ«ja jēgpilnākus un precÄ«zākus aprakstus nekā cilvēki tiem paÅ”iem attēliem.

Ātrāka pāreja uz darba vidi 

Cita starpā jaunā attēlu aprakstu sistēma ir divreiz labāka par modeli, kas Microsoft produktos un pakalpojumos tiek izmantots kopÅ” 2015. gada, salÄ«dzinot ar citu nozares etalonu.

Ņemot vērā ieguvumus, ko visi Microsoft produktu un pakalpojumu lietotāji iegÅ«s no Ŕī uzlabojuma, Huangs paātrināja jaunā modeļa integrāciju Azure darba vidē.

"Mēs izmantojam Å”o traucējoÅ”o AI tehnoloÄ£iju Azure kā platformu, lai apkalpotu plaŔāku klientu loku," viņŔ teica. "Un tas nav tikai izrāviens pētniecÄ«bā. Laiks, kas bija vajadzÄ«gs, lai iekļautu Å”o izrāvienu Azure ražoÅ”anas vidē, arÄ« bija izrāviens.

Huangs piebilda, ka cilvēkam lÄ«dzÄ«gu rezultātu sasniegÅ”ana turpina tendenci, kas jau ir iedibināta Microsoft kognitÄ«vās inteliÄ£ences sistēmās.

ā€œPēdējo piecu gadu laikā esam sasnieguÅ”i cilvēkiem lÄ«dzÄ«gus rezultātus piecās galvenajās jomās: runas atpazÄ«Å”anā, maŔīntulkoÅ”anā, atbildē uz jautājumiem, maŔīnlasÄ«Å”anā un teksta izpratnē un 2020. gadā, neskatoties uz Covid-19, attēlu aprakstos. " Huans teica.

Par Å”o tēmu

Salīdziniet attēlu apraksta rezultātus, ko sistēma sniedza pirms un tagad, izmantojot AI

Microsoft jaunākā tehnoloģija Azure AI apraksta attēlus, kā arī cilvēkus

Fotoattēlu sniedza Getty Images. IepriekŔējais apraksts: Tuvplāns vÄ«rietim, kurÅ” gatavo hotdogu uz grieÅ”anas dēļa. Jauns apraksts: VÄ«rietis taisa maizi.

Microsoft jaunākā tehnoloģija Azure AI apraksta attēlus, kā arī cilvēkus

Fotoattēlu sniedza Getty Images. IepriekŔējais apraksts: VÄ«rietis sēž saulrietā. Jauns apraksts: Ugunskurs pludmalē.

Microsoft jaunākā tehnoloģija Azure AI apraksta attēlus, kā arī cilvēkus

Fotoattēlu sniedza Getty Images. IepriekŔējais apraksts: VÄ«rietis zilā kreklā. Jauns apraksts: Vairāki cilvēki valkā Ä·irurÄ£iskas maskas.

Microsoft jaunākā tehnoloģija Azure AI apraksta attēlus, kā arī cilvēkus

Fotoattēlu sniedza Getty Images. IepriekŔējais apraksts: VÄ«rietis uz skrituļdēļa uzlido pa sienu. Jauns apraksts: Beisbola spēlētājs noÄ·er bumbu.

Avots: www.habr.com

Pievieno komentāru