Teknologjia më e fundit e Microsoft në Azure AI përshkruan imazhet si dhe njerëzit


Studiuesit e Microsoft-it kanë krijuar një sistem të inteligjencës artificiale të aftë për të gjeneruar tituj imazhesh që, në shumë raste, rezultojnë të jenë më të sakta se përshkrimet e bëra nga njerëzit. Ky zbulim shënoi një moment historik të madh në angazhimin e Microsoft për t'i bërë produktet dhe shërbimet e tij gjithëpërfshirëse dhe të aksesueshme për të gjithë përdoruesit.

"Përshkrimi i imazhit është një nga funksionet kryesore të vizionit kompjuterik, i cili bën të mundur një gamë të gjerë shërbimesh," tha Xuedong Huang (Xuedong Huang), një zyrtar teknik i Microsoft dhe CTO i Shërbimeve Njohëse të AI Azure në Redmond, Uashington.

Modeli i ri është tashmë i disponueshëm për konsumatorët përmes Computer Vision në Shërbime Njohëse Azure, e cila është pjesë e Azure AI dhe lejon zhvilluesit të përdorin këtë veçori për të përmirësuar disponueshmërinë e shërbimeve të tyre. Ai gjithashtu përfshihet në aplikacionin Seeing AI dhe do të jetë i disponueshëm më vonë këtë vit në Microsoft Word dhe Outlook për Windows dhe Mac, si dhe në PowerPoint për Windows, Mac dhe në ueb.

Përshkrimi automatik i ndihmon përdoruesit të aksesojnë përmbajtjen e rëndësishme të çdo imazhi, pavarësisht nëse është një foto e kthyer në rezultatet e kërkimit ose një ilustrim për një prezantim.

"Përdorimi i titrave që përshkruajnë përmbajtjen e imazheve (i ashtuquajturi tekst alternativ ose alternativ) në faqet e internetit dhe dokumentet është veçanërisht i rëndësishëm për njerëzit e verbër ose me shikim të dëmtuar," tha Saqib Sheikh.Saqib Shejh), Menaxher Softuerësh në Grupin e Platformës së AI të Microsoft në Redmond.

Për shembull, ekipi i tij po përdor një veçori të përmirësuar të përshkrimit të imazhit në aplikacion për personat e verbër dhe me shikim të dëmtuar. Duke parë UA, e cila njeh atë që kamera po kap dhe tregon për të. Aplikacioni përdor titrat e krijuara për të përshkruar fotot, duke përfshirë në mediat sociale.

“Idealisht, të gjithë duhet të shtojnë tekst alt në të gjitha imazhet në dokumente, në ueb, në rrjetet sociale, pasi kjo u lejon të verbërve të aksesojnë përmbajtjen dhe të marrin pjesë në bisedë. Por, mjerisht, njerëzit nuk e bëjnë këtë”, thotë Shejhu. "Megjithatë, ka disa aplikacione që përdorin funksionin e përshkrimit të imazhit për të shtuar tekst alternativ kur ai mungon."
  
Teknologjia më e fundit e Microsoft në Azure AI përshkruan imazhet si dhe njerëzit

Liruan Wang, menaxher i përgjithshëm i kërkimit në Redmond Lab të Microsoft-it, drejtoi një ekip kërkimor që arriti dhe tejkaloi rezultatet njerëzore. Foto: Dan DeLong.

Përshkrimi i objekteve të reja

"Përshkrimi i imazheve është një nga detyrat kryesore të vizionit kompjuterik, i cili kërkon një sistem të inteligjencës artificiale për të kuptuar dhe përshkruar përmbajtjen ose veprimin kryesor të paraqitur në imazh," shpjegoi Liruan Wang.Lijuan Wang), menaxher i përgjithshëm i kërkimit në laboratorin Redmond të Microsoft.

"Duhet të kuptoni se çfarë po ndodh, të kuptoni se cilat janë marrëdhëniet midis objekteve dhe veprimeve, dhe më pas t'i përmbledhni dhe përshkruani të gjitha në një fjali në një gjuhë të lexueshme nga njeriu," tha ajo.

Wang drejtoi ekipin hulumtues, i cili në krahasim kapakë (titrat e objekteve të reja në shkallë, një përshkrim në shkallë të gjerë i objekteve të reja) arritën një rezultat të krahasueshëm me atë njerëzor dhe e tejkaluan atë. Ky testim ju lejon të vlerësoni se sa mirë sistemet e AI gjenerojnë përshkrime të objekteve të përshkruara që nuk përfshihen në grupin e të dhënave në të cilin modeli është trajnuar.

Në mënyrë tipike, sistemet e përshkrimit të imazheve trajnohen në grupe të dhënash që përmbajnë imazhe të shoqëruara nga një përshkrim tekstual i këtyre imazheve, domethënë në grupe imazhesh të nënshkruara.

"Testi nocaps tregon se sa mirë sistemi është në gjendje të përshkruajë objekte të reja që nuk gjenden në të dhënat e trajnimit," thotë Wang.

Për të zgjidhur këtë problem, ekipi i Microsoft-it para-trajnoi një model të madh të inteligjencës artificiale në një grup të madh të dhënash që përmban imazhe të etiketuara me fjalë, secila e hartuar në një objekt specifik në imazh.

Kompletet e imazheve me etiketa fjalësh në vend të titrave të plota janë më efikase për t'u krijuar, duke lejuar ekipin e Wang të ushqejë shumë të dhëna në modelin e tyre. Kjo qasje i dha modelit atë që ekipi e quan fjalor vizual.

Siç shpjegoi Huang, qasja para-mësimore duke përdorur fjalorin vizual është e ngjashme me përgatitjen e fëmijëve për lexim: së pari, përdoret një libër me figura në të cilin fjalët individuale shoqërohen me imazhe, për shembull, nën një foto të një molle shkruhet "mollë". dhe nën një foto të një mace është fjala "mace".

“Ky para-trajnim me fjalor vizual është, në thelb, edukimi fillestar i nevojshëm për të trajnuar sistemin. Kjo është mënyra se si ne përpiqemi të zhvillojmë një lloj memorie motorike, "tha Huang.

Modeli i para-trajnuar më pas rafinohet me një grup të dhënash duke përfshirë imazhe të etiketuara. Në këtë fazë të trajnimit, modeli mëson të bëjë fjali. Nëse shfaqet një imazh që përmban objekte të reja, sistemi AI përdor fjalorin vizual për të krijuar përshkrime të sakta.

"Për të punuar me objekte të reja gjatë testimit, sistemi integron atë që mësoi gjatë para-stërvitjes dhe gjatë përsosjes së mëvonshme," thotë Wang.
Согласно результам hulumtim, kur u vlerësua në testet nocaps, sistemi i AI prodhoi përshkrime më kuptimplote dhe të sakta sesa njerëzit për të njëjtat imazhe.

Kalim më i shpejtë në mjedisin e punës 

Ndër të tjera, sistemi i ri i përshkrimit të imazhit është dy herë më i mirë se modeli i përdorur në produktet dhe shërbimet e Microsoft që nga viti 2015, kur krahasohet me një standard tjetër të industrisë.

Duke marrë parasysh përfitimet që do të marrin të gjithë përdoruesit e produkteve dhe shërbimeve të Microsoft nga ky përmirësim, Huang përshpejtoi integrimin e modelit të ri në mjedisin e punës Azure.

"Ne po e çojmë këtë teknologji përçarëse të AI në Azure si një platformë për t'i shërbyer një game më të gjerë klientësh," tha ai. “Dhe ky nuk është vetëm një përparim në kërkime. Koha që u desh për të përfshirë këtë zbulim në mjedisin e prodhimit Azure ishte gjithashtu një zbulim."

Huang shtoi se arritja e rezultateve të ngjashme me njeriun vazhdon një trend tashmë të vendosur në sistemet e inteligjencës njohëse të Microsoft.

“Gjatë pesë viteve të fundit, ne kemi arritur rezultate të ngjashme me njeriun në pesë fusha kryesore: në njohjen e të folurit, në përkthimin me makinë, në përgjigjen e pyetjeve, në leximin me makinë dhe kuptimin e tekstit, dhe në vitin 2020, pavarësisht nga COVID-19, në përshkrimin e imazhit. ’ tha Juan.

теме По

Krahasoni rezultatet e përshkrimit të imazheve që sistemi dha më parë dhe tani duke përdorur AI

Teknologjia më e fundit e Microsoft në Azure AI përshkruan imazhet si dhe njerëzit

Foto me mirësjellje të Getty Images. Përshkrimi i mëparshëm: Pamje nga afër e një burri duke përgatitur një hot-dog në një dërrasë prerëse. Përshkrimi i ri: Një burrë bën bukë.

Teknologjia më e fundit e Microsoft në Azure AI përshkruan imazhet si dhe njerëzit

Foto me mirësjellje të Getty Images. Përshkrimi i mëparshëm: Një burrë është ulur në perëndim të diellit. Përshkrimi i ri: Zjarr në plazh.

Teknologjia më e fundit e Microsoft në Azure AI përshkruan imazhet si dhe njerëzit

Foto me mirësjellje të Getty Images. Përshkrimi i mëparshëm: Një burrë me një këmishë blu. Përshkrimi i ri: Disa njerëz që mbajnë maska ​​​​kirurgjikale.

Teknologjia më e fundit e Microsoft në Azure AI përshkruan imazhet si dhe njerëzit

Foto me mirësjellje të Getty Images. Përshkrimi i mëparshëm: Një burrë në një skateboard fluturon lart në mur. Përshkrimi i ri: Një lojtar bejsbolli kap një top.

Burimi: www.habr.com

Shto një koment