Mae technoleg ddiweddaraf Microsoft yn Azure AI yn disgrifio delweddau yn ogystal â phobl


Mae ymchwilwyr Microsoft wedi creu system deallusrwydd artiffisial sy'n gallu cynhyrchu capsiynau delwedd sydd, mewn llawer o achosion, yn troi allan i fod yn fwy cywir na disgrifiadau a wneir gan fodau dynol. Roedd y datblygiad arloesol hwn yn garreg filltir bwysig yn ymrwymiad Microsoft i wneud ei gynhyrchion a'i wasanaethau yn gynhwysol ac yn hygyrch i bob defnyddiwr.

“Disgrifio delwedd yw un o brif swyddogaethau gweledigaeth gyfrifiadurol, sy'n gwneud ystod eang o wasanaethau yn bosibl,” meddai Xuedong Huang (Xuedong Huang), Swyddog Technegol Microsoft a CTO o Azure AI Cognitive Services yn Redmond, Washington.

Mae'r model newydd bellach ar gael i ddefnyddwyr drwy Computer Vision yn Gwasanaethau Gwybyddol Azure, sy'n rhan o Azure AI, ac yn caniatáu i ddatblygwyr ddefnyddio'r nodwedd hon i wella argaeledd eu gwasanaethau. Mae hefyd yn cael ei gynnwys yn yr app Seeing AI a bydd ar gael yn ddiweddarach eleni yn Microsoft Word ac Outlook ar gyfer Windows a Mac, yn ogystal â PowerPoint ar gyfer Windows, Mac ac ar y we.

Mae Auto Description yn helpu defnyddwyr i gael mynediad at gynnwys pwysig unrhyw ddelwedd, boed yn lun a ddychwelwyd mewn canlyniadau chwilio neu'n ddarlun ar gyfer cyflwyniad.

“Mae defnyddio capsiynau sy’n disgrifio cynnwys delweddau (testun amgen neu amgen fel y’i gelwir) ar dudalennau gwe a dogfennau yn arbennig o bwysig i bobl ddall neu â nam ar eu golwg,” meddai Saqib Sheikh (Saqib Shaikh), Rheolwr Meddalwedd yn Grŵp Llwyfan AI Microsoft yn Redmond.

Er enghraifft, mae ei dîm yn defnyddio nodwedd disgrifio delwedd well yn yr ap ar gyfer pobl ddall a phobl â nam ar eu golwg. Gweld AI, sy'n cydnabod yr hyn y mae'r camera yn ei ddal ac yn dweud amdano. Mae'r ap yn defnyddio capsiynau a gynhyrchwyd i ddisgrifio lluniau, gan gynnwys ar gyfryngau cymdeithasol.

“Yn ddelfrydol, dylai pawb ychwanegu testun alt at bob delwedd mewn dogfennau, ar y we, ar rwydweithiau cymdeithasol, gan fod hyn yn caniatáu i bobl ddall gael mynediad i’r cynnwys a chymryd rhan yn y sgwrs. Ond, gwaetha’r modd, nid yw pobl yn gwneud hyn,” meddai’r Sheikh. "Fodd bynnag, mae yna rai apps sy'n defnyddio'r nodwedd disgrifio delwedd i ychwanegu testun amgen pan fydd ar goll."
  
Mae technoleg ddiweddaraf Microsoft yn Azure AI yn disgrifio delweddau yn ogystal â phobl

Arweiniodd Liruan Wang, rheolwr cyffredinol ymchwil yn Redmond Lab Microsoft, dîm ymchwil a gyflawnodd ac a ragorodd ar ganlyniadau dynol. Llun: Dan DeLong.

Disgrifiad o wrthrychau newydd

“Disgrifio delweddau yw un o brif dasgau gweledigaeth gyfrifiadurol, sy’n gofyn am system deallusrwydd artiffisial i ddeall a disgrifio’r prif gynnwys neu weithred a gyflwynir yn y ddelwedd,” esboniodd Liruan Wang (Lijuan Wang), rheolwr cyffredinol ymchwil yn labordy Redmond Microsoft.

“Mae angen i chi ddeall beth sy'n digwydd, darganfod beth yw'r berthynas rhwng gwrthrychau a gweithredoedd, ac yna crynhoi a disgrifio'r cyfan mewn brawddeg mewn iaith y gall pobl ei darllen,” meddai.

Arweiniodd Wang y tîm ymchwil, a oedd yn meincnodi nocaps (capsiynau gwrthrych nofel ar raddfa, disgrifiad ar raddfa fawr o wrthrychau newydd) wedi cyflawni canlyniad tebyg i un dynol, ac yn rhagori arno. Mae'r profion hyn yn eich galluogi i werthuso pa mor dda y mae systemau AI yn cynhyrchu disgrifiadau o wrthrychau wedi'u darlunio nad ydynt wedi'u cynnwys yn y set ddata y hyfforddwyd y model arni.

Yn nodweddiadol, mae systemau disgrifio delwedd yn cael eu hyfforddi ar setiau data sy'n cynnwys delweddau ynghyd â disgrifiad testunol o'r delweddau hyn, hynny yw, ar setiau o ddelweddau wedi'u llofnodi.

“Mae’r prawf nocaps yn dangos pa mor dda y mae’r system yn gallu disgrifio gwrthrychau newydd nad ydynt wedi’u canfod yn y data hyfforddi,” meddai Wang.

I ddatrys y broblem hon, cyn-hyfforddodd tîm Microsoft fodel AI mawr ar set ddata fawr yn cynnwys delweddau wedi'u tagio â geiriau, pob un yn gysylltiedig â gwrthrych penodol yn y ddelwedd.

Mae setiau delwedd gyda thagiau geiriau yn lle capsiynau llawn yn fwy effeithlon i'w creu, gan ganiatáu i dîm Wang fwydo llawer o ddata i'w model. Rhoddodd y dull hwn eirfa weledol i'r model.

Fel yr eglurodd Huang, mae'r dull cyn-ddysgu gan ddefnyddio geirfa weledol yn debyg i baratoi plant ar gyfer darllen: yn gyntaf, defnyddir llyfr lluniau lle mae geiriau unigol yn gysylltiedig â delweddau, er enghraifft, o dan lun o afal yn cael ei ysgrifennu "afal" ac o dan lun o gath mae'r gair "cath".

“Y rhag-hyfforddiant hwn gyda geirfa weledol, yn ei hanfod, yw’r addysg gychwynnol sydd ei hangen i hyfforddi’r system. Dyma sut rydyn ni'n ceisio datblygu math o gof modur, ”meddai Huang.

Yna caiff y model a hyfforddwyd ymlaen llaw ei fireinio gyda set ddata sy'n cynnwys delweddau wedi'u labelu. Ar y cam hwn o hyfforddiant, mae'r model yn dysgu gwneud brawddegau. Os bydd delwedd sy'n cynnwys gwrthrychau newydd yn ymddangos, mae'r system AI yn defnyddio'r geiriadur gweledol i greu disgrifiadau cywir.

“I weithio gyda gwrthrychau newydd yn ystod profion, mae'r system yn integreiddio'r hyn a ddysgodd yn ystod cyn-hyfforddiant ac yn ystod mireinio dilynol,” meddai Wang.
Соласно результатам ymchwil, pan gafodd ei werthuso ar y profion nocaps, cynhyrchodd y system AI ddisgrifiadau mwy ystyrlon a chywir nag y gwnaeth bodau dynol ar gyfer yr un delweddau.

Trosglwyddo cyflymach i'r amgylchedd gwaith 

Ymhlith pethau eraill, mae'r system disgrifio delwedd newydd ddwywaith cystal â'r model a ddefnyddir mewn cynhyrchion a gwasanaethau Microsoft ers 2015, o'i gymharu â meincnod diwydiant arall.

O ystyried y buddion y bydd holl ddefnyddwyr cynhyrchion a gwasanaethau Microsoft yn eu cael o'r gwelliant hwn, cyflymodd Huang integreiddiad y model newydd i amgylchedd gwaith Azure.

“Rydym yn mynd â’r dechnoleg AI aflonyddgar hon i Azure fel llwyfan i wasanaethu ystod ehangach o gwsmeriaid,” meddai. “Ac nid dim ond datblygiad arloesol mewn ymchwil yw hwn. Roedd yr amser a gymerodd i ymgorffori’r datblygiad arloesol hwn yn amgylchedd cynhyrchu Azure hefyd yn ddatblygiad arloesol.”

Ychwanegodd Huang fod cyflawni canlyniadau tebyg i bobl yn parhau â thuedd a sefydlwyd eisoes yn systemau deallusrwydd gwybyddol Microsoft.

“Dros y pum mlynedd diwethaf, rydym wedi cyflawni canlyniadau tebyg i ddyn mewn pum prif faes: mewn adnabod lleferydd, mewn cyfieithu peirianyddol, wrth ateb cwestiynau, mewn darllen peiriant a deall testun, ac yn 2020, er gwaethaf COVID-19, mewn disgrifiad delwedd ' meddai Juan.

Yn ôl pwnc

Cymharwch ganlyniadau'r disgrifiad o ddelweddau a roddodd y system cyn ac yn awr gan ddefnyddio AI

Mae technoleg ddiweddaraf Microsoft yn Azure AI yn disgrifio delweddau yn ogystal â phobl

Llun trwy garedigrwydd Getty Images. Disgrifiad blaenorol: Dyn agos yn paratoi ci poeth ar fwrdd torri. Disgrifiad newydd: Mae dyn yn gwneud bara.

Mae technoleg ddiweddaraf Microsoft yn Azure AI yn disgrifio delweddau yn ogystal â phobl

Llun trwy garedigrwydd Getty Images. Disgrifiad blaenorol: Mae dyn yn eistedd ar fachlud haul. Disgrifiad newydd: Coelcerth ar y traeth.

Mae technoleg ddiweddaraf Microsoft yn Azure AI yn disgrifio delweddau yn ogystal â phobl

Llun trwy garedigrwydd Getty Images. Disgrifiad blaenorol: Dyn mewn crys glas. Disgrifiad newydd: Sawl person yn gwisgo masgiau llawfeddygol.

Mae technoleg ddiweddaraf Microsoft yn Azure AI yn disgrifio delweddau yn ogystal â phobl

Llun trwy garedigrwydd Getty Images. Disgrifiad blaenorol: Mae dyn ar fwrdd sgrialu yn hedfan i fyny'r wal. Disgrifiad newydd: Mae chwaraewr pêl fas yn dal pêl.

Ffynhonnell: hab.com

Ychwanegu sylw