Téknologi panganyarna Microsoft di Azure AI ngajelaskeun gambar ogé jalma


Panaliti Microsoft parantos nyiptakeun sistem intelijen buatan anu sanggup ngahasilkeun caption gambar anu, dina seueur kasus, janten langkung akurat tibatan déskripsi anu dilakukeun ku manusa. Terobosan ieu nandaan tonggak penting dina komitmen Microsoft pikeun ngajantenkeun produk sareng jasana inklusif sareng tiasa diaksés ku sadaya pangguna.

"Pedaran gambar mangrupa salah sahiji fungsi utama visi komputer, nu ngajadikeun rupa-rupa layanan mungkin," ceuk Xuedong Huang (Xuedong Huang), Patugas Téknis Microsoft sareng CTO Azure AI Cognitive Services di Redmond, Washington.

Modél anyar ayeuna sayogi pikeun konsumén ngaliwatan Computer Vision di Jasa Kognitif Azure, anu mangrupa bagian ti Azure AI, tur ngamungkinkeun pamekar ngagunakeun fitur ieu pikeun ngaronjatkeun kasadiaan jasa maranéhna. Éta ogé kalebet kana aplikasi Seeing AI sareng bakal sayogi engké taun ieu dina Microsoft Word sareng Outlook pikeun Windows sareng Mac, ogé PowerPoint pikeun Windows, Mac sareng dina wéb.

Katerangan Otomatis ngabantosan pangguna ngaksés eusi penting tina gambar naon waé, naha éta poto anu dipulangkeun dina hasil pamilarian atanapi ilustrasi pikeun presentasi.

"Pamakéan captions nu ngajelaskeun eusi gambar (nu disebut alternatif atawa téks alternatif) dina kaca web jeung dokumén téh hususna penting pikeun jalma buta atawa cacad visually," ceuk Saqib Sheikh (Saqib Syaikh), Manajer Perangkat Lunak di Microsoft's AI Platform Group di Redmond.

Salaku conto, timnya nganggo fitur déskripsi gambar anu ditingkatkeun dina aplikasi pikeun jalma buta sareng cacad visual. ningali AI, anu ngakuan naon anu dicandak ku kaméra sareng nyarioskeun ngeunaan éta. Aplikasi ngagunakeun caption anu dibangkitkeun pikeun ngajelaskeun poto, kalebet dina média sosial.

"Idéalna, sadayana kedah nambihan téks alt kana sadaya gambar dina dokumén, dina wéb, dina jaringan sosial, sabab ieu ngamungkinkeun jalma buta ngaksés eusi sareng ngiringan paguneman. Tapi, hanjakalna, jalma-jalma henteu ngalakukeun ieu, ”saur Syekh. "Tapi, aya sababaraha aplikasi anu nganggo fitur déskripsi gambar pikeun nambihan téks alternatif nalika leungit."
  
Téknologi panganyarna Microsoft di Azure AI ngajelaskeun gambar ogé jalma

Liruan Wang, manajer umum panalungtikan di Microsoft's Redmond Lab, mingpin tim panaliti anu ngahontal sareng ngaleuwihan hasil manusa. Poto: Dan DeLong.

Pedaran objék anyar

"Ngajéntrékeun gambar mangrupa salah sahiji tugas utama visi komputer, anu merlukeun sistem kecerdasan jieunan pikeun ngarti tur ngajelaskeun eusi utama atawa aksi dibere dina gambar," jelas Liruan Wang (Lijuan Wang), manajer umum panalungtikan di lab Redmond Microsoft.

"Anjeun kedah ngartos naon anu lumangsung, terang naon hubungan antara objék sareng tindakan, teras nyimpulkeun sareng ngajelaskeun sadayana dina kalimah dina basa anu tiasa dibaca manusa," saur anjeunna.

Wang mingpin tim peneliti, anu dina benchmarking nocaps (captioning obyék novel dina skala, pedaran skala badag objék anyar) ngahontal hasil comparable jeung hiji manusa, sarta surpassed eta. Tés ieu ngamungkinkeun anjeun pikeun ngévaluasi kumaha sistem AI ngahasilkeun déskripsi ngeunaan objék anu digambarkeun anu henteu kalebet dina set data dimana modél éta dilatih.

Ilaharna, sistem déskripsi gambar dilatih dina set data anu ngandung gambar dipirig ku déskripsi tékstual gambar ieu, nyaeta, dina susunan gambar ditandatanganan.

"Tes nocaps nunjukkeun kumaha sistem éta tiasa ngajelaskeun objék anyar anu henteu kapendak dina data latihan," saur Wang.

Pikeun ngajawab masalah ieu, tim Microsoft tos ngalatih model AI badag dina dataset badag ngandung gambar kecap-tagged, unggal dipetakeun ka objék husus dina gambar.

Susunan gambar sareng tag kecap tinimbang caption lengkep langkung éfisién pikeun nyiptakeun, ngamungkinkeun tim Wang pikeun nyayogikeun seueur data kana modélna. Pendekatan ieu masihan modél anu disebut tim nyaéta kosakata visual.

Salaku Huang dipedar, pendekatan pre-learning ngagunakeun kosakata visual téh sarupa jeung Nyiapkeun barudak pikeun bacaan: kahiji, buku gambar dipaké nu kecap individu pakait sareng gambar, contona, handapeun poto hiji apal ditulis "apel". na handapeun poto ucing aya kecap "ucing".

"Pra-latihan ieu sareng kosakata visual dasarna mangrupikeun pendidikan awal anu diperyogikeun pikeun ngalatih sistem. Ieu kumaha urang nyobian ngembangkeun hiji jenis memori motor, "ceuk Huang.

Modél anu tos dilatih teras disampurnakeun ku set data kalebet gambar anu dilabélan. Dina tahap latihan ieu, modél diajar kumaha carana nyieun kalimah. Upami gambar anu ngandung objék énggal muncul, sistem AI nganggo kamus visual pikeun nyiptakeun déskripsi anu akurat.

"Pikeun damel sareng obyék énggal nalika tés, sistem ngahijikeun naon anu diajar nalika pra-latihan sareng salami perbaikan salajengna," saur Wang.
Numutkeun hasil panalungtikan, Nalika dievaluasi dina tés nocaps, sistem AI ngahasilkeun déskripsi anu langkung bermakna sareng akurat tibatan manusa pikeun gambar anu sami.

Transisi anu langkung gancang ka lingkungan kerja 

Diantara hal séjén, sistem déskripsi gambar anyar dua kali langkung saé tibatan modél anu dianggo dina produk sareng jasa Microsoft saprak 2015, upami dibandingkeun sareng patokan industri anu sanés.

Mertimbangkeun kauntungan anu bakal nampi sadaya pangguna produk sareng jasa Microsoft tina perbaikan ieu, Huang ngagancangkeun integrasi modél énggal kana lingkungan kerja Azure.

"Kami nyandak téknologi AI anu ngaganggu ieu ka Azure salaku platform pikeun ngalayanan palanggan anu langkung ageung," saurna. "Sareng ieu sanés ngan ukur terobosan dina panalungtikan. Waktu anu diperyogikeun pikeun ngalebetkeun terobosan ieu kana lingkungan produksi Azure ogé mangrupikeun terobosan.

Huang nambihan yén ngahontal hasil sapertos manusa terus-terusan tren anu parantos aya dina sistem intelijen kognitif Microsoft.

"Sapanjang lima taun katukang, kami parantos ngahontal hasil sapertos manusa dina lima daérah utama: dina pangakuan ucapan, dina tarjamahan mesin, dina ngawalon patarosan, dina maca mesin sareng pamahaman téks, sareng dina taun 2020, sanaos COVID-19, dina déskripsi gambar. ' ceuk Juan.

Ku topikna

Bandingkeun hasil pedaran gambar anu sistem masihan sateuacan sareng ayeuna nganggo AI

Téknologi panganyarna Microsoft di Azure AI ngajelaskeun gambar ogé jalma

Poto kahadean tina Getty Gambar. Katerangan saméméhna: Tutup-up hiji lalaki Nyiapkeun hotdog dina papan motong. Katerangan anyar: Hiji lalaki nyieun roti.

Téknologi panganyarna Microsoft di Azure AI ngajelaskeun gambar ogé jalma

Poto kahadean tina Getty Gambar. Katerangan saméméhna: Hiji lalaki keur diuk di Panonpoé Tilelep. pedaran anyar: Bonfire on pantai.

Téknologi panganyarna Microsoft di Azure AI ngajelaskeun gambar ogé jalma

Poto kahadean tina Getty Gambar. Katerangan saméméhna: Hiji lalaki dina kaos bulao. Katerangan anyar: Sababaraha urang ngagem topéng bedah.

Téknologi panganyarna Microsoft di Azure AI ngajelaskeun gambar ogé jalma

Poto kahadean tina Getty Gambar. Katerangan saméméhna: Hiji lalaki on skateboard a flies up témbok. pedaran anyar: Pamaén baseball nyekel bal.

sumber: www.habr.com

Tambahkeun komentar