Teknologi paling anyar Microsoft ing Azure AI nggambarake gambar uga wong


Peneliti Microsoft wis nggawe sistem intelijen buatan sing bisa ngasilake katrangan gambar sing, ing pirang-pirang kasus, luwih akurat tinimbang deskripsi manungsa. Terobosan iki nandhani tonggak penting ing komitmen Microsoft kanggo nggawe produk lan layanan sing inklusif lan bisa diakses kabeh pangguna.

"Deskripsi gambar minangka salah sawijining fungsi inti saka visi komputer, sing ngidini macem-macem layanan," ujare Xuedong Huang (Xuedong Huang), kanca teknis Microsoft lan kepala pejabat teknologi Azure AI Cognitive Services ing Redmond, Washington.

Model anyar saiki kasedhiya kanggo konsumen liwat Computer Vision ing Layanan Kognitif Azure, kang bagéan saka Azure AI, lan ngidini pangembang nggunakake kemampuan iki kanggo nambah kasedhiyan layanan sing. Iki uga kalebu ing aplikasi Seeing AI lan bakal diluncurake ing taun iki ing Microsoft Word lan Outlook kanggo Windows lan Mac, uga PowerPoint kanggo Windows, Mac lan web.

Katrangan otomatis mbantu pangguna ngakses konten penting saka gambar apa wae, apa foto sing bali ing asil panelusuran utawa ilustrasi kanggo presentasi.

"Panganggone caption sing njlèntrèhaké isi gambar (disebut teks alternatif utawa alt) ing kaca web lan dokumen utamané penting kanggo wong sing wuta utawa kurang sesanti," ujare Saqib Sheikh (Saqib Syekh), manajer piranti lunak ing grup Platform AI Microsoft ing Redmond.

Contone, tim dheweke nggunakake fitur katrangan gambar sing luwih apik ing app kanggo wong wuta lan tunanetra Ndeleng AI, sing ngerteni apa sing direkam kamera lan diomongake. Aplikasi kasebut nggunakake katrangan sing digawe kanggo nggambarake foto, kalebu ing jaringan sosial.

"Saenipun, saben wong kudu nambah teks alt kanggo kabeh gambar ing dokumen, online, lan ing media sosial, amarga iki ngidini wong wuta ngakses konten lan melu obrolan. Nanging, sayangé, wong ora nindakake iki, "ujare Syekh. "Nanging, ana sawetara aplikasi sing nggunakake fitur deskripsi gambar kanggo nambah teks alternatif nalika ora kasedhiya."
  
Teknologi paling anyar Microsoft ing Azure AI nggambarake gambar uga wong

Lijuan Wang, manajer riset senior ing lab Redmond Microsoft, mimpin tim riset sing entuk asil kaya manungsa lan luwih apik. Foto: Dan DeLong.

Katrangan obyek anyar

"Deskripsi gambar minangka salah sawijining tugas utama visi komputer, sing mbutuhake sistem intelijen buatan kanggo mangerteni lan njlèntrèhaké isi utawa tumindak utama sing diwakili ing gambar," jelas Lijuan Wang (Lijuan Wang), manajer riset senior ing lab Redmond Microsoft.

"Sampeyan kudu ngerti apa sing kedadeyan, ngerteni apa hubungane antarane obyek lan tumindak, banjur ringkesan lan njlèntrèhaké kabeh ing ukara ing basa sing bisa dingerteni manungsa," ujare.

Wang mimpin tim riset sing benchmarked nocaps (Katerangan obyek novel kanthi skala, deskripsi obyek anyar kanthi skala gedhe) entuk asil sing bisa dibandhingake karo manungsa lan ngluwihi. Pengujian iki ngevaluasi kepiye sistem AI ngasilake deskripsi obyek sing digambarake sing dudu bagean saka set data sing model kasebut dilatih.

Biasane, sistem deskripsi gambar dilatih ing set data sing ngemot gambar sing diiringi deskripsi teks saka gambar kasebut, yaiku, ing set gambar berlabel.

"Tes nocaps nuduhake carane sistem bisa njlèntrèhaké obyek anyar sing ora ditemokake ing data latihan," ujare Wang.

Kanggo ngatasi masalah iki, tim Microsoft wis nglatih model AI gedhe ing set data sing akeh sing ngemot gambar kanthi tag tembung, sing saben ana digandhengake karo obyek tartamtu ing gambar kasebut.

Iku luwih efisien kanggo nggawe set gambar nganggo tag tembung tinimbang katrangan lengkap, sing ngidini tim Wang menehi akeh data menyang modele. Pendekatan iki menehi model apa sing diarani tim minangka kosakata visual.

Minangka Huang diterangno, pendekatan visual vocabulary pra-ngajar padha karo nyiapake anak kanggo maca: Pisanan, buku gambar digunakake kang tembung individu digandhengake karo gambar, contone, ing foto saka apel ngandika "apel" lan ing ngisor foto kucing tembung "kucing".

"Pra-training karo kamus visual iki minangka pendidikan awal sing dibutuhake kanggo nglatih sistem kasebut. Iki carane kita nyoba kanggo berkembang jenis memori motor, "ujare Huang.

Model sing wis dilatih banjur disempurnakake nggunakake dataset sing kalebu gambar captioned. Ing tahap latihan iki, model sinau nggawe ukara. Yen gambar katon ngemot obyek anyar, sistem AI nggunakake kamus visual kanggo nggawe deskripsi sing akurat.

"Kanggo nangani obyek anyar sajrone tes, sistem kasebut nggabungake apa sing disinaoni sajrone pra-latihan lan sajrone pangembangan sabanjure," ujare Wang.
Miturut asil risetNalika dievaluasi ing tes nocaps, sistem AI ngasilake deskripsi sing luwih migunani lan akurat tinimbang manungsa kanggo gambar sing padha.

Transisi kanthi cepet menyang lingkungan kerja 

Antarane liyane, sistem deskripsi gambar anyar kaping pindho luwih apik tinimbang model sing digunakake ing produk lan layanan Microsoft wiwit 2015, miturut pathokan industri liyane.

Amarga keuntungan sing bakal ditampa dening kabeh pangguna produk lan layanan Microsoft saka perbaikan iki, Huang wis nyepetake integrasi model anyar menyang lingkungan desktop Azure.

"Kita njupuk teknologi AI terobosan iki menyang Azure minangka platform kanggo nglayani pelanggan sing luwih akeh," ujare. "Lan iki minangka terobosan ora mung ing riset. Wektu sing dibutuhake kanggo nggabungake terobosan iki menyang lingkungan produksi Azure uga dadi terobosan.

Huang nambahake manawa entuk asil kaya manungsa terus dadi tren sing wis ditetepake ing sistem intelijen kognitif Microsoft.

"Sajrone limang taun kepungkur, kita wis entuk asil tingkat manungsa ing limang wilayah utama: pangenalan wicara, terjemahan mesin, njawab pitakonan, maca mesin lan pangerten teks, lan ing taun 2020, sanajan COVID-19, deskripsi gambar "ujare Juan.

Dening topik

Bandhingake asil deskripsi gambar sing diwenehake sistem sadurunge lan saiki nggunakake AI

Teknologi paling anyar Microsoft ing Azure AI nggambarake gambar uga wong

Foto saka perpustakaan Getty Images. Katrangan sadurunge: Close-up saka wong masak asu panas ing papan motong. Katrangan anyar: Wong nggawe roti.

Teknologi paling anyar Microsoft ing Azure AI nggambarake gambar uga wong

Foto saka perpustakaan Getty Images. Katrangan sadurungé: Wong lanang lungguh ing wayah surup. Katrangan anyar: Api unggun ing pantai.

Teknologi paling anyar Microsoft ing Azure AI nggambarake gambar uga wong

Foto saka perpustakaan Getty Images. Katrangan sadurunge: Wong lanang nganggo klambi biru. Katrangan anyar: Akeh wong sing nganggo topeng bedah.

Teknologi paling anyar Microsoft ing Azure AI nggambarake gambar uga wong

Foto saka perpustakaan Getty Images. Katrangan sadurunge: wong ing skateboard mabur munggah tembok. Gambaran anyar: Pemain baseball nyekel bal.

Source: www.habr.com

Add a comment