Teknologi terkini Microsoft dalam Azure AI menerangkan imej serta orang


Penyelidik Microsoft telah mencipta sistem kecerdasan buatan yang mampu menghasilkan kapsyen imej yang, dalam banyak kes, ternyata lebih tepat daripada penerangan yang dibuat oleh manusia. Kejayaan ini menandakan satu kejayaan besar dalam komitmen Microsoft untuk menjadikan produk dan perkhidmatannya inklusif dan boleh diakses oleh semua pengguna.

"Penerangan imej ialah salah satu fungsi utama penglihatan komputer, yang membolehkan pelbagai perkhidmatan," kata Xuedong Huang (Xuedong Huang), seorang Pegawai Teknikal Microsoft dan CTO Azure AI Cognitive Services di Redmond, Washington.

Model baharu kini tersedia kepada pengguna melalui Computer Vision di Perkhidmatan Kognitif Azure, yang merupakan sebahagian daripada Azure AI, dan membenarkan pembangun menggunakan ciri ini untuk meningkatkan ketersediaan perkhidmatan mereka. Ia juga disertakan dalam apl Seeing AI dan akan tersedia lewat tahun ini dalam Microsoft Word dan Outlook untuk Windows dan Mac, serta PowerPoint untuk Windows, Mac dan di web.

Perihalan Auto membantu pengguna mengakses kandungan penting mana-mana imej, sama ada foto yang dikembalikan dalam hasil carian atau ilustrasi untuk pembentangan.

"Penggunaan kapsyen yang menerangkan kandungan imej (yang dipanggil teks alternatif atau alternatif) pada halaman web dan dokumen adalah penting terutamanya untuk orang buta atau cacat penglihatan," kata Saqib Sheikh (Saqib Shaikh), Pengurus Perisian di Kumpulan Platform AI Microsoft di Redmond.

Sebagai contoh, pasukannya menggunakan ciri perihalan imej yang dipertingkatkan dalam apl untuk orang buta dan cacat penglihatan. Melihat AI, yang mengenali perkara yang ditangkap oleh kamera dan memberitahu tentangnya. Aplikasi ini menggunakan kapsyen yang dijana untuk menerangkan foto, termasuk di media sosial.

“Sebaik-baiknya, semua orang harus menambah teks alt pada semua imej dalam dokumen, di web, di rangkaian sosial, kerana ini membolehkan orang buta mengakses kandungan dan mengambil bahagian dalam perbualan. Tetapi, malangnya, orang tidak melakukan ini, "kata Sheikh. "Walau bagaimanapun, terdapat beberapa apl yang menggunakan ciri perihalan imej untuk menambah teks alternatif apabila ia tiada."
  
Teknologi terkini Microsoft dalam Azure AI menerangkan imej serta orang

Liruan Wang, pengurus besar penyelidikan di Redmond Lab Microsoft, mengetuai pasukan penyelidikan yang mencapai dan mengatasi keputusan manusia. Foto: Dan DeLong.

Penerangan tentang objek baharu

“Memerihalkan imej adalah salah satu tugas utama penglihatan komputer, yang memerlukan sistem kecerdasan buatan untuk memahami dan menerangkan kandungan atau tindakan utama yang dipersembahkan dalam imej,” jelas Liruan Wang (Lijuan Wang), pengurus besar penyelidikan di makmal Redmond Microsoft.

"Anda perlu memahami apa yang sedang berlaku, memikirkan apa hubungan antara objek dan tindakan, dan kemudian meringkaskan dan menerangkan semuanya dalam ayat dalam bahasa yang boleh dibaca manusia," katanya.

Wang mengetuai pasukan penyelidikan, yang dalam penanda aras nocaps (Kapsyen objek novel pada skala, penerangan berskala besar bagi objek baharu) mencapai hasil yang setanding dengan manusia, dan mengatasinya. Ujian ini membolehkan anda menilai sejauh mana sistem AI menjana perihalan objek yang digambarkan yang tidak disertakan dalam set data yang model itu dilatih.

Lazimnya, sistem penerangan imej dilatih pada set data yang mengandungi imej yang disertakan dengan penerangan teks imej ini, iaitu pada set imej bertandatangan.

"Ujian nocaps menunjukkan sejauh mana sistem dapat menerangkan objek baharu yang tidak ditemui dalam data latihan," kata Wang.

Untuk menyelesaikan masalah ini, pasukan Microsoft telah melatih model AI yang besar pada set data besar yang mengandungi imej berteg perkataan, masing-masing dipetakan ke objek tertentu dalam imej.

Set imej dengan tag perkataan dan bukannya kapsyen penuh adalah lebih cekap untuk dibuat, membolehkan pasukan Wang memasukkan banyak data ke dalam model mereka. Pendekatan ini memberikan model apa yang dipanggil oleh pasukan sebagai perbendaharaan kata visual.

Seperti yang dijelaskan oleh Huang, pendekatan pra-pembelajaran menggunakan perbendaharaan kata visual adalah serupa dengan menyediakan kanak-kanak untuk membaca: pertama, buku bergambar digunakan di mana perkataan individu dikaitkan dengan imej, contohnya, di bawah foto epal ditulis "epal" dan di bawah gambar kucing terdapat perkataan "kucing".

“Pra-latihan dengan perbendaharaan kata visual ini pada asasnya adalah pendidikan awal yang diperlukan untuk melatih sistem. Inilah cara kami cuba membangunkan sejenis ingatan motor,” kata Huang.

Model pra-latihan kemudiannya diperhalusi dengan set data termasuk imej berlabel. Pada peringkat latihan ini, model belajar membuat ayat. Jika imej yang mengandungi objek baharu muncul, sistem AI menggunakan kamus visual untuk mencipta penerangan yang tepat.

"Untuk bekerja dengan objek baharu semasa ujian, sistem menyepadukan perkara yang dipelajari semasa pra-latihan dan semasa penghalusan seterusnya," kata Wang.
Mengikut keputusan penyelidikan, apabila dinilai pada ujian nocaps, sistem AI menghasilkan penerangan yang lebih bermakna dan tepat berbanding yang dilakukan manusia untuk imej yang sama.

Peralihan yang lebih pantas ke persekitaran kerja 

Antara lain, sistem penerangan imej baharu adalah dua kali lebih baik daripada model yang digunakan dalam produk dan perkhidmatan Microsoft sejak 2015, jika dibandingkan dengan penanda aras industri yang lain.

Memandangkan faedah yang akan diterima oleh semua pengguna produk dan perkhidmatan Microsoft daripada peningkatan ini, Huang mempercepatkan penyepaduan model baharu ke dalam persekitaran kerja Azure.

"Kami membawa teknologi AI yang mengganggu ini kepada Azure sebagai platform untuk melayani lebih banyak pelanggan," katanya. “Dan ini bukan hanya satu kejayaan dalam penyelidikan. Masa yang diambil untuk memasukkan kejayaan ini ke dalam persekitaran pengeluaran Azure juga merupakan satu kejayaan.”

Huang menambah bahawa mencapai keputusan seperti manusia meneruskan trend yang telah ditetapkan dalam sistem kecerdasan kognitif Microsoft.

“Sejak lima tahun lalu, kami telah mencapai keputusan seperti manusia dalam lima bidang utama: dalam pengecaman pertuturan, dalam terjemahan mesin, dalam menjawab soalan, dalam membaca mesin dan pemahaman teks, dan pada 2020, walaupun COVID-19, dalam perihalan imej ' kata Juan.

Berdasarkan topik

Bandingkan hasil huraian imej yang sistem berikan sebelum dan kini menggunakan AI

Teknologi terkini Microsoft dalam Azure AI menerangkan imej serta orang

Foto ihsan Getty Images. Perihalan sebelumnya: Gambar dekat seorang lelaki sedang menyediakan hot dog di atas papan pemotong. Perihalan baharu: Seorang lelaki membuat roti.

Teknologi terkini Microsoft dalam Azure AI menerangkan imej serta orang

Foto ihsan Getty Images. Perihalan sebelumnya: Seorang lelaki sedang duduk pada waktu matahari terbenam. Perihalan baharu: Unggun api di pantai.

Teknologi terkini Microsoft dalam Azure AI menerangkan imej serta orang

Foto ihsan Getty Images. Perihalan sebelumnya: Seorang lelaki berbaju biru. Perihalan baharu: Beberapa orang memakai topeng pembedahan.

Teknologi terkini Microsoft dalam Azure AI menerangkan imej serta orang

Foto ihsan Getty Images. Perihalan sebelumnya: Seorang lelaki di atas papan selaju terbang ke dinding. Perihalan baharu: Pemain besbol menangkap bola.

Sumber: www.habr.com

Tambah komen