Teknologi terbaru Microsoft di Azure AI menjelaskan gambar dan juga orang


Peneliti Microsoft telah menciptakan sistem kecerdasan buatan yang mampu menghasilkan keterangan gambar yang, dalam banyak kasus, ternyata lebih akurat daripada deskripsi yang dibuat oleh manusia. Terobosan ini menandai tonggak penting dalam komitmen Microsoft untuk menjadikan produk dan layanannya inklusif dan dapat diakses oleh semua pengguna.

“Deskripsi gambar adalah salah satu fungsi utama visi komputer, yang memungkinkan berbagai layanan,” kata Xuedong Huang (Xue Dong Huang), Microsoft Technical Officer dan CTO Azure AI Cognitive Services di Redmond, Washington.

Model baru sekarang tersedia untuk konsumen melalui Computer Vision di Layanan Kognitif Azure, yang merupakan bagian dari Azure AI, dan memungkinkan pengembang menggunakan fitur ini untuk meningkatkan ketersediaan layanan mereka. Itu juga termasuk dalam aplikasi Seeing AI dan akan tersedia akhir tahun ini di Microsoft Word dan Outlook untuk Windows dan Mac, serta PowerPoint untuk Windows, Mac dan di web.

Deskripsi Otomatis membantu pengguna mengakses konten penting dari gambar apa pun, apakah itu foto yang dikembalikan dalam hasil pencarian atau ilustrasi untuk presentasi.

“Penggunaan caption yang menjelaskan isi gambar (yang disebut teks alternatif atau alternatif) pada halaman web dan dokumen sangat penting terutama bagi penyandang tuna netra atau tunanetra,” ujar Saqib Sheikh (Saqib Syaikh), Manajer Perangkat Lunak di Grup Platform AI Microsoft di Redmond.

Misalnya, timnya menggunakan fitur deskripsi gambar yang ditingkatkan di aplikasi untuk orang buta dan tunanetra. Melihat AI, yang mengenali apa yang ditangkap kamera dan menceritakannya. Aplikasi ini menggunakan teks yang dibuat untuk mendeskripsikan foto, termasuk di media sosial.

“Idealnya, setiap orang harus menambahkan teks alt ke semua gambar di dokumen, di web, di jejaring sosial, karena hal ini memungkinkan penyandang tunanetra mengakses konten dan ikut serta dalam percakapan. Tapi, sayangnya, orang tidak melakukan ini,” kata Syekh. "Namun, ada beberapa aplikasi yang menggunakan fitur deskripsi gambar untuk menambahkan teks alternatif jika hilang."
  
Teknologi terbaru Microsoft di Azure AI menjelaskan gambar dan juga orang

Liruan Wang, general manager riset di Lab Redmond Microsoft, memimpin tim riset yang mencapai dan melampaui hasil manusia. Foto: Dan DeLong.

Deskripsi objek baru

“Mendeskripsikan gambar adalah salah satu tugas utama computer vision, yang membutuhkan sistem kecerdasan buatan untuk memahami dan mendeskripsikan konten atau tindakan utama yang disajikan dalam gambar,” jelas Liruan Wang (Lijuan Wang), manajer umum penelitian di lab Microsoft Redmond.

“Anda perlu memahami apa yang sedang terjadi, mencari tahu apa hubungan antara objek dan tindakan, lalu meringkas dan mendeskripsikan semuanya dalam sebuah kalimat dalam bahasa yang dapat dibaca manusia,” katanya.

Wang memimpin tim peneliti yang melakukan benchmarking tidak ada caps (teks objek novel pada skala, deskripsi skala besar dari objek baru) mencapai hasil yang sebanding dengan manusia, dan melampaui itu. Pengujian ini memungkinkan Anda mengevaluasi seberapa baik sistem AI menghasilkan deskripsi objek yang digambarkan yang tidak disertakan dalam kumpulan data tempat model dilatih.

Biasanya, sistem deskripsi gambar dilatih pada kumpulan data yang berisi gambar yang disertai dengan deskripsi tekstual dari gambar tersebut, yaitu pada kumpulan gambar yang ditandatangani.

“Tes nocaps menunjukkan seberapa baik sistem mampu mendeskripsikan objek baru yang tidak ditemukan dalam data pelatihan,” kata Wang.

Untuk mengatasi masalah ini, tim Microsoft melakukan pra-pelatihan model AI besar pada kumpulan data besar yang berisi gambar yang diberi tag kata, masing-masing terkait dengan objek tertentu dalam gambar.

Kumpulan gambar dengan tag kata alih-alih keterangan lengkap lebih efisien untuk dibuat, memungkinkan tim Wang memasukkan banyak data ke dalam model mereka. Pendekatan ini memberi model apa yang oleh tim disebut sebagai kosakata visual.

Seperti yang dijelaskan Huang, pendekatan pra-pembelajaran menggunakan kosa kata visual mirip dengan mempersiapkan anak-anak untuk membaca: pertama, buku bergambar digunakan di mana kata-kata individu dikaitkan dengan gambar, misalnya, di bawah foto apel tertulis "apel" dan di bawah foto kucing ada tulisan " kucing".

“Pra-pelatihan dengan kosakata visual ini pada dasarnya adalah pendidikan awal yang diperlukan untuk melatih sistem. Inilah cara kami mencoba mengembangkan semacam memori motor, ”kata Huang.

Model pra-pelatihan kemudian disempurnakan dengan kumpulan data yang menyertakan gambar berlabel. Pada tahap pelatihan ini, model belajar membuat kalimat. Jika gambar berisi objek baru muncul, sistem AI menggunakan kamus visual untuk membuat deskripsi yang akurat.

“Untuk bekerja dengan objek baru selama pengujian, sistem mengintegrasikan apa yang dipelajari selama prapelatihan dan selama penyempurnaan selanjutnya,” kata Wang.
огласно езультатам penelitian, ketika dievaluasi pada tes nocaps, sistem AI menghasilkan deskripsi yang lebih bermakna dan akurat daripada yang dilakukan manusia untuk gambar yang sama.

Transisi yang lebih cepat ke lingkungan kerja 

Antara lain, sistem deskripsi gambar baru dua kali lebih baik dari model yang digunakan dalam produk dan layanan Microsoft sejak 2015, jika dibandingkan dengan tolok ukur industri lainnya.

Mempertimbangkan manfaat yang akan diterima semua pengguna produk dan layanan Microsoft dari peningkatan ini, Huang mempercepat integrasi model baru ke dalam lingkungan kerja Azure.

“Kami membawa teknologi AI yang mengganggu ini ke Azure sebagai platform untuk melayani pelanggan yang lebih luas,” katanya. “Dan ini bukan hanya terobosan dalam penelitian. Waktu yang diperlukan untuk memasukkan terobosan ini ke dalam lingkungan produksi Azure juga merupakan terobosan.”

Huang menambahkan bahwa mencapai hasil seperti manusia melanjutkan tren yang sudah ditetapkan dalam sistem kecerdasan kognitif Microsoft.

“Selama lima tahun terakhir, kami telah mencapai hasil seperti manusia di lima bidang utama: pengenalan ucapan, terjemahan mesin, menjawab pertanyaan, membaca mesin dan pemahaman teks, dan pada tahun 2020, terlepas dari COVID-19, dalam deskripsi gambar kata Juan.

Berdasarkan topik

Bandingkan hasil deskripsi gambar yang diberikan sistem sebelumnya dan sekarang menggunakan AI

Teknologi terbaru Microsoft di Azure AI menjelaskan gambar dan juga orang

Foto milik Getty Images. Deskripsi sebelumnya: Tampilan jarak dekat seorang pria menyiapkan hot dog di atas talenan. Deskripsi baru: Seorang pria membuat roti.

Teknologi terbaru Microsoft di Azure AI menjelaskan gambar dan juga orang

Foto milik Getty Images. Deskripsi sebelumnya: Seorang pria sedang duduk saat matahari terbenam. Deskripsi baru: Api unggun di pantai.

Teknologi terbaru Microsoft di Azure AI menjelaskan gambar dan juga orang

Foto milik Getty Images. Deskripsi sebelumnya: Seorang pria berbaju biru. Deskripsi baru: Beberapa orang memakai masker bedah.

Teknologi terbaru Microsoft di Azure AI menjelaskan gambar dan juga orang

Foto milik Getty Images. Deskripsi sebelumnya: Seorang pria di atas skateboard terbang ke atas tembok. Deskripsi baru: Seorang pemain bisbol menangkap bola.

Sumber: www.habr.com

Tambah komentar