Microsoft-ning Azure AI-dagi so'nggi texnologiyasi odamlar bilan bir qatorda tasvirlarni ham tasvirlaydi


Microsoft tadqiqotchilari ko‘p hollarda odamlar tomonidan berilgan ta’riflardan ko‘ra aniqroq bo‘ladigan tasvir taglavhalarini yaratishga qodir sun’iy intellekt tizimini yaratdilar. Ushbu yutuq Microsoft kompaniyasining o'z mahsulot va xizmatlarini barcha foydalanuvchilar uchun inklyuziv va foydalanishi mumkin bo'lishiga intilishida muhim bosqich bo'ldi.

"Rasm tavsifi kompyuter ko'rishning asosiy funktsiyalaridan biri bo'lib, keng ko'lamli xizmatlarni amalga oshirishga imkon beradi", dedi Xuedong Huang (Xuedong Huang), Redmond, Vashingtondagi Azure AI Cognitive Services kompaniyasining Microsoft texnik xodimi va texnik direktori.

Yangi model iste'molchilarga Computer Vision orqali taqdim etiladi Azure kognitiv xizmatlari, bu Azure AI ning bir qismidir va ishlab chiquvchilarga o'z xizmatlarining mavjudligini yaxshilash uchun ushbu xususiyatdan foydalanish imkonini beradi. Shuningdek, u Seeing AI ilovasiga kiritilgan va shu yil oxirida Windows va Mac uchun Microsoft Word va Outlook, shuningdek Windows, Mac va internetda PowerPoint’da mavjud bo‘ladi.

Avtomatik tavsif foydalanuvchilarga istalgan rasmning muhim mazmuniga kirishga yordam beradi, xoh u qidiruv natijalarida qaytarilgan fotosurat yoki taqdimot uchun illyustratsiya.

“Veb-sahifalar va hujjatlardagi tasvirlar (muqobil yoki muqobil matn deb ataladigan matn) mazmunini tavsiflovchi sarlavhalardan foydalanish, ayniqsa, ko‘zi ojiz yoki zaif ko‘ruvchilar uchun juda muhim”, dedi Soqib Shayx (Soqib Shayx), Microsoft-ning Redmonddagi AI platformasi guruhida dasturiy ta'minot menejeri.

Masalan, uning jamoasi ko‘zi ojiz va zaif ko‘ruvchilar uchun ilovada tasvirni tasvirlashning yaxshilangan funksiyasidan foydalanmoqda. AIni ko'rish, bu kamera nima suratga olayotganini taniydi va bu haqda aytib beradi. Ilova suratlarni, jumladan, ijtimoiy tarmoqlarda tasvirlash uchun yaratilgan taglavhalardan foydalanadi.

“Ideal holda, hamma hujjatlardagi, internetdagi, ijtimoiy tarmoqlardagi barcha rasmlarga alternativ matn qo‘shishi kerak, chunki bu ko‘zi ojiz odamlarga kontentga kirish va suhbatda qatnashish imkonini beradi. Lekin, afsuski, odamlar buni qilmaydilar, - deydi Shayx. "Biroq, tasvir yo'qolganida muqobil matn qo'shish uchun tasvirni tavsiflash xususiyatidan foydalanadigan bir nechta ilovalar mavjud."
  
Microsoft-ning Azure AI-dagi so'nggi texnologiyasi odamlar bilan bir qatorda tasvirlarni ham tasvirlaydi

Microsoft kompaniyasining Redmond laboratoriyasining tadqiqot bo'yicha bosh menejeri Liruan Vang inson natijalariga erishgan va undan oshib ketgan tadqiqot guruhini boshqargan. Surat: Dan DeLong.

Yangi ob'ektlarning tavsifi

"Tasvirlarni tasvirlash - bu kompyuter ko'rishning asosiy vazifalaridan biri bo'lib, u tasvirdagi asosiy tarkibni yoki harakatni tushunish va tasvirlash uchun sun'iy intellekt tizimini talab qiladi", deb tushuntirdi Liruan Vang (Lijuan Vang), Microsoft Redmond laboratoriyasining tadqiqot bosh menejeri.

"Siz nima bo'layotganini tushunishingiz, ob'ektlar va harakatlar o'rtasidagi munosabatlarni aniqlashingiz kerak, so'ngra hammasini umumlashtirib, inson o'qiy oladigan tilda jumlada tasvirlab berishingiz kerak", dedi u.

Vang taqqoslash bo'yicha tadqiqot guruhini boshqargan nocaps (masshtabda yangi ob'ekt sarlavhasi, yangi ob'ektlarning keng miqyosli tavsifi) inson bilan taqqoslanadigan natijaga erishdi va undan oshib ketdi. Ushbu test AI tizimlari model o'qitilgan ma'lumotlar to'plamiga kiritilmagan tasvirlangan ob'ektlarning tavsiflarini qanchalik yaxshi yaratishini baholash imkonini beradi.

Odatda, tasvirni tavsiflash tizimlari ushbu tasvirlarning matnli tavsifi bilan birga tasvirlarni o'z ichiga olgan ma'lumotlar to'plamlarida, ya'ni imzolangan tasvirlar to'plamida o'qitiladi.

"Nocaps testi tizim o'quv ma'lumotlarida topilmagan yangi ob'ektlarni qanchalik yaxshi tasvirlay olishini ko'rsatadi", deydi Vang.

Ushbu muammoni hal qilish uchun Microsoft jamoasi har biri tasvirdagi ma'lum bir ob'ekt bilan bog'langan so'z bilan belgilangan tasvirlarni o'z ichiga olgan katta ma'lumotlar to'plamida katta AI modelini oldindan o'rgatdi.

Toʻliq sarlavhalar oʻrniga soʻz teglari boʻlgan tasvirlar toʻplamini yaratish samaraliroq boʻlib, Vang jamoasiga oʻz modeliga koʻp maʼlumotlarni kiritish imkonini beradi. Ushbu yondashuv modelga jamoa vizual lug'at deb ataydigan narsani berdi.

Huang tushuntirganidek, vizual lug'atdan foydalangan holda o'rganishdan oldingi yondashuv bolalarni o'qishga tayyorlashga o'xshaydi: birinchidan, rasmli kitob ishlatiladi, unda alohida so'zlar tasvirlar bilan bog'lanadi, masalan, olma fotosurati ostida "olma" deb yoziladi. va mushukning fotosurati ostida "mushuk" so'zi bor.

“Ko‘rgazmali lug‘atga ega bo‘lgan ushbu tayyorgarlik, mohiyatan, tizimni o‘rgatish uchun zarur bo‘lgan boshlang‘ich ta’limdir. Shunday qilib, biz o'ziga xos vosita xotirasini rivojlantirishga harakat qilamiz ", dedi Huang.

Oldindan o'qitilgan model keyinchalik ma'lumotlar to'plami, jumladan etiketli tasvirlar bilan tozalanadi. Treningning ushbu bosqichida model jumlalar tuzishni o'rganadi. Agar yangi ob'ektlarni o'z ichiga olgan rasm paydo bo'lsa, AI tizimi aniq tavsiflarni yaratish uchun vizual lug'atdan foydalanadi.

"Sinov paytida yangi ob'ektlar bilan ishlash uchun tizim tayyorgarlikdan oldingi va keyingi takomillashtirish paytida o'rgangan narsalarni birlashtiradi", deydi Vang.
Natijada natija tadqiqot, nocaps testlarida baholanganda, AI tizimi odamlar bir xil tasvirlar uchun qilganidan ko'ra ko'proq mazmunli va aniq tavsiflarni ishlab chiqdi.

Ish muhitiga tezroq o'tish 

Boshqa narsalar qatorida, tasvirni tavsiflashning yangi tizimi 2015-yildan beri Microsoft mahsulotlari va xizmatlarida qo‘llanilgan modeldan boshqa sanoat benchmarkiga nisbatan ikki baravar yaxshi.

Microsoft mahsulotlari va xizmatlarining barcha foydalanuvchilari ushbu yaxshilanishdan oladigan imtiyozlarni hisobga olgan holda, Huang yangi modelni Azure ish muhitiga integratsiyalashuvini tezlashtirdi.

"Biz ushbu buzuvchi AI texnologiyasini Azure-ga kengroq mijozlarga xizmat ko'rsatish uchun platforma sifatida olib boramiz", dedi u. “Va bu shunchaki tadqiqotdagi yutuq emas. Ushbu yutuqni Azure ishlab chiqarish muhitiga kiritish uchun ketgan vaqt ham yutuq bo'ldi.

Xuangning qoʻshimcha qilishicha, insonga oʻxshash natijalarga erishish Microsoftning kognitiv intellekt tizimlarida allaqachon oʻrnatilgan tendentsiyani davom ettirmoqda.

“So‘nggi besh yil ichida biz beshta asosiy yo‘nalishda insonga o‘xshash natijalarga erishdik: nutqni aniqlash, mashina tarjimasi, savollarga javob berish, mashinada o‘qish va matnni tushunish va 2020 yilda, COVID-19 ga qaramay, tasvir tavsifida. — dedi Xuan.

Mavzu bo'yicha

Tizim ilgari bergan va hozir sun'iy intellekt yordamida tasvirlar tavsifi natijalarini solishtiring

Microsoft-ning Azure AI-dagi so'nggi texnologiyasi odamlar bilan bir qatorda tasvirlarni ham tasvirlaydi

Surat Getty Images saytidan olingan. Oldingi tavsif: Kesish taxtasida hot-dog tayyorlayotgan odamning yaqindan surati. Yangi tavsif: Bir kishi non pishiradi.

Microsoft-ning Azure AI-dagi so'nggi texnologiyasi odamlar bilan bir qatorda tasvirlarni ham tasvirlaydi

Surat Getty Images saytidan olingan. Oldingi tavsif: Bir kishi quyosh botganda o'tiradi. Yangi tavsif: Sohildagi gulxan.

Microsoft-ning Azure AI-dagi so'nggi texnologiyasi odamlar bilan bir qatorda tasvirlarni ham tasvirlaydi

Surat Getty Images saytidan olingan. Oldingi tavsif: Ko'k ko'ylakdagi odam. Yangi tavsif: Jarrohlik niqoblarini kiygan bir necha kishi.

Microsoft-ning Azure AI-dagi so'nggi texnologiyasi odamlar bilan bir qatorda tasvirlarni ham tasvirlaydi

Surat Getty Images saytidan olingan. Oldingi tavsif: Skeytborddagi odam devorga uchib ketmoqda. Yangi tavsif: Beysbolchi to'pni ushlab oladi.

Manba: www.habr.com

a Izoh qo'shish