Azure AI ۾ Microsoft جي جديد ٽيڪنالاجي تصويرن سان گڏوگڏ ماڻهن کي به بيان ڪري ٿي


Microsoft جي محققن هڪ مصنوعي ذهانت وارو نظام ٺاهيو آهي جيڪو تصويري ڪيپشن ٺاهڻ جي قابل آهي، جيڪو ڪيترن ئي ڪيسن ۾، انسانن جي ٺاهيل وضاحتن کان وڌيڪ صحيح ثابت ٿئي ٿو. هي پيش رفت Microsoft جي پنهنجي پروڊڪٽس ۽ خدمتن کي شامل ڪرڻ ۽ سڀني استعمال ڪندڙن لاءِ رسائي لائق بڻائڻ جي عزم ۾ هڪ اهم سنگ ميل ثابت ٿيو.

"تصوير جي وضاحت ڪمپيوٽر جي وژن جي مکيه ڪمن مان هڪ آهي، جيڪا خدمتن جي وسيع رينج کي ممڪن بڻائي ٿي،" Xuedong Huang (Xuedong Huang)، هڪ Microsoft ٽيڪنيڪل آفيسر ۽ CTO جو Azure AI Cognitive Services in Redmond, Washington.

نئون ماڊل هاڻي ڪمپيوٽر ويزن ذريعي صارفين لاءِ دستياب آهي Azure سنجيدگي جون خدمتون، جيڪو Azure AI جو حصو آهي، ۽ ڊولپرز کي اجازت ڏئي ٿو ته هي خصوصيت استعمال ڪري انهن جي خدمتن جي دستيابي کي بهتر ڪرڻ لاءِ. اهو Seeing AI ايپ ۾ پڻ شامل ڪيو پيو وڃي ۽ هن سال جي آخر ۾ ونڊوز ۽ ميڪ لاءِ Microsoft Word ۽ Outlook ۾ دستياب هوندو، انهي سان گڏ PowerPoint for Windows, Mac ۽ ويب تي.

خودڪار وضاحت صارفين کي ڪنهن به تصوير جي اهم مواد تائين رسائي ۾ مدد ڪري ٿي، چاهي اها تصوير جي ڳولا جي نتيجن ۾ واپسي هجي يا ڪنهن پيشڪش لاءِ هڪ مثال.

"ڪپشن جو استعمال جيڪي تصويرن جي مواد کي بيان ڪن ٿا (نام نهاد متبادل يا متبادل متن) ويب صفحن ۽ دستاويزن تي خاص طور تي نابين يا بصارت کان محروم ماڻهن لاءِ اهم آهي،" ثاقب شيخ چيو (ثاقب شيخريڊمنڊ ۾ Microsoft جي AI پليٽ فارم گروپ تي سافٽ ويئر مئنيجر.

مثال طور، هن جي ٽيم نابين ۽ بصارت کان محروم ماڻهن لاءِ ايپ ۾ هڪ بهتر تصويري وضاحت واري خاصيت استعمال ڪري رهي آهي. AI ڏسڻ، جيڪو سڃاڻي ٿو ته ڪئميرا ڇا پڪڙي رهيو آهي ۽ ان بابت ٻڌائي ٿو. ايپ تصويرون بيان ڪرڻ لاءِ ٺاهيل ڪيپشن استعمال ڪري ٿي، بشمول سوشل ميڊيا تي.

"مثالي طور، هر ڪنهن کي دستاويزن ۾ سڀني تصويرن ۾ alt ٽيڪسٽ شامل ڪرڻ گهرجي، ويب تي، سماجي نيٽ ورڪن تي، جيئن ته اهو نابين ماڻهن کي مواد تائين رسائي ۽ گفتگو ۾ حصو وٺڻ جي اجازت ڏئي ٿو. پر افسوس، ماڻهو ائين نٿا ڪن،“ شيخ چوي ٿو. "بهرحال، ڪجھه ائپس آھن جيڪي تصوير جي وضاحت جي خصوصيت کي استعمال ڪن ٿيون متبادل متن شامل ڪرڻ لاءِ جڏھن اھو غائب آھي."
  
Azure AI ۾ Microsoft جي جديد ٽيڪنالاجي تصويرن سان گڏوگڏ ماڻهن کي به بيان ڪري ٿي

Liruan Wang، Microsoft جي ريڊمنڊ ليب ۾ ريسرچ جو جنرل مئنيجر، هڪ تحقيقاتي ٽيم جي اڳواڻي ڪئي جيڪا انساني نتيجن کي حاصل ڪري ۽ اڳتي وڌايو. ڦوٽو: دان ڊي لونگ.

نئين شين جي وضاحت

"تصويرن کي بيان ڪرڻ ڪمپيوٽر جي ويزن جي مکيه ڪمن مان هڪ آهي، جنهن کي تصوير ۾ پيش ڪيل مکيه مواد يا عمل کي سمجهڻ ۽ بيان ڪرڻ لاء هڪ مصنوعي انٽيليجنس سسٽم جي ضرورت آهي،" Liruan Wang (ليجوان وانگ)، Microsoft جي ريڊمنڊ ليب ۾ تحقيق جو جنرل مئنيجر.

”توهان کي سمجهڻ جي ضرورت آهي ته ڇا ٿي رهيو آهي، اهو معلوم ڪرڻ گهرجي ته شين ۽ عملن جي وچ ۾ ڪهڙا لاڳاپا آهن، ۽ پوءِ خلاصو ۽ بيان ڪريو انهن سڀني کي هڪ جملي ۾ انساني پڙهڻ لائق ٻولي ۾،“ هن چيو.

وانگ ريسرچ ٽيم جي اڳواڻي ڪئي، جيڪا بينچ مارڪنگ ۾ nocaps (ناول اعتراض ڪيپشننگ تي پيماني تي، نئين شين جي وڏي پيماني تي وضاحت) هڪ نتيجو حاصل ڪيو جيڪو انسان جي مقابلي ۾، ۽ ان کي وڌايو. هي جاچ توهان کي اهو اندازو لڳائڻ جي اجازت ڏئي ٿي ته AI سسٽم ڪيتري قدر بهتر نموني ٺاهيل شين جا تفصيل ٺاهيا آهن جيڪي ڊيٽا سيٽ ۾ شامل نه آهن جنهن تي ماڊل کي تربيت ڏني وئي هئي.

عام طور تي، تصوير جي وضاحت سسٽم کي تربيت ڏني وئي آهي ڊيٽا سيٽن تي جيڪي تصويرون شامل آهن انهن تصويرن جي متن جي وضاحت سان گڏ، يعني، دستخط ٿيل تصويرن جي سيٽ تي.

"nocaps ٽيسٽ ڏيکاري ٿو ته سسٽم ڪيتري سٺي نموني بيان ڪرڻ جي قابل آهي نون شيون جيڪي ٽريننگ ڊيٽا ۾ نه مليا آهن،" وانگ چوي ٿو.

هن مسئلي کي حل ڪرڻ لاءِ، Microsoft ٽيم هڪ وڏي ڊيٽا سيٽ تي هڪ وڏي AI ماڊل کي اڳ-تربيت ڏني، جنهن ۾ لفظ-ٽيگ ٿيل تصويرون شامل آهن، هر هڪ تصوير ۾ هڪ مخصوص شئي سان ميپ ٿيل آهي.

مڪمل ڪيپشن جي بدران لفظ ٽيگ سان تصويري سيٽ ٺاهڻ لاءِ وڌيڪ ڪارائتو آهن، وانگ جي ٽيم کي پنهنجي ماڊل ۾ تمام گهڻو ڊيٽا فيڊ ڪرڻ جي اجازت ڏئي ٿي. اهو طريقو اهو نمونو ڏنو جنهن کي ٽيم سڏي ٿو بصري لفظ.

جيئن هوانگ وضاحت ڪئي ته، بصري لفظ استعمال ڪرڻ کان اڳ سکڻ جو طريقو ٻارن کي پڙهڻ لاءِ تيار ڪرڻ جهڙو آهي: پهريون، هڪ تصويري ڪتاب استعمال ڪيو ويندو آهي، جنهن ۾ انفرادي لفظ تصويرن سان جڙيل هوندا آهن، مثال طور، انب جي تصوير جي هيٺان لکيل هوندو آهي ”ايپل“. ۽ هڪ ٻلي جي تصوير هيٺ لفظ آهي "بلي".

"اها اڳ-تربيت بصري لفظ سان گڏ بنيادي طور تي ابتدائي تعليم آهي جيڪا سسٽم کي تربيت ڏيڻ جي ضرورت آهي. اهو ڪيئن آهي اسان هڪ قسم جي موٽر ياداشت کي ترقي ڪرڻ جي ڪوشش ڪندا آهيون، "هوانگ چيو.

اڳ-تربيت ٿيل ماڊل وري ڊيٽا سيٽ سان سڌريل آهي جنهن ۾ ليبل ٿيل تصويرون شامل آهن. تربيت جي هن مرحلي تي، ماڊل جملن کي ٺاهڻ سکندو آهي. جيڪڏهن نئين شين تي مشتمل هڪ تصوير ظاهر ٿئي ٿي، AI سسٽم صحيح وضاحت ٺاهڻ لاءِ بصري لغت استعمال ڪري ٿو.

"ٽيسٽنگ دوران نون شين سان ڪم ڪرڻ لاءِ، سسٽم ان کي ضم ڪري ٿو جيڪو هن اڳئين تربيت دوران ۽ بعد ۾ سڌارڻ دوران سکيو،" وانگ چوي ٿو.
نتيجن موجب تحقيق، جڏهن nocaps ٽيسٽ تي جائزو ورتو ويو، AI سسٽم انسانن جي ڀيٽ ۾ وڌيڪ بامعني ۽ صحيح وضاحت پيدا ڪئي ساڳي تصويرن لاءِ.

ڪم ڪندڙ ماحول ڏانهن تيز منتقلي 

ٻين شين جي وچ ۾، نئين تصوير جي وضاحت وارو نظام 2015 کان Microsoft پروڊڪٽس ۽ خدمتن ۾ استعمال ٿيل ماڊل جي ڀيٽ ۾ ٻه ڀيرا سٺو آهي، جڏهن ٻئي صنعت جي معيار جي مقابلي ۾.

انهن فائدن تي غور ڪندي جيڪي Microsoft پروڊڪٽس ۽ خدمتن جا سڀئي صارف هن سڌاري مان حاصل ڪندا، هوانگ نئين ماڊل جي انضمام کي تيز ڪيو Azure ڪم جي ماحول ۾.

"اسان هن تباهي واري AI ٽيڪنالاجي کي Azure ڏانهن وٺي رهيا آهيون پليٽ فارم جي طور تي گراهڪن جي وسيع رينج جي خدمت ڪرڻ لاءِ ،" هن چيو. "۽ اهو صرف تحقيق ۾ هڪ پيش رفت ناهي. اهو وقت جيڪو هن پيش رفت کي Azure پيداوار واري ماحول ۾ شامل ڪرڻ ۾ ورتو اهو پڻ هڪ پيش رفت هئي.

هوانگ وڌيڪ چيو ته انسانن وانگر نتيجا حاصل ڪرڻ هڪ رجحان جاري آهي جيڪو اڳ ۾ ئي Microsoft جي شعوري انٽيليجنس سسٽم ۾ قائم آهي.

”گذريل پنجن سالن ۾، اسان پنجن وڏن علائقن ۾ انسان جھڙا نتيجا حاصل ڪيا آهن: تقرير جي سڃاڻپ ۾، مشين جي ترجمي ۾، سوالن جا جواب ڏيڻ ۾، مشين پڙهڻ ۽ ٽيڪسٽ سمجھڻ ۾، ۽ 2020 ۾، COVID-19 جي باوجود، تصوير جي وضاحت ۾. "جوان چيو.

هن موضوع تي

تصويرن جي وضاحت جي نتيجن جو مقابلو ڪريو جيڪي سسٽم اڳ ڏنيون ۽ ھاڻي AI استعمال ڪندي

Azure AI ۾ Microsoft جي جديد ٽيڪنالاجي تصويرن سان گڏوگڏ ماڻهن کي به بيان ڪري ٿي

تصوير گٽي تصويرون جي مهرباني. اڳيون تفصيل: هڪ ماڻهوءَ جو بند اپ هڪ ڪٽڻ واري بورڊ تي هڪ گرم ڪتو تيار ڪري رهيو آهي. نئين وضاحت: ھڪڙو ماڻھو ماني ٺاھي ٿو.

Azure AI ۾ Microsoft جي جديد ٽيڪنالاجي تصويرن سان گڏوگڏ ماڻهن کي به بيان ڪري ٿي

تصوير گٽي تصويرون جي مهرباني. اڳيون وضاحت: ھڪڙو ماڻھو سج لھڻ تي ويٺو آھي. نئين وضاحت: سمنڊ جي ڪناري تي باهه.

Azure AI ۾ Microsoft جي جديد ٽيڪنالاجي تصويرن سان گڏوگڏ ماڻهن کي به بيان ڪري ٿي

تصوير گٽي تصويرون جي مهرباني. اڳيون بيان: هڪ نيري قميص ۾ هڪ ماڻهو. نئين وضاحت: ڪيترائي ماڻهو جراحي ماسڪ پائڻ.

Azure AI ۾ Microsoft جي جديد ٽيڪنالاجي تصويرن سان گڏوگڏ ماڻهن کي به بيان ڪري ٿي

تصوير گٽي تصويرون جي مهرباني. اڳيون تشريح: اسڪيٽ بورڊ تي ھڪڙو ماڻھو ڀت تي اڏامي ٿو. نئين وضاحت: هڪ بيس بال رانديگر هڪ بال کي پڪڙي ٿو.

جو ذريعو: www.habr.com

تبصرو شامل ڪريو