Azure AI میں مائیکروسافٹ کی جدید ترین ٹیکنالوجی تصاویر کے ساتھ ساتھ لوگوں کو بھی بیان کرتی ہے۔


مائیکروسافٹ کے محققین نے ایک مصنوعی ذہانت کا نظام بنایا ہے جو تصویری کیپشن بنانے کی صلاحیت رکھتا ہے جو کہ بہت سے معاملات میں انسانوں کی بنائی گئی وضاحتوں سے زیادہ درست ثابت ہوتا ہے۔ اس پیش رفت نے اپنی مصنوعات اور خدمات کو تمام صارفین کے لیے قابل رسائی اور قابل رسائی بنانے کے لیے مائیکروسافٹ کے عزم میں ایک اہم سنگ میل کو نشان زد کیا۔

Xuedong Huang (زیڈونگ ہوانگ)، مائیکروسافٹ ٹیکنیکل آفیسر اور ریڈمنڈ، واشنگٹن میں Azure AI کاگنیٹو سروسز کے CTO۔

نیا ماڈل اب کمپیوٹر ویژن کے ذریعے صارفین کے لیے دستیاب ہے۔ Azure علمی خدماتجو Azure AI کا حصہ ہے، اور ڈویلپرز کو اپنی خدمات کی دستیابی کو بہتر بنانے کے لیے اس خصوصیت کو استعمال کرنے کی اجازت دیتا ہے۔ اسے Seeing AI ایپ میں بھی شامل کیا جا رہا ہے اور اس سال کے آخر میں ونڈوز اور میک کے لیے Microsoft Word اور Outlook کے ساتھ ساتھ PowerPoint for Windows, Mac اور ویب پر دستیاب ہوگا۔

آٹو تفصیل صارفین کو کسی بھی تصویر کے اہم مواد تک رسائی حاصل کرنے میں مدد کرتی ہے، چاہے وہ تلاش کے نتائج میں واپس کی گئی تصویر ہو یا پریزنٹیشن کے لیے کوئی مثال۔

ثاقب شیخ (ثاقب شیخ)، Redmond میں Microsoft کے AI پلیٹ فارم گروپ میں سافٹ ویئر مینیجر۔

مثال کے طور پر، ان کی ٹیم نابینا اور بصارت سے محروم لوگوں کے لیے ایپ میں تصویر کی تفصیل کا ایک بہتر فیچر استعمال کر رہی ہے۔ اے آئی کو دیکھ کر، جو پہچانتا ہے کہ کیمرہ کیا کیپچر کر رہا ہے اور اس کے بارے میں بتاتا ہے۔ ایپ تصاویر کو بیان کرنے کے لیے جنریٹڈ کیپشنز کا استعمال کرتی ہے، بشمول سوشل میڈیا پر۔

"مثالی طور پر، ہر کسی کو دستاویزات میں، ویب پر، سوشل نیٹ ورکس پر موجود تمام تصاویر میں ALT ٹیکسٹ شامل کرنا چاہیے، کیونکہ یہ نابینا افراد کو مواد تک رسائی حاصل کرنے اور گفتگو میں حصہ لینے کی اجازت دیتا ہے۔ لیکن افسوس کہ لوگ ایسا نہیں کرتے،‘‘ شیخ کہتے ہیں۔ "تاہم، کچھ ایسی ایپس موجود ہیں جو تصویر کی تفصیل کی خصوصیت کو استعمال کرتی ہیں تاکہ متبادل متن کو شامل کرنے کے لیے جب یہ غائب ہو۔"
  
Azure AI میں مائیکروسافٹ کی جدید ترین ٹیکنالوجی تصاویر کے ساتھ ساتھ لوگوں کو بھی بیان کرتی ہے۔

مائیکروسافٹ کی ریڈمنڈ لیب میں ریسرچ کے جنرل مینیجر لیروان وانگ نے ایک تحقیقی ٹیم کی قیادت کی جس نے انسانی نتائج حاصل کیے اور اس سے آگے نکل گئے۔ تصویر: ڈین ڈی لونگ۔

نئی اشیاء کی تفصیل

"تصاویر کو بیان کرنا کمپیوٹر ویژن کے اہم کاموں میں سے ایک ہے، جس میں تصویر میں پیش کیے گئے مرکزی مواد یا عمل کو سمجھنے اور بیان کرنے کے لیے مصنوعی ذہانت کے نظام کی ضرورت ہوتی ہے،" لیروان وانگ نے وضاحت کی۔لیجوان وانگمائیکروسافٹ کی ریڈمنڈ لیب میں تحقیق کے جنرل مینیجر۔

انہوں نے کہا کہ "آپ کو یہ سمجھنے کی ضرورت ہے کہ کیا ہو رہا ہے، یہ جاننا ہوگا کہ اشیاء اور اعمال کے درمیان کیا تعلق ہے، اور پھر اس سب کا خلاصہ اور انسانی پڑھنے کے قابل زبان میں ایک جملے میں بیان کریں،" انہوں نے کہا۔

وانگ نے تحقیقی ٹیم کی قیادت کی، جس نے بینچ مارکنگ کی۔ nocaps (ناول آبجیکٹ کیپشننگ اِٹ سکیل، نئی اشیاء کی بڑے پیمانے پر تفصیل) نے ایک نتیجہ حاصل کیا جو انسان کے مقابلے میں ہے، اور اس سے آگے نکل گیا۔ یہ جانچ آپ کو اس بات کا اندازہ کرنے کی اجازت دیتی ہے کہ AI سسٹم کس حد تک تصویری اشیاء کی تفصیل تیار کرتے ہیں جو اس ڈیٹا سیٹ میں شامل نہیں ہیں جس پر ماڈل کو تربیت دی گئی تھی۔

عام طور پر، امیج ڈسکرپشن سسٹمز کو ڈیٹا سیٹس پر تربیت دی جاتی ہے جس میں ان تصاویر کی متنی وضاحت کے ساتھ تصاویر ہوتی ہیں، یعنی دستخط شدہ امیجز کے سیٹ پر۔

وانگ کا کہنا ہے کہ "nocaps ٹیسٹ سے پتہ چلتا ہے کہ نظام تربیت کے اعداد و شمار میں نہ ملنے والی نئی اشیاء کو کتنی اچھی طرح سے بیان کر سکتا ہے۔"

اس مسئلے کو حل کرنے کے لیے، مائیکروسافٹ کی ٹیم نے ایک بڑے ڈیٹاسیٹ پر ایک بڑے AI ماڈل کو پہلے سے تربیت دی جس میں ورڈ ٹیگ کی گئی تصاویر ہیں، جن میں سے ہر ایک کو تصویر میں مخصوص آبجیکٹ کے ساتھ میپ کیا گیا ہے۔

مکمل کیپشن کے بجائے ورڈ ٹیگز کے ساتھ تصویری سیٹ بنانے میں زیادہ کارآمد ہیں، جس سے وانگ کی ٹیم اپنے ماڈل میں بہت زیادہ ڈیٹا فیڈ کر سکتی ہے۔ اس نقطہ نظر نے وہ ماڈل دیا جسے ٹیم بصری الفاظ کہتی ہے۔

جیسا کہ ہوانگ نے وضاحت کی، بصری الفاظ کا استعمال کرتے ہوئے پہلے سے سیکھنے کا طریقہ بچوں کو پڑھنے کے لیے تیار کرنے کے مترادف ہے: سب سے پہلے، ایک تصویری کتاب استعمال کی جاتی ہے جس میں انفرادی الفاظ تصویروں کے ساتھ منسلک ہوتے ہیں، مثال کے طور پر، ایک سیب کی تصویر کے نیچے لکھا ہوتا ہے "سیب"۔ اور ایک بلی کی تصویر کے نیچے لفظ "بلی" ہے۔

"یہ پیشگی تربیت بصری الفاظ کے ساتھ بنیادی طور پر نظام کی تربیت کے لیے درکار ابتدائی تعلیم ہے۔ ہوانگ نے کہا کہ اس طرح ہم ایک قسم کی موٹر میموری تیار کرنے کی کوشش کرتے ہیں۔

پہلے سے تربیت یافتہ ماڈل کو پھر ڈیٹا سیٹ کے ساتھ بہتر کیا جاتا ہے جس میں لیبل لگائی گئی تصاویر بھی شامل ہیں۔ تربیت کے اس مرحلے پر، ماڈل جملے بنانا سیکھتا ہے۔ اگر نئی اشیاء پر مشتمل تصویر ظاہر ہوتی ہے، تو AI نظام درست وضاحتیں بنانے کے لیے بصری لغت کا استعمال کرتا ہے۔

"ٹیسٹنگ کے دوران نئی اشیاء کے ساتھ کام کرنے کے لیے، سسٹم ان چیزوں کو یکجا کرتا ہے جو اس نے پری ٹریننگ کے دوران اور بعد میں اصلاح کے دوران سیکھا،" وانگ کہتے ہیں۔
نتائج کے مطابق تحقیق، جب nocaps ٹیسٹوں پر جائزہ لیا گیا تو، AI نظام نے انہی تصاویر کے لیے انسانوں کے مقابلے میں زیادہ معنی خیز اور درست وضاحتیں تیار کیں۔

کام کرنے والے ماحول میں تیزی سے منتقلی۔ 

دیگر چیزوں کے علاوہ، نیا امیج ڈسکرپشن سسٹم 2015 سے مائیکروسافٹ پروڈکٹس اور سروسز میں استعمال ہونے والے ماڈل سے دوگنا اچھا ہے، جب کسی دوسرے انڈسٹری کے بینچ مارک کے مقابلے میں۔

اس بہتری سے مائیکروسافٹ کی مصنوعات اور خدمات کے تمام صارفین کو حاصل ہونے والے فوائد کو مدنظر رکھتے ہوئے، ہوانگ نے Azure کام کے ماحول میں نئے ماڈل کے انضمام کو تیز کیا۔

انہوں نے کہا کہ "ہم اس خلل ڈالنے والی AI ٹیکنالوجی کو Azure میں ایک پلیٹ فارم کے طور پر لے جا رہے ہیں تاکہ صارفین کی وسیع رینج کی خدمت کی جا سکے۔" "اور یہ تحقیق میں صرف ایک پیش رفت نہیں ہے۔ Azure پیداواری ماحول میں اس پیش رفت کو شامل کرنے میں جو وقت لگا وہ بھی ایک پیش رفت تھی۔

ہوانگ نے مزید کہا کہ انسان جیسے نتائج حاصل کرنا مائیکروسافٹ کے علمی ذہانت کے نظام میں پہلے سے قائم ایک رجحان کو جاری رکھے ہوئے ہے۔

"پچھلے پانچ سالوں کے دوران، ہم نے پانچ بڑے شعبوں میں انسان نما نتائج حاصل کیے ہیں: تقریر کی شناخت میں، مشینی ترجمہ میں، سوالات کے جوابات دینے میں، مشین پڑھنے اور متن کو سمجھنے میں، اور 2020 میں، COVID-19 کے باوجود، تصویر کی تفصیل میں۔ ' جوآن نے کہا۔

عنوان سے

تصاویر کی تفصیل کے نتائج کا موازنہ کریں جو سسٹم نے پہلے اور اب AI کا استعمال کرتے ہوئے دیا تھا۔

Azure AI میں مائیکروسافٹ کی جدید ترین ٹیکنالوجی تصاویر کے ساتھ ساتھ لوگوں کو بھی بیان کرتی ہے۔

تصویر بشکریہ گیٹی امیجز۔ پچھلی تفصیل: کٹنگ بورڈ پر ہاٹ ڈاگ تیار کرنے والے آدمی کا کلوز اپ۔ نئی تفصیل: ایک آدمی روٹی بناتا ہے۔

Azure AI میں مائیکروسافٹ کی جدید ترین ٹیکنالوجی تصاویر کے ساتھ ساتھ لوگوں کو بھی بیان کرتی ہے۔

تصویر بشکریہ گیٹی امیجز۔ پچھلی تفصیل: ایک آدمی غروب آفتاب کے وقت بیٹھا ہے۔ نئی تفصیل: ساحل سمندر پر الاؤ۔

Azure AI میں مائیکروسافٹ کی جدید ترین ٹیکنالوجی تصاویر کے ساتھ ساتھ لوگوں کو بھی بیان کرتی ہے۔

تصویر بشکریہ گیٹی امیجز۔ پچھلی تفصیل: نیلی قمیض میں ایک آدمی۔ نئی تفصیل: کئی لوگ سرجیکل ماسک پہنے ہوئے ہیں۔

Azure AI میں مائیکروسافٹ کی جدید ترین ٹیکنالوجی تصاویر کے ساتھ ساتھ لوگوں کو بھی بیان کرتی ہے۔

تصویر بشکریہ گیٹی امیجز۔ پچھلی تفصیل: اسکیٹ بورڈ پر ایک آدمی دیوار سے اڑ رہا ہے۔ نئی تفصیل: ایک بیس بال کھلاڑی ایک گیند کو پکڑتا ہے۔

ماخذ: www.habr.com

نیا تبصرہ شامل کریں