تصف أحدث تقنيات Microsoft في Azure AI الصور وكذلك الأشخاص


ابتكر باحثو Microsoft نظام ذكاء اصطناعي قادر على إنشاء تعليقات على الصور ، والتي ، في كثير من الحالات ، تبين أنها أكثر دقة من الأوصاف التي يصنعها البشر. يمثل هذا الإنجاز علامة بارزة في التزام Microsoft بجعل منتجاتها وخدماتها شاملة ومتاحة لجميع المستخدمين.

قال Xuedong Huang: "وصف الصورة هو أحد الوظائف الرئيسية لرؤية الكمبيوتر ، مما يجعل مجموعة واسعة من الخدمات ممكنة" (Xuedong هوانغ) ، مسؤول تقني لشركة Microsoft ورئيس قسم التكنولوجيا في Azure AI Cognitive Services في ريدموند ، واشنطن.

الطراز الجديد متاح الآن للمستهلكين من خلال Computer Vision في خدمات Azure المعرفية، وهو جزء من Azure AI ، ويسمح للمطورين باستخدام هذه الميزة لتحسين توفر خدماتهم. يتم تضمينه أيضًا في تطبيق Seeing AI وسيكون متاحًا في وقت لاحق من هذا العام في Microsoft Word و Outlook لنظامي التشغيل Windows و Mac ، بالإضافة إلى PowerPoint لنظامي التشغيل Windows و Mac وعلى الويب.

يساعد الوصف التلقائي المستخدمين في الوصول إلى المحتوى المهم لأي صورة ، سواء كانت صورة تم إرجاعها في نتائج البحث أو رسم توضيحي لعرض تقديمي.

قال ساقيب شيخ: "إن استخدام التسميات التوضيحية التي تصف محتوى الصور (ما يسمى بالنص البديل أو البديل) على صفحات الويب والوثائق مهم بشكل خاص للأشخاص المكفوفين أو ضعاف البصر".ساقيب شيخ) ، مدير البرامج في Microsoft AI Platform Group في ريدموند.

على سبيل المثال ، يستخدم فريقه ميزة وصف صورة محسّنة في التطبيق للأشخاص المكفوفين وضعاف البصر. رؤية منظمة العفو الدولية، الذي يتعرف على ما تلتقطه الكاميرا ويحكي عنه. يستخدم التطبيق تسميات توضيحية تم إنشاؤها لوصف الصور ، بما في ذلك على وسائل التواصل الاجتماعي.

"من الناحية المثالية ، يجب على الجميع إضافة نص بديل إلى جميع الصور في المستندات وعلى الويب وعلى الشبكات الاجتماعية ، حيث يتيح ذلك للمكفوفين الوصول إلى المحتوى والمشاركة في المحادثة. لكن ، للأسف ، الناس لا يفعلون هذا ، يقول الشيخ. "ومع ذلك ، هناك بعض التطبيقات التي تستخدم ميزة وصف الصورة لإضافة نص بديل عندما يكون مفقودًا."
  
تصف أحدث تقنيات Microsoft في Azure AI الصور وكذلك الأشخاص

قاد Liruan Wang ، المدير العام للبحوث في Redmond Lab في Microsoft ، فريقًا بحثيًا حقق النتائج البشرية وتجاوزها. الصورة: دان ديلونج.

وصف الكائنات الجديدة

أوضح ليروان وانغ أن "وصف الصور هو إحدى المهام الرئيسية للرؤية الحاسوبية ، والتي تتطلب نظام ذكاء اصطناعي لفهم ووصف المحتوى الرئيسي أو الإجراء المعروض في الصورة" (ليجوان وانغ) ، المدير العام للبحوث في مختبر Microsoft Redmond.

قالت: "أنت بحاجة إلى فهم ما يجري ، ومعرفة العلاقات بين الأشياء والأفعال ، ثم تلخيصها ووصفها كلها في جملة بلغة يمكن للبشر قراءتها".

قاد وانغ فريق البحث ، الذي في قياس الأداء لا قبعات (وضع تعليق على كائن جديد على نطاق واسع ، ووصف واسع النطاق للأشياء الجديدة) حقق نتيجة مماثلة لنتيجة بشرية ، وتجاوزها. يتيح لك هذا الاختبار تقييم مدى نجاح أنظمة الذكاء الاصطناعي في إنشاء أوصاف للكائنات المصورة التي لم يتم تضمينها في مجموعة البيانات التي تم تدريب النموذج عليها.

عادةً ما يتم تدريب أنظمة وصف الصور على مجموعات البيانات التي تحتوي على صور مصحوبة بوصف نصي لهذه الصور ، أي في مجموعات من الصور الموقعة.

يقول وانج: "يُظهر اختبار nocaps مدى قدرة النظام على وصف الأشياء الجديدة غير الموجودة في بيانات التدريب".

لحل هذه المشكلة ، قام فريق Microsoft بتدريب نموذج كبير للذكاء الاصطناعي مسبقًا على مجموعة بيانات كبيرة تحتوي على صور ذات علامات كلمات ، تم تعيين كل منها لكائن معين في الصورة.

تعد مجموعات الصور التي تحتوي على علامات الكلمات بدلاً من التسميات التوضيحية الكاملة أكثر كفاءة في الإنشاء ، مما يسمح لفريق وانج بإدخال الكثير من البيانات في نموذجهم. أعطى هذا النهج النموذج ما يسميه الفريق مفردات مرئية.

كما أوضح هوانغ ، فإن نهج ما قبل التعلم باستخدام المفردات المرئية يشبه إعداد الأطفال للقراءة: أولاً ، يتم استخدام كتاب مصور حيث يتم ربط الكلمات الفردية بالصور ، على سبيل المثال ، أسفل صورة تفاحة مكتوبة بـ "تفاحة" وتحت صورة قطة توجد كلمة "قطة".

"هذا التدريب المسبق مع المفردات المرئية هو في الأساس التعليم الأولي اللازم لتدريب النظام. قال هوانغ "هذه هي الطريقة التي نحاول بها تطوير نوع من الذاكرة الحركية".

ثم يتم تنقيح النموذج المدرَّب مسبقًا بمجموعة بيانات بما في ذلك الصور المصنفة. في هذه المرحلة من التدريب ، يتعلم النموذج تكوين الجمل. إذا ظهرت صورة تحتوي على كائنات جديدة ، فإن نظام الذكاء الاصطناعي يستخدم القاموس المرئي لإنشاء أوصاف دقيقة.

يقول وانج: "للعمل مع كائنات جديدة أثناء الاختبار ، يدمج النظام ما تعلمه أثناء التدريب السابق وأثناء التحسين اللاحق".
وفقا للنتائج بحث، عند تقييمه في اختبارات nocaps ، أنتج نظام الذكاء الاصطناعي أوصافًا ذات مغزى ودقة أكثر من تلك التي قام بها البشر لنفس الصور.

انتقال أسرع إلى بيئة العمل 

من بين أشياء أخرى ، يعد نظام وصف الصور الجديد ضعف جودة النموذج المستخدم في منتجات وخدمات Microsoft منذ عام 2015 ، مقارنةً بمعيار صناعي آخر.

بالنظر إلى الفوائد التي سيحصل عليها جميع مستخدمي منتجات Microsoft وخدماتها من هذا التحسين ، قام Huang بتسريع تكامل النموذج الجديد في بيئة عمل Azure.

قال: "نحن نأخذ تقنية الذكاء الاصطناعي المزعجة هذه إلى Azure كمنصة لخدمة مجموعة واسعة من العملاء". وهذا ليس مجرد اختراق في مجال البحث. كان الوقت الذي استغرقه دمج هذا الاختراق في بيئة إنتاج Azure بمثابة تقدم كبير. "

وأضاف هوانغ أن تحقيق نتائج شبيهة بالبشر يستمر في الاتجاه الذي نشأ بالفعل في أنظمة الذكاء الإدراكي لشركة Microsoft.

"على مدار السنوات الخمس الماضية ، حققنا نتائج شبيهة بالنتائج البشرية في خمسة مجالات رئيسية: التعرف على الكلام ، والترجمة الآلية ، والإجابة على الأسئلة ، والقراءة الآلية وفهم النص ، وفي عام 2020 ، على الرغم من COVID-19 ، في وصف الصورة قال خوان.

حسب الموضوع

قارن نتائج وصف الصور التي قدمها النظام من قبل والآن باستخدام الذكاء الاصطناعي

تصف أحدث تقنيات Microsoft في Azure AI الصور وكذلك الأشخاص

الصورة بإذن من Getty Images. الوصف السابق: لقطة مقرّبة لرجل يعدّ نقانقًا على لوح تقطيع. وصف جديد: رجل يصنع الخبز.

تصف أحدث تقنيات Microsoft في Azure AI الصور وكذلك الأشخاص

الصورة بإذن من Getty Images. الوصف السابق: رجل جالس عند غروب الشمس. وصف جديد: نار على الشاطئ.

تصف أحدث تقنيات Microsoft في Azure AI الصور وكذلك الأشخاص

الصورة بإذن من Getty Images. الوصف السابق: رجل يرتدي قميصًا أزرق. وصف جديد: يرتدي عدة أشخاص أقنعة جراحية.

تصف أحدث تقنيات Microsoft في Azure AI الصور وكذلك الأشخاص

الصورة بإذن من Getty Images. الوصف السابق: رجل على لوح تزلج يطير على الحائط. وصف جديد: يمسك لاعب بيسبول كرة.

المصدر: www.habr.com

إضافة تعليق