يقوم OpenAI بتعليم العمل الجماعي للذكاء الاصطناعي في لعبة الغميضة

يمكن أن تكون لعبة الغميضة القديمة الجيدة بمثابة اختبار رائع لروبوتات الذكاء الاصطناعي (AI) لإظهار كيفية اتخاذ القرارات والتفاعل مع بعضها البعض ومع الكائنات المختلفة من حولها.

في كتابه مقال جديد، نشره باحثون من OpenAI، وهي منظمة غير ربحية لأبحاث الذكاء الاصطناعي أصبحت مشهورة الفوز على أبطال العالم في لعبة الكمبيوتر دوتا 2، يصف العلماء كيف تم تدريب العملاء الذين يتم التحكم بهم بواسطة الذكاء الاصطناعي ليكونوا أكثر تطوراً في البحث والاختباء من بعضهم البعض في بيئة افتراضية. وأظهرت نتائج الدراسة أن فريقًا مكونًا من روبوتين يتعلم بشكل أكثر فعالية وأسرع من أي عميل واحد بدون حلفاء.

يقوم OpenAI بتعليم العمل الجماعي للذكاء الاصطناعي في لعبة الغميضة

لقد استخدم العلماء طريقة اكتسبت شهرتها منذ فترة طويلة التعلم الآلي مع التعزيزحيث يتم وضع الذكاء الاصطناعي في بيئة غير معروفة له، مع وجود طرق معينة للتفاعل معه، بالإضافة إلى نظام المكافآت والغرامات لنتيجة أو أخرى لأفعاله. تعتبر هذه الطريقة فعالة للغاية نظرًا لقدرة الذكاء الاصطناعي على تنفيذ إجراءات مختلفة في بيئة افتراضية بسرعة هائلة، أسرع بملايين المرات مما يتخيله الشخص. يتيح ذلك التجربة والخطأ للعثور على الاستراتيجيات الأكثر فعالية لحل مشكلة معينة. لكن هذا النهج له أيضًا بعض القيود، على سبيل المثال، يتطلب إنشاء بيئة وإجراء دورات تدريبية عديدة موارد حاسوبية ضخمة، وتتطلب العملية نفسها نظامًا دقيقًا لمقارنة نتائج إجراءات الذكاء الاصطناعي مع هدفها. بالإضافة إلى ذلك، تقتصر المهارات التي اكتسبها العميل بهذه الطريقة على المهمة الموصوفة، وبمجرد أن يتعلم الذكاء الاصطناعي كيفية التعامل معها، لن يكون هناك أي تحسينات أخرى.

لتدريب الذكاء الاصطناعي على لعب الغميضة، استخدم العلماء نهجًا يسمى "الاستكشاف غير الموجه"، حيث يتمتع العملاء بالحرية الكاملة لتطوير فهمهم لعالم اللعبة وتطوير استراتيجيات الفوز. وهذا مشابه لنهج التعلم متعدد الوكلاء الذي استخدمه الباحثون في DeepMind عند أنظمة الذكاء الاصطناعي المتعددة تم تدريبهم على لعب وضع التقاط العلم في Quake III Arena. وكما في هذه الحالة، لم يكن عملاء الذكاء الاصطناعي مدربين مسبقًا على قواعد اللعبة، ولكن مع مرور الوقت تعلموا الاستراتيجيات الأساسية، بل وتمكنوا من مفاجأة الباحثين بحلول غير تافهة.

في لعبة الغميضة، طُلب من العديد من العملاء الذين كانت مهمتهم الاختباء تجنب مجال رؤية خصومهم بعد بداية طفيفة بينما تم تجميد فريق البحث عن العملاء. علاوة على ذلك، فإن "خط الرؤية" في هذا السياق هو مخروط بزاوية 135 درجة أمام الروبوت الفردي. لم يتمكن العملاء من المغامرة بعيدًا خارج منطقة اللعب واضطروا إلى التنقل في الغرف التي تم إنشاؤها بشكل عشوائي مع القدرة على استخدام بعض الأشياء الخارجية (الصناديق والجدران المتحركة والمنحدرات الخاصة) المنتشرة حولها والتي يمكن استخدامها لإنشاء غطاء والتسلل إليها.

يقوم OpenAI بتعليم العمل الجماعي للذكاء الاصطناعي في لعبة الغميضة

ومن خلال عملية تعلم طويلة، تعلم عملاء الذكاء الاصطناعي ست استراتيجيات فريدة، ساعدتهم كل واحدة منها على التقدم إلى المرحلة التالية من اللعبة. في البداية، هرب فريقا الباحثين والمختبئين ببساطة وطاردوا بعضهم البعض، ولكن بعد حوالي 25 مليون مباراة، تعلم فريق المختبئ إغلاق الممرات بالصناديق وبناء ملاجئ منها. وبعد 75 مليون مباراة أخرى، اكتشف الفريق طرقًا لاستخدام المنحدرات للوصول إلى هذه المخابئ. وبعد 10 ملايين جولة أخرى، تعلم المختبئون سحب المنحدرات إلى حافة منطقة اللعب وتثبيتها في مكانها لمنع الخصوم من استخدامها.

يقوم OpenAI بتعليم العمل الجماعي للذكاء الاصطناعي في لعبة الغميضة

بعد 388 مليون تطابق، تعلم الباحثون استخدام المنحدرات المحجوبة للتسلق إلى الصناديق التي تم إحضارها إليهم، ثم التحرك مباشرة عليها، واختراق مخابئ العدو التي تم إنشاؤها من الجدران المحمولة. وأخيرًا، بعد 458 مليون مباراة، توصل فريق الاختباء إلى أنهم بحاجة إلى حجب جميع الأشياء ثم بناء ملجأ، وهو ما أدى على ما يبدو إلى انتصارهم النهائي.

الأمر المثير للإعجاب بشكل خاص هو أنه بعد 22 مليون مباراة، تعلم العملاء تنسيق أفعالهم وزادت كفاءة تعاونهم في المستقبل، على سبيل المثال، أحضر كل منهم صندوقه أو جداره الخاص لإنشاء مأوى واختاروا نصيبهم من الأشياء منع لجعل اللعبة أكثر صعوبة للخصوم.

يقوم OpenAI بتعليم العمل الجماعي للذكاء الاصطناعي في لعبة الغميضة

لاحظ العلماء أيضًا نقطة مهمة تتعلق بتأثير عدد كائنات التدريب (كمية البيانات التي يتم تمريرها عبر الشبكة العصبية - "حجم الدفعة") على سرعة التعلم. يتطلب النموذج الافتراضي 132,3 مليون مباراة على مدار 34 ساعة من التدريب للوصول إلى النقطة التي يتعلم فيها فريق الاختباء كيفية منع المنحدرات، بينما أدت المزيد من البيانات إلى انخفاض ملحوظ في وقت التدريب. على سبيل المثال، أدت زيادة عدد المعلمات (جزء من البيانات التي تم الحصول عليها أثناء عملية التدريب بأكملها) من 0,5 مليون إلى 5,8 مليون إلى زيادة كفاءة أخذ العينات بمقدار 2,2 مرة، كما أدت زيادة حجم بيانات الإدخال من 64 كيلو بايت إلى 128 كيلو بايت إلى تقليل التدريب الوقت ما يقرب من مرة ونصف.

يقوم OpenAI بتعليم العمل الجماعي للذكاء الاصطناعي في لعبة الغميضة

وفي نهاية عملهم، قرر الباحثون اختبار مقدار التدريب داخل اللعبة الذي يمكن أن يساعد العملاء على التعامل مع مهام مماثلة خارج اللعبة. كانت هناك خمسة اختبارات في المجمل: الوعي بعدد الأشياء (فهم أن الشيء يظل موجودًا حتى لو كان بعيدًا عن الأنظار ولم يتم استخدامه)؛ "القفل والعودة" - القدرة على تذكر موضعك الأصلي والعودة إليه بعد إكمال بعض المهام الإضافية؛ "الحجب المتسلسل" - تم وضع 4 صناديق بشكل عشوائي في ثلاث غرف بدون أبواب، ولكن مع وجود منحدرات للدخول، كان على العملاء العثور عليها وحظرها جميعًا؛ وضع الصناديق في مواقع محددة سلفا؛ إنشاء مأوى حول كائن على شكل أسطوانة.

ونتيجة لذلك، في ثلاث من أصل خمس مهام، تعلمت الروبوتات التي خضعت لتدريب أولي في اللعبة بشكل أسرع وأظهرت نتائج أفضل من الذكاء الاصطناعي الذي تم تدريبه على حل المشكلات من الصفر. لقد كان أداؤهم أفضل قليلاً في إكمال المهمة والعودة إلى وضع البداية، وحظر الصناديق في الغرف المغلقة بشكل تسلسلي، ووضع الصناديق في مناطق معينة، ولكن كان أداؤهم أضعف قليلاً في التعرف على عدد الكائنات وإنشاء غطاء حول كائن آخر.

يعزو الباحثون نتائج متباينة إلى كيفية تعلم الذكاء الاصطناعي وتذكره لمهارات معينة. "نعتقد أن المهام التي كان أداء التدريب المسبق داخل اللعبة فيها أفضل ما يكون هو إعادة استخدام المهارات التي تم تعلمها سابقًا بطريقة مألوفة، في حين أن أداء المهام المتبقية بشكل أفضل من الذكاء الاصطناعي الذي تم تدريبه من الصفر سيتطلب استخدامها بطريقة مختلفة، وهو ما يعد كثيرًا أكثر صعوبة،" يكتب المؤلفون المشاركون في العمل. "تسلط هذه النتيجة الضوء على الحاجة إلى تطوير أساليب لإعادة استخدام المهارات المكتسبة من خلال التدريب بشكل فعال عند نقلها من بيئة إلى أخرى."

إن العمل المنجز مثير للإعجاب حقًا، نظرًا لأن احتمال استخدام طريقة التدريس هذه يتجاوز بكثير حدود أي ألعاب. يقول الباحثون إن عملهم يعد خطوة مهمة نحو إنشاء ذكاء اصطناعي بسلوك "قائم على الفيزياء" و"شبيه بالإنسان" يمكنه تشخيص الأمراض والتنبؤ بهياكل جزيئات البروتين المعقدة وتحليل الأشعة المقطعية.

في الفيديو أدناه، يمكنك أن ترى بوضوح كيف تمت عملية التعلم بأكملها، وكيف تعلم الذكاء الاصطناعي العمل الجماعي، وأصبحت استراتيجياته أكثر وأكثر تعقيدًا.



المصدر: 3dnews.ru

إضافة تعليق