يا هبر!
نادرًا ما نجرؤ على نشر ترجمات لنصوص تعود إلى ما قبل عامين ، بدون رمز وبتركيز أكاديمي واضح - لكننا سنستثني اليوم. نأمل أن تثير المعضلة المطروحة في عنوان المقال قلق العديد من قرائنا ، وأنك قد قرأت بالفعل العمل الأساسي حول الاستراتيجيات التطورية التي يناقشها هذا المنشور في الأصل أو ستقرأه الآن. مرحبًا بك في القط!
في آذار (مارس) 2017 ، أحدثت شركة OpenAI ضجة كبيرة في مجتمع التعلم العميق من خلال نشر المقالة "
استراتيجيات التطور
كانت الفرضية الرئيسية لمقال OpenAI هي أنه بدلاً من استخدام التعلم المعزز بالاشتراك مع الانتشار العكسي التقليدي ، قاموا بنجاح بتدريب شبكة عصبية لحل المشكلات المعقدة باستخدام ما يسمى "الإستراتيجية التطورية" (ES). يتمثل نهج ES هذا في الحفاظ على توزيع الأوزان على مستوى الشبكة ، ويشارك العديد من الوكلاء ، ويعملون بالتوازي ويستخدمون معلمات مختارة من هذا التوزيع. يعمل كل وكيل في بيئته الخاصة ، وبعد إكمال عدد معين من الحلقات أو مراحل الحلقة ، تُرجع الخوارزمية مكافأة تراكمية ، معبرًا عنها على أنها نقاط لياقة. بالنظر إلى هذه القيمة ، يمكن تحويل توزيع المعلمات نحو عوامل أكثر نجاحًا ، مما يحرم العناصر الأقل نجاحًا. من خلال تكرار مثل هذه العملية ملايين المرات بمشاركة مئات الوكلاء ، من الممكن نقل توزيع الأوزان إلى مساحة تسمح لنا بصياغة سياسة جودة للوكلاء لحل مهمتهم. في الواقع ، النتائج المعروضة في المقالة مثيرة للإعجاب: فقد تبين أنه إذا قمت بتشغيل ألف عامل بالتوازي ، فيمكن تعلم الحركة المجسمة على قدمين في أقل من نصف ساعة (في حين أن أكثر أساليب RL تقدمًا تتطلب أكثر من ساعة واحدة). لمزيد من المعلومات التفصيلية ، أوصي بقراءة ممتاز
تم تعلم استراتيجيات مختلفة لتعليم المشي المستقيم المجسم من طريقة OpenAI's ES.
صندوق اسود
الفائدة الكبيرة من هذه الطريقة هي أنه يمكن موازنتها بسهولة. بينما تتطلب أساليب RL ، مثل A3C ، تبادل المعلومات بين مؤشرات ترابط العاملين وخادم المعلمات ، يحتاج ES فقط إلى اجتياز الدرجات ومعلومات توزيع المعلمات المعممة. وبسبب هذه البساطة على وجه التحديد ، تفوقت هذه الطريقة كثيرًا على أساليب RL الحديثة من حيث قدرات القياس. ومع ذلك ، كل هذا ليس عبثًا: عليك تحسين الشبكة وفقًا لمبدأ الصندوق الأسود. في هذه الحالة ، يعني "الصندوق الأسود" أنه أثناء التدريب ، يتم تجاهل البنية الداخلية للشبكة تمامًا ، ويتم استخدام النتيجة الإجمالية فقط (المكافأة لكل حلقة) ، ويعتمد ذلك على ما إذا كانت أوزان شبكة معينة سوف ترثه الأجيال اللاحقة. في المواقف التي لا نحصل فيها على الكثير من التعليقات من البيئة - وفي العديد من مهام RL التقليدية ، يكون تدفق المكافآت قليلًا جدًا - تنتقل المشكلة من كونها "صندوقًا أسود جزئيًا" إلى "صندوق أسود تمامًا". في هذه الحالة ، من الممكن تحسين الأداء بشكل جدي ، لذلك ، بالطبع ، مثل هذا الحل الوسط له ما يبرره. "من يحتاج إلى التدرجات إذا كانت صاخبة بشكل ميؤوس منه على أي حال؟" هو الرأي العام.
ومع ذلك ، في المواقف التي تكون فيها التعليقات أكثر نشاطًا ، تبدأ الأمور في الخطأ بالنسبة إلى ES. يصف فريق OpenAI كيف تم تدريب شبكة تصنيف MNIST البسيطة باستخدام ES ، وكان التدريب هذه المرة أبطأ 1000 مرة. الحقيقة هي أن إشارة التدرج في تصنيف الصور مفيدة للغاية حول كيفية تعليم الشبكة تصنيفًا أفضل. وبالتالي ، فإن المشكلة لا تتعلق كثيرًا بتقنية RL ، ولكن في المكافآت المتفرقة في البيئات التي تعطي تدرجات صاخبة.
الحل الذي وجدته الطبيعة
إذا كنت تحاول التعلم من الطبيعة ، والتفكير في طرق لتطوير الذكاء الاصطناعي ، ففي بعض الحالات يمكن تمثيل الذكاء الاصطناعي على أنه
بعد النظر في السلوك الفكري للثدييات ، نرى أنه يتشكل نتيجة للتأثير المتبادل المعقد لعمليتين مترابطتين بشكل وثيق: التعلم من التجربة и التعلم عبر التطبيق. غالبًا ما يتم تحديد الأول مع التطور عن طريق الانتقاء الطبيعي ، لكنني هنا أستخدم مصطلحًا أوسع ليشمل علم التخلق ، والميكروبيوم ، والآليات الأخرى التي تمكن من تبادل الخبرات بين الكائنات الحية التي لا ترتبط ببعضها البعض من وجهة نظر وراثية. العملية الثانية ، التعلم بالممارسة ، هي كل المعلومات التي يستطيع الحيوان تعلمها طوال حياته ، وهذه المعلومات ترجع مباشرة إلى تفاعل هذا الحيوان مع العالم الخارجي. تتضمن هذه الفئة كل شيء من التعلم إلى التعرف على الأشياء إلى إتقان الاتصال المتأصل في عملية التعلم.
بشكل تقريبي ، يمكن مقارنة هاتين العمليتين اللتين تحدثان في الطبيعة بخيارين لتحسين الشبكات العصبية. الاستراتيجيات التطورية ، حيث يتم استخدام المعلومات حول التدرجات لتحديث المعلومات حول كائن حي ، تقترب من التعلم من التجربة. وبالمثل ، فإن طرق التدرج ، حيث يؤدي اكتساب هذه التجربة أو تلك إلى تغييرات معينة في سلوك الوكيل ، يمكن مقارنتها بالتعلم من التجربة. إذا فكرنا في أنواع السلوك الفكري أو القدرات التي يطورها كل من هذين النهجين في الحيوانات ، تصبح هذه المقارنة أكثر وضوحًا. في كلتا الحالتين ، تعزز "الأساليب التطورية" دراسة السلوكيات التفاعلية التي تسمح بتطوير لياقة معينة (كافية للبقاء على قيد الحياة). إن تعلم المشي أو الهروب من الأسر يعادل في كثير من الحالات سلوكيات أكثر "فطرية" ، "متشددة" في كثير من الحيوانات على المستوى الجيني. بالإضافة إلى ذلك ، يؤكد هذا المثال أن الأساليب التطورية قابلة للتطبيق في الحالات التي تكون فيها إشارة المكافأة نادرة للغاية (مثل ، على سبيل المثال ، حقيقة تربية شبل ناجحة). في مثل هذه الحالة ، من المستحيل ربط المكافأة بأي مجموعة محددة من الإجراءات التي قد تكون حدثت قبل سنوات عديدة من حدوث هذه الحقيقة. من ناحية أخرى ، إذا أخذنا في الاعتبار الحالة التي فشل فيها ES ، أي تصنيف الصور ، فإن النتائج قابلة للمقارنة بشكل ملحوظ بنتائج التعلم الحيواني التي تحققت في عدد لا يحصى من التجارب النفسية السلوكية التي أجريت على مدى أكثر من 100 عام.
تعلم الحيوان
الأساليب المستخدمة في التعلم المعزز في كثير من الحالات مأخوذة مباشرة من الأدبيات النفسية وما بعدها
يغير الدور المركزي للتعلم التنبئي في التعلم التجريبي الديناميكيات الموضحة أعلاه بأكثر الطرق أهمية. تبين أن الإشارة التي كانت تعتبر في السابق قليلة جدًا (المكافأة العرضية) كثيفة جدًا. من الناحية النظرية ، الموقف هو شيء من هذا القبيل: في كل لحظة من الزمن ، يحسب دماغ الثدييات النتائج بناءً على تيار معقد من المحفزات والأفعال الحسية ، في حين أن الحيوان ببساطة منغمس في هذا التيار. في هذه الحالة ، يعطي السلوك النهائي للحيوان إشارة كثيفة يجب توجيهها في تصحيح التنبؤات وتطوير السلوك. يستخدم الدماغ كل هذه الإشارات لتحسين التنبؤات (وبالتالي جودة الإجراءات التي يتم تنفيذها) في المستقبل. يتم إعطاء لمحة عامة عن هذا النهج في الكتاب الممتاز "
تدريب أكثر ثراءً للشبكات العصبية
بناءً على مبادئ النشاط العصبي العالي المتأصل في دماغ الثدييات ، والذي يشارك باستمرار في التنبؤ ، تم إحراز بعض التقدم مؤخرًا في التعلم المعزز ، والذي يأخذ الآن في الاعتبار أهمية مثل هذه التنبؤات. فورًا ، يمكنني أن أوصيك بوظيفتين متشابهتين:
في كلا البحثين ، يكمل المؤلفون السياسة الافتراضية النموذجية لشبكاتهم العصبية بنتائج التنبؤات المتعلقة بحالة البيئة في المستقبل. في المقالة الأولى ، يتم تطبيق التنبؤ على مجموعة متنوعة من متغيرات القياس ، وفي المادة الثانية ، يتم تطبيق التغييرات في البيئة وسلوك الوكيل على هذا النحو. في كلتا الحالتين ، تصبح الإشارة المتفرقة المرتبطة بالتعزيز الإيجابي أكثر ثراءً وأكثر إفادة ، مما يوفر التعلم السريع واكتساب أنماط سلوك أكثر تعقيدًا. تتوفر هذه التحسينات فقط مع طرق إشارة التدرج ، وليس مع أساليب الصندوق الأسود مثل ES.
بالإضافة إلى ذلك ، فإن التعلم بالممارسة وطرق التدرج أكثر فاعلية. حتى في تلك الحالات التي كان من الممكن فيها دراسة مشكلة معينة باستخدام طريقة ES بشكل أسرع من استخدام التعلم المعزز ، تم تحقيق المكسب بسبب حقيقة أن البيانات التي تم تضمينها في استراتيجية ES أكثر من RL بعدة مرات. عند التفكير في هذه الحالة في مبادئ التعلم من الحيوانات ، نلاحظ أن نتيجة التعلم من مثال شخص آخر تتجلى بعد عدة أجيال ، بينما في بعض الأحيان يكون حدثًا واحدًا يمر بتجربة الفرد كافيًا للحيوان لتعلم درسًا إلى الأبد. بينما مماثلة
فلماذا لا تجمعهم؟
ربما ترك الكثير من هذه المقالة انطباعًا بأنني أدافع عن أساليب RL. ومع ذلك ، في الواقع ، أعتقد أنه على المدى الطويل ، فإن أفضل حل هو مزيج من كلتا الطريقتين ، بحيث يتم استخدام كل منهما في المواقف التي تناسبها بشكل أفضل. من الواضح ، في حالة العديد من السياسات التفاعلية أو في المواقف ذات إشارات التعزيز الإيجابية المتفرقة للغاية ، يفوز ES ، خاصة إذا كانت لديك قوة الحوسبة تحت تصرفك ، والتي يمكنك من خلالها تشغيل التعلم المتوازي بشكل كبير. من ناحية أخرى ، ستكون طرق التدرج باستخدام التعلم المعزز أو التعلم الخاضع للإشراف مفيدة عندما يكون لدينا الكثير من التعليقات المتاحة وتحتاج المشكلة إلى التعلم بسرعة وببيانات أقل.
بالانتقال إلى الطبيعة ، نجد أن الطريقة الأولى ، في جوهرها ، تضع الأساس للطريقة الثانية. هذا هو السبب في أن الثدييات طورت دماغًا أثناء التطور يسمح لها بالتعلم بشكل فعال للغاية من مادة الإشارات المعقدة القادمة من البيئة. لذا يبقى السؤال مفتوحًا. ربما تساعدنا الاستراتيجيات التطورية على ابتكار بنى تعليمية فعالة ستكون مفيدة لطرق التعلم المتدرجة أيضًا. بعد كل شيء ، فإن الحل الذي وجدته الطبيعة ناجح جدًا حقًا.
المصدر: www.habr.com