🥇 التعلم التعزيزي أم الاستراتيجيات التطورية؟ - كلاهما وآخر

يا هبر!

نادرًا ما نجرؤ على نشر ترجمات لنصوص تعود إلى ما قبل عامين ، بدون رمز وبتركيز أكاديمي واضح - لكننا سنستثني اليوم. نأمل أن تثير المعضلة المطروحة في عنوان المقال قلق العديد من قرائنا ، وأنك قد قرأت بالفعل العمل الأساسي حول الاستراتيجيات التطورية التي يناقشها هذا المنشور في الأصل أو ستقرأه الآن. مرحبًا بك في القط!

في آذار (مارس) 2017 ، أحدثت شركة OpenAI ضجة كبيرة في مجتمع التعلم العميق من خلال نشر المقالة "استراتيجيات التطور كبديل قابل للتطوير للتعلم المعزز. " في هذه الورقة ، تم وصف النتائج المثيرة للإعجاب لصالح حقيقة أن الضوء لم يتقارب مع التعلم المعزز (RL) ، ومن المستحسن تجربة طرق أخرى عند تدريب الشبكات العصبية المعقدة. ثم اندلع نقاش حول أهمية التعلم المعزز وكيف أنه يستحق مكانة التكنولوجيا "الإلزامية" في تعلم حل المشكلات. هنا أريد أن أتحدث عن حقيقة أنه لا ينبغي اعتبار هاتين التقنيتين على أنهما منافسان ، فمن الواضح أن إحداهما أفضل من الأخرى ؛ على العكس من ذلك ، فإنهما يكملان بعضهما البعض في نهاية المطاف. في الواقع ، إذا فكرت قليلاً في ما هو مطلوب للإنشاء الذكاء الاصطناعي العام ومثل هذه الأنظمة التي ستكون قادرة طوال فترة وجودها على التعلم والحكم والتخطيط ، فمن شبه المؤكد أننا سنصل إلى استنتاج مفاده أن هذا أو ذاك الحل المشترك سيكون مطلوبًا لهذا الغرض. بالمناسبة ، كانت الطبيعة هي التي توصلت إلى حل مشترك ، ومنح الثدييات وغيرها من الحيوانات العليا ذكاءً معقدًا في سياق التطور.

استراتيجيات التطور

كانت الفرضية الرئيسية لمقال OpenAI هي أنه بدلاً من استخدام التعلم المعزز بالاشتراك مع الانتشار العكسي التقليدي ، قاموا بنجاح بتدريب شبكة عصبية لحل المشكلات المعقدة باستخدام ما يسمى "الإستراتيجية التطورية" (ES). يتمثل نهج ES هذا في الحفاظ على توزيع الأوزان على مستوى الشبكة ، ويشارك العديد من الوكلاء ، ويعملون بالتوازي ويستخدمون معلمات مختارة من هذا التوزيع. يعمل كل وكيل في بيئته الخاصة ، وبعد إكمال عدد معين من الحلقات أو مراحل الحلقة ، تُرجع الخوارزمية مكافأة تراكمية ، معبرًا عنها على أنها نقاط لياقة. بالنظر إلى هذه القيمة ، يمكن تحويل توزيع المعلمات نحو عوامل أكثر نجاحًا ، مما يحرم العناصر الأقل نجاحًا. من خلال تكرار مثل هذه العملية ملايين المرات بمشاركة مئات الوكلاء ، من الممكن نقل توزيع الأوزان إلى مساحة تسمح لنا بصياغة سياسة جودة للوكلاء لحل مهمتهم. في الواقع ، النتائج المعروضة في المقالة مثيرة للإعجاب: فقد تبين أنه إذا قمت بتشغيل ألف عامل بالتوازي ، فيمكن تعلم الحركة المجسمة على قدمين في أقل من نصف ساعة (في حين أن أكثر أساليب RL تقدمًا تتطلب أكثر من ساعة واحدة). لمزيد من المعلومات التفصيلية ، أوصي بقراءة ممتاز بعد من مؤلفي التجربة ، وكذلك المادة العلمية.

تم تعلم استراتيجيات مختلفة لتعليم المشي المستقيم المجسم من طريقة OpenAI's ES.

صندوق اسود

الفائدة الكبيرة من هذه الطريقة هي أنه يمكن موازنتها بسهولة. بينما تتطلب أساليب RL ، مثل A3C ، تبادل المعلومات بين مؤشرات ترابط العاملين وخادم المعلمات ، يحتاج ES فقط إلى اجتياز الدرجات ومعلومات توزيع المعلمات المعممة. وبسبب هذه البساطة على وجه التحديد ، تفوقت هذه الطريقة كثيرًا على أساليب RL الحديثة من حيث قدرات القياس. ومع ذلك ، كل هذا ليس عبثًا: عليك تحسين الشبكة وفقًا لمبدأ الصندوق الأسود. في هذه الحالة ، يعني "الصندوق الأسود" أنه أثناء التدريب ، يتم تجاهل البنية الداخلية للشبكة تمامًا ، ويتم استخدام النتيجة الإجمالية فقط (المكافأة لكل حلقة) ، ويعتمد ذلك على ما إذا كانت أوزان شبكة معينة سوف ترثه الأجيال اللاحقة. في المواقف التي لا نحصل فيها على الكثير من التعليقات من البيئة - وفي العديد من مهام RL التقليدية ، يكون تدفق المكافآت قليلًا جدًا - تنتقل المشكلة من كونها "صندوقًا أسود جزئيًا" إلى "صندوق أسود تمامًا". في هذه الحالة ، من الممكن تحسين الأداء بشكل جدي ، لذلك ، بالطبع ، مثل هذا الحل الوسط له ما يبرره. "من يحتاج إلى التدرجات إذا كانت صاخبة بشكل ميؤوس منه على أي حال؟" هو الرأي العام.

ومع ذلك ، في المواقف التي تكون فيها التعليقات أكثر نشاطًا ، تبدأ الأمور في الخطأ بالنسبة إلى ES. يصف فريق OpenAI كيف تم تدريب شبكة تصنيف MNIST البسيطة باستخدام ES ، وكان التدريب هذه المرة أبطأ 1000 مرة. الحقيقة هي أن إشارة التدرج في تصنيف الصور مفيدة للغاية حول كيفية تعليم الشبكة تصنيفًا أفضل. وبالتالي ، فإن المشكلة لا تتعلق كثيرًا بتقنية RL ، ولكن في المكافآت المتفرقة في البيئات التي تعطي تدرجات صاخبة.

الحل الذي وجدته الطبيعة

إذا كنت تحاول التعلم من الطبيعة ، والتفكير في طرق لتطوير الذكاء الاصطناعي ، ففي بعض الحالات يمكن تمثيل الذكاء الاصطناعي على أنه النهج القائم على المشكلة. بعد كل شيء ، تعمل الطبيعة ضمن حدود لا يملكها علماء الكمبيوتر ببساطة. هناك رأي مفاده أن النهج النظري البحت لحل مشكلة معينة يمكن أن يوفر حلولًا أكثر فعالية من البدائل التجريبية. ومع ذلك ، ما زلت أعتقد أنه سيكون من المفيد التحقق من كيفية قيام نظام ديناميكي يعمل تحت قيود معينة (الأرض) بتشكيل عوامل (الحيوانات ، على وجه الخصوص ، الثدييات) قادرة على سلوك مرن ومعقد. في حين أن بعض هذه القيود لا تنطبق في عوالم محاكاة علم البيانات ، إلا أن البعض الآخر جيد.

بعد النظر في السلوك الفكري للثدييات ، نرى أنه يتشكل نتيجة للتأثير المتبادل المعقد لعمليتين مترابطتين بشكل وثيق: التعلم من التجربة и التعلم عبر التطبيق. غالبًا ما يتم تحديد الأول مع التطور عن طريق الانتقاء الطبيعي ، لكنني هنا أستخدم مصطلحًا أوسع ليشمل علم التخلق ، والميكروبيوم ، والآليات الأخرى التي تمكن من تبادل الخبرات بين الكائنات الحية التي لا ترتبط ببعضها البعض من وجهة نظر وراثية. العملية الثانية ، التعلم بالممارسة ، هي كل المعلومات التي يستطيع الحيوان تعلمها طوال حياته ، وهذه المعلومات ترجع مباشرة إلى تفاعل هذا الحيوان مع العالم الخارجي. تتضمن هذه الفئة كل شيء من التعلم إلى التعرف على الأشياء إلى إتقان الاتصال المتأصل في عملية التعلم.

بشكل تقريبي ، يمكن مقارنة هاتين العمليتين اللتين تحدثان في الطبيعة بخيارين لتحسين الشبكات العصبية. الاستراتيجيات التطورية ، حيث يتم استخدام المعلومات حول التدرجات لتحديث المعلومات حول كائن حي ، تقترب من التعلم من التجربة. وبالمثل ، فإن طرق التدرج ، حيث يؤدي اكتساب هذه التجربة أو تلك إلى تغييرات معينة في سلوك الوكيل ، يمكن مقارنتها بالتعلم من التجربة. إذا فكرنا في أنواع السلوك الفكري أو القدرات التي يطورها كل من هذين النهجين في الحيوانات ، تصبح هذه المقارنة أكثر وضوحًا. في كلتا الحالتين ، تعزز "الأساليب التطورية" دراسة السلوكيات التفاعلية التي تسمح بتطوير لياقة معينة (كافية للبقاء على قيد الحياة). إن تعلم المشي أو الهروب من الأسر يعادل في كثير من الحالات سلوكيات أكثر "فطرية" ، "متشددة" في كثير من الحيوانات على المستوى الجيني. بالإضافة إلى ذلك ، يؤكد هذا المثال أن الأساليب التطورية قابلة للتطبيق في الحالات التي تكون فيها إشارة المكافأة نادرة للغاية (مثل ، على سبيل المثال ، حقيقة تربية شبل ناجحة). في مثل هذه الحالة ، من المستحيل ربط المكافأة بأي مجموعة محددة من الإجراءات التي قد تكون حدثت قبل سنوات عديدة من حدوث هذه الحقيقة. من ناحية أخرى ، إذا أخذنا في الاعتبار الحالة التي فشل فيها ES ، أي تصنيف الصور ، فإن النتائج قابلة للمقارنة بشكل ملحوظ بنتائج التعلم الحيواني التي تحققت في عدد لا يحصى من التجارب النفسية السلوكية التي أجريت على مدى أكثر من 100 عام.

تعلم الحيوان

الأساليب المستخدمة في التعلم المعزز في كثير من الحالات مأخوذة مباشرة من الأدبيات النفسية وما بعدها تكييف هواء فعال، ودُرس التكييف الفعال على مادة علم نفس الحيوان. بالمناسبة ، ريتشارد ساتون ، أحد مؤسسي التعلم المعزز ، حاصل على درجة البكالوريوس في علم النفس. في سياق التكييف الفعال ، تتعلم الحيوانات ربط المكافأة أو العقوبة بأنماط سلوكية محددة. يمكن للمدربين والباحثين التلاعب بهذه المكافأة بطريقة أو بأخرى ، مما يستفز الحيوانات لإظهار الذكاء أو سلوكيات معينة. ومع ذلك ، فإن التكييف الفعال المستخدم في الأبحاث على الحيوانات ليس أكثر من شكل أكثر وضوحًا للتكييف ذاته الذي تتعلمه الحيوانات طوال حياتها. نتلقى باستمرار إشارات من التعزيز الإيجابي من البيئة ونعدل سلوكنا وفقًا لذلك. في الواقع ، يعتقد العديد من علماء الأعصاب وعلماء الإدراك أن البشر والحيوانات الأخرى يتصرفون في الواقع بمستوى أعلى ويتعلمون باستمرار التنبؤ بنتائج سلوكهم في المواقف المستقبلية تحسبًا للمكافآت المحتملة.

يغير الدور المركزي للتعلم التنبئي في التعلم التجريبي الديناميكيات الموضحة أعلاه بأكثر الطرق أهمية. تبين أن الإشارة التي كانت تعتبر في السابق قليلة جدًا (المكافأة العرضية) كثيفة جدًا. من الناحية النظرية ، الموقف هو شيء من هذا القبيل: في كل لحظة من الزمن ، يحسب دماغ الثدييات النتائج بناءً على تيار معقد من المحفزات والأفعال الحسية ، في حين أن الحيوان ببساطة منغمس في هذا التيار. في هذه الحالة ، يعطي السلوك النهائي للحيوان إشارة كثيفة يجب توجيهها في تصحيح التنبؤات وتطوير السلوك. يستخدم الدماغ كل هذه الإشارات لتحسين التنبؤات (وبالتالي جودة الإجراءات التي يتم تنفيذها) في المستقبل. يتم إعطاء لمحة عامة عن هذا النهج في الكتاب الممتاز "عدم اليقين في تصفح الإنترنت"العالم المعرفي والفيلسوف آندي كلارك. إذا تم استقراء مثل هذا المنطق لتدريب العوامل الاصطناعية ، فإن التعلم المعزز يكشف عن عيب أساسي: الإشارة المستخدمة في هذا النموذج تبين أنها ضعيفة بشكل ميؤوس منه مقارنة بما يمكن أن تكون (أو يجب أن تكون). في الحالات التي يكون فيها من المستحيل زيادة تشبع الإشارة (ربما لأنه بحكم التعريف ضعيف ، أو مرتبط بتفاعل منخفض المستوى) ، ربما يكون من الأفضل تفضيل طريقة تدريب متوازية بشكل جيد ، على سبيل المثال ، ES.

تدريب أكثر ثراءً للشبكات العصبية

بناءً على مبادئ النشاط العصبي العالي المتأصل في دماغ الثدييات ، والذي يشارك باستمرار في التنبؤ ، تم إحراز بعض التقدم مؤخرًا في التعلم المعزز ، والذي يأخذ الآن في الاعتبار أهمية مثل هذه التنبؤات. فورًا ، يمكنني أن أوصيك بوظيفتين متشابهتين:

في كلا البحثين ، يكمل المؤلفون السياسة الافتراضية النموذجية لشبكاتهم العصبية بنتائج التنبؤات المتعلقة بحالة البيئة في المستقبل. في المقالة الأولى ، يتم تطبيق التنبؤ على مجموعة متنوعة من متغيرات القياس ، وفي المادة الثانية ، يتم تطبيق التغييرات في البيئة وسلوك الوكيل على هذا النحو. في كلتا الحالتين ، تصبح الإشارة المتفرقة المرتبطة بالتعزيز الإيجابي أكثر ثراءً وأكثر إفادة ، مما يوفر التعلم السريع واكتساب أنماط سلوك أكثر تعقيدًا. تتوفر هذه التحسينات فقط مع طرق إشارة التدرج ، وليس مع أساليب الصندوق الأسود مثل ES.

بالإضافة إلى ذلك ، فإن التعلم بالممارسة وطرق التدرج أكثر فاعلية. حتى في تلك الحالات التي كان من الممكن فيها دراسة مشكلة معينة باستخدام طريقة ES بشكل أسرع من استخدام التعلم المعزز ، تم تحقيق المكسب بسبب حقيقة أن البيانات التي تم تضمينها في استراتيجية ES أكثر من RL بعدة مرات. عند التفكير في هذه الحالة في مبادئ التعلم من الحيوانات ، نلاحظ أن نتيجة التعلم من مثال شخص آخر تتجلى بعد عدة أجيال ، بينما في بعض الأحيان يكون حدثًا واحدًا يمر بتجربة الفرد كافيًا للحيوان لتعلم درسًا إلى الأبد. بينما مماثلة التعلم بدون أمثلة في حين أنه لا يتناسب تمامًا مع طرق التدرج التقليدية ، إلا أنه أكثر وضوحًا من ES. هناك ، على سبيل المثال ، مناهج مثل السيطرة العصبية العرضيةحيث يتم تخزين قيم Q أثناء التدريب ، وبعد ذلك يتحقق البرنامج منها قبل اتخاذ الإجراءات. لقد اتضح أن طريقة التدرج اللوني تسمح لك بتعلم كيفية حل المشكلات بشكل أسرع من ذي قبل. في مقال عن التحكم العصبي العرضي ، ذكر المؤلفون الحُصين البشري ، القادر على الاحتفاظ بمعلومات حول حدث ما حتى بعد تجربة واحدة ، وبالتالي ، مسرحيات. الدور الحاسم في عملية التذكر. تتطلب مثل هذه الآليات الوصول إلى التنظيم الداخلي للوكيل ، وهو أيضًا مستحيل بحكم التعريف في النموذج البيئي والاجتماعي (ES).

فلماذا لا تجمعهم؟

ربما ترك الكثير من هذه المقالة انطباعًا بأنني أدافع عن أساليب RL. ومع ذلك ، في الواقع ، أعتقد أنه على المدى الطويل ، فإن أفضل حل هو مزيج من كلتا الطريقتين ، بحيث يتم استخدام كل منهما في المواقف التي تناسبها بشكل أفضل. من الواضح ، في حالة العديد من السياسات التفاعلية أو في المواقف ذات إشارات التعزيز الإيجابية المتفرقة للغاية ، يفوز ES ، خاصة إذا كانت لديك قوة الحوسبة تحت تصرفك ، والتي يمكنك من خلالها تشغيل التعلم المتوازي بشكل كبير. من ناحية أخرى ، ستكون طرق التدرج باستخدام التعلم المعزز أو التعلم الخاضع للإشراف مفيدة عندما يكون لدينا الكثير من التعليقات المتاحة وتحتاج المشكلة إلى التعلم بسرعة وببيانات أقل.

بالانتقال إلى الطبيعة ، نجد أن الطريقة الأولى ، في جوهرها ، تضع الأساس للطريقة الثانية. هذا هو السبب في أن الثدييات طورت دماغًا أثناء التطور يسمح لها بالتعلم بشكل فعال للغاية من مادة الإشارات المعقدة القادمة من البيئة. لذا يبقى السؤال مفتوحًا. ربما تساعدنا الاستراتيجيات التطورية على ابتكار بنى تعليمية فعالة ستكون مفيدة لطرق التعلم المتدرجة أيضًا. بعد كل شيء ، فإن الحل الذي وجدته الطبيعة ناجح جدًا حقًا.

المصدر: www.habr.com

التعلم المعزز أو الاستراتيجيات التطورية؟ - كلاهما