هی هابر!
ما اغلب تصمیم نمیگیریم ترجمههای متون دو ساله، بدون کد و کاملاً آکادمیک را در اینجا پست کنیم - اما امروز استثنا قائل میشویم. امیدواریم معضل مطرح شده در عنوان مقاله بسیاری از خوانندگان ما را نگران کرده باشد، و شما قبلاً کار اساسی در مورد استراتژی های تکاملی را که این پست با آن استدلال می کند در اصل خوانده اید یا اکنون آن را خواهید خواند. به گربه خوش آمدید!
در مارس 2017، OpenAI موجی در جامعه یادگیری عمیق با مقاله ایجاد کرد.
استراتژی های تکاملی
تز اصلی مقاله OpenAI این بود که، به جای استفاده از یادگیری تقویتی همراه با انتشار پسپشتی سنتی، آنها با موفقیت یک شبکه عصبی را برای حل مسائل پیچیده با استفاده از آنچه «استراتژی تکاملی» (ES) نامیدند آموزش دادند. این رویکرد ES شامل حفظ توزیع وزنها در سراسر شبکه، شامل عوامل متعددی است که به صورت موازی کار میکنند و از پارامترهای انتخاب شده از این توزیع استفاده میکنند. هر عامل در محیط خود عمل می کند و پس از تکمیل تعداد مشخصی از قسمت ها یا مراحل یک قسمت، الگوریتم یک پاداش تجمعی را که به عنوان یک امتیاز تناسب اندام بیان می شود، برمی گرداند. با در نظر گرفتن این مقدار، توزیع پارامترها را می توان به سمت عوامل موفق تر تغییر داد و عوامل کمتر موفق را محروم کرد. با میلیونها بار تکرار چنین عملیاتی با مشارکت صدها عامل، میتوان توزیع وزنهها را به فضایی منتقل کرد که به عوامل اجازه میدهد تا خط مشی باکیفیتی را برای حل وظیفه محول شده تدوین کنند. در واقع، نتایج ارائه شده در مقاله چشمگیر است: نشان داده شده است که اگر هزار عامل را به صورت موازی اجرا کنید، در کمتر از نیم ساعت می توان حرکت انسان را روی دو پا آموخت (در حالی که حتی پیشرفته ترین روش های RL نیاز به صرف هزینه بیشتر دارند. بیش از یک ساعت در این مورد). برای اطلاعات دقیق تر، خواندن عالی را توصیه می کنم
استراتژیهای مختلف برای آموزش راه رفتن عمودی انسانی، با استفاده از روش ES از OpenAI مورد مطالعه قرار گرفت.
جعبه سیاه
مزیت بزرگ این روش این است که به راحتی می توان آن را موازی کرد. در حالی که روشهای RL، مانند A3C، نیاز به تبادل اطلاعات بین رشتههای کارگر و سرور پارامتر دارند، ES فقط به برآورد تناسب و اطلاعات توزیع پارامتر تعمیمیافته نیاز دارد. به دلیل همین سادگی است که این روش از نظر قابلیت های مقیاس بندی بسیار جلوتر از روش های مدرن RL است. با این حال، همه اینها بیهوده نیست: شما باید شبکه را طبق اصل جعبه سیاه بهینه کنید. در این حالت، "جعبه سیاه" به این معنی است که در طول آموزش ساختار داخلی شبکه به طور کامل نادیده گرفته می شود و فقط از نتیجه کلی (پاداش برای قسمت) استفاده می شود و بستگی به آن دارد که آیا وزن یک شبکه خاص خواهد بود یا خیر. به نسل های بعدی به ارث می رسد. در موقعیتهایی که بازخورد زیادی از محیط دریافت نمیکنیم - و در بسیاری از مشکلات RL سنتی، جریان پاداشها بسیار پراکنده است - مشکل از یک "جعبه سیاه تا حدی" به یک "جعبه کاملا سیاه" تبدیل میشود. در این مورد، می توانید بهره وری را به میزان قابل توجهی افزایش دهید، بنابراین، البته، چنین مصالحه ای موجه است. چه کسی به شیب ها نیاز دارد، اگر به هر حال به شدت پر سر و صدا هستند؟ - این نظر کلی است.
با این حال، در شرایطی که بازخورد فعال تر است، همه چیز برای ES شروع به اشتباه می کند. تیم OpenAI توضیح می دهد که چگونه یک شبکه طبقه بندی ساده MNIST با استفاده از ES آموزش داده شد و این بار آموزش 1000 برابر کندتر بود. واقعیت این است که سیگنال گرادیان در طبقه بندی تصویر در مورد نحوه آموزش طبقه بندی بهتر شبکه بسیار آموزنده است. بنابراین، مشکل کمتر با تکنیک RL و بیشتر با پاداشهای پراکنده در محیطهایی است که گرادیانهای نویز تولید میکنند.
راه حل طبیعت
اگر سعی کنیم از مثال طبیعت بیاموزیم و به راههای توسعه هوش مصنوعی فکر کنیم، در برخی موارد میتوان هوش مصنوعی را به عنوان
با بررسی رفتار فکری پستانداران، می بینیم که این رفتار در نتیجه تأثیر متقابل پیچیده دو فرآیند به هم مرتبط شکل گرفته است: یادگیری از تجربیات دیگران и یاد گرفتن از طریق انجام دادن. اولی اغلب با تکامل ناشی از انتخاب طبیعی برابری میشود، اما در اینجا من از یک اصطلاح گستردهتر برای در نظر گرفتن اپی ژنتیک، میکروبیومها و مکانیسمهای دیگری استفاده میکنم که امکان اشتراک تجربیات بین ارگانیسمهای غیرمرتبط ژنتیکی را فراهم میکند. فرآیند دوم، یادگیری از تجربه، تمام اطلاعاتی است که یک حیوان در طول زندگی خود موفق به یادگیری آن می شود و این اطلاعات مستقیماً توسط تعامل این حیوان با دنیای خارج تعیین می شود. این دسته شامل همه چیز از یادگیری برای تشخیص اشیا تا تسلط بر ارتباطات ذاتی در فرآیند یادگیری است.
به طور کلی، این دو فرآیند که در طبیعت رخ می دهند را می توان با دو گزینه برای بهینه سازی شبکه های عصبی مقایسه کرد. استراتژیهای تکاملی، که در آن اطلاعات مربوط به شیبها برای بهروزرسانی اطلاعات مربوط به ارگانیسم استفاده میشود، به یادگیری از تجربه دیگران نزدیک میشود. به طور مشابه، روشهای گرادیان، که در آن به دست آوردن یک یا آن تجربه منجر به تغییری در رفتار عامل میشود، با یادگیری از تجربه خود فرد قابل مقایسه است. اگر به انواع رفتارها یا توانایی های هوشمندانه ای که هر یک از این دو رویکرد در حیوانات ایجاد می کنند فکر کنیم، مقایسه بارزتر می شود. در هر دو مورد، «روشهای تکاملی» مطالعه رفتارهای واکنشی را ترویج میکنند که به فرد اجازه میدهد تا تناسب اندام خاصی (برای زنده ماندن کافی) ایجاد کند. یادگیری راه رفتن یا فرار از اسارت در بسیاری موارد معادل رفتارهای "غریزی" است که در بسیاری از حیوانات در سطح ژنتیکی "سخت" است. علاوه بر این، این مثال تأیید می کند که روش های تکاملی در مواردی که سیگنال پاداش بسیار نادر است (به عنوان مثال، واقعیت بزرگ کردن موفق یک نوزاد) قابل استفاده است. در چنین حالتی، نمیتوان پاداش را با مجموعهای از اقدامات خاص که ممکن است سالها قبل از وقوع این واقعیت انجام شده باشد، مرتبط کرد. از سوی دیگر، اگر موردی را در نظر بگیریم که در آن ES شکست خورده است، یعنی طبقهبندی تصویر، نتایج بهطور قابلتوجهی با نتایج یادگیری حیوانات بهدستآمده در آزمایشهای روانشناختی رفتاری بیشماری که بیش از 100 سال انجام شده است، قابل مقایسه است.
یادگیری از حیوانات
روش های مورد استفاده در یادگیری تقویتی در بسیاری از موارد مستقیماً از ادبیات روانشناختی گرفته شده است
نقش اصلی پیش بینی در یادگیری از تجربه، پویایی توصیف شده در بالا را به روش های قابل توجهی تغییر می دهد. سیگنالی که قبلاً بسیار کم در نظر گرفته می شد (پاداش اپیزودیک) بسیار متراکم است. از نظر تئوری، وضعیت چیزی شبیه به این است: در هر زمان، مغز پستانداران بر اساس جریان پیچیده ای از محرک ها و اعمال حسی، نتایج را محاسبه می کند، در حالی که حیوان به سادگی در این جریان غوطه ور است. در این حالت، رفتار نهایی حیوان یک سیگنال قوی می دهد که باید برای هدایت تنظیم پیش بینی ها و توسعه رفتار استفاده شود. مغز از همه این سیگنال ها برای بهینه سازی پیش بینی ها (و بر این اساس، کیفیت اقدامات انجام شده) در آینده استفاده می کند. مروری بر این رویکرد در کتاب عالی ارائه شده است.
آموزش غنی تر شبکه های عصبی
با تکیه بر اصول فعالیت عصبی بالاتر ذاتی مغز پستانداران، که دائماً مشغول پیشبینی است، پیشرفتهای اخیر در یادگیری تقویتی صورت گرفته است که اکنون اهمیت چنین پیشبینیهایی را در نظر میگیرد. من می توانم بلافاصله دو کار مشابه را به شما توصیه کنم:
در هر دوی این مقالات، نویسندگان خط مشی پیش فرض معمول شبکه های عصبی خود را با نتایج پیش بینی در مورد وضعیت محیط در آینده تکمیل می کنند. در مقاله اول، پیشبینی برای انواع متغیرهای اندازهگیری اعمال میشود و در مقاله دوم، پیشبینی در مورد تغییرات محیط و رفتار عامل بهعنوان آن اعمال میشود. در هر دو مورد، سیگنال پراکنده مرتبط با تقویت مثبت بسیار غنیتر و آموزندهتر میشود و امکان یادگیری سریعتر و کسب رفتارهای پیچیدهتر را فراهم میکند. چنین پیشرفتهایی فقط با روشهایی که از سیگنال گرادیان استفاده میکنند، در دسترس هستند، و نه با روشهایی که بر اساس اصل «جعبه سیاه» عمل میکنند، مانند ES.
علاوه بر این، یادگیری از تجربه و روش های گرادیان بسیار موثرتر است. حتی در مواردی که امکان مطالعه یک مشکل خاص با استفاده از روش ES سریعتر از یادگیری تقویتی وجود داشت، به دلیل این واقعیت بود که استراتژی ES چندین برابر بیشتر از RL داده ها را شامل می شد. با تأمل در این مورد در مورد اصول یادگیری در حیوانات، متذکر می شویم که نتیجه یادگیری از مثال شخص دیگری پس از چندین نسل خود را نشان می دهد، در حالی که گاهی اوقات یک اتفاق به تنهایی برای حیوان کافی است تا برای همیشه این درس را بیاموزد. در حالی که مانند
بنابراین، چرا آنها را ترکیب نمی کنید؟
به احتمال زیاد بسیاری از این مقاله ممکن است این تصور را ایجاد کند که من از روش های RL حمایت می کنم. با این حال، من در واقع فکر می کنم که در درازمدت بهترین راه حل این است که هر دو روش را با هم ترکیب کنیم، به طوری که هر کدام در موقعیت هایی که مناسب ترین هستند استفاده شود. بدیهی است که در مورد بسیاری از سیاستهای واکنشی یا در موقعیتهایی با سیگنالهای بسیار پراکنده از تقویت مثبت، ES برنده میشود، بهویژه اگر قدرت محاسباتی در اختیار داشته باشید که بر اساس آن میتوانید تمرینات موازی زیادی را اجرا کنید. از سوی دیگر، روشهای گرادیان با استفاده از یادگیری تقویتی یا یادگیری نظارت شده زمانی مفید خواهند بود که به بازخورد گسترده دسترسی داشته باشیم و باید یاد بگیریم که چگونه یک مشکل را سریع و با دادههای کمتر حل کنیم.
با عطف به طبیعت، در می یابیم که روش اول، در اصل، اساس روش دوم را می گذارد. به همین دلیل است که در طول تکامل، پستانداران مغزهایی را توسعه داده اند که به آنها اجازه می دهد تا به طور بسیار مؤثری از سیگنال های پیچیده ای که از محیط می آیند یاد بگیرند. بنابراین، این سوال باز می ماند. شاید استراتژیهای تکاملی به ما کمک کنند تا معماریهای یادگیری مؤثری را ابداع کنیم که برای روشهای یادگیری گرادیان نیز مفید باشد. از این گذشته، راه حلی که طبیعت پیدا کرده است واقعاً بسیار موفق است.
منبع: www.habr.com