🥇یادگیری تقویتی یا استراتژی های تکاملی؟ - هر دو

هی هابر!

ما اغلب تصمیم نمی‌گیریم ترجمه‌های متون دو ساله، بدون کد و کاملاً آکادمیک را در اینجا پست کنیم - اما امروز استثنا قائل می‌شویم. امیدواریم معضل مطرح شده در عنوان مقاله بسیاری از خوانندگان ما را نگران کرده باشد، و شما قبلاً کار اساسی در مورد استراتژی های تکاملی را که این پست با آن استدلال می کند در اصل خوانده اید یا اکنون آن را خواهید خواند. به گربه خوش آمدید!

در مارس 2017، OpenAI موجی در جامعه یادگیری عمیق با مقاله ایجاد کرد.استراتژی های تکامل به عنوان یک جایگزین مقیاس پذیر برای یادگیری تقویتی" این کار نتایج چشمگیری را به نفع این واقعیت توصیف کرد که یادگیری تقویتی (RL) به یک گوه تبدیل نشده است و هنگام آموزش شبکه های عصبی پیچیده، توصیه می شود روش های دیگر را امتحان کنید. سپس بحثی در مورد اهمیت یادگیری تقویتی و اینکه چقدر شایستگی موقعیت آن به عنوان یک فناوری "باید" برای آموزش حل مسئله را دارد، به وجود آمد. در اینجا می خواهم بگویم که این دو فناوری را نباید رقیب دانست که یکی از آنها به وضوح بهتر از دیگری است. برعکس، آنها در نهایت مکمل یکدیگر هستند. در واقع، اگر کمی در مورد آنچه برای ایجاد نیاز است فکر کنید هوش مصنوعی عمومی و چنین سیستم هایی که در سراسر وجود خود قادر به یادگیری، قضاوت و برنامه ریزی هستند، تقریباً به طور قطع به این نتیجه خواهیم رسید که این یا آن راه حل ترکیبی مورد نیاز خواهد بود. به هر حال، دقیقاً این راه حل ترکیبی بود که طبیعت به آن رسید که در طول تکامل به پستانداران و سایر حیوانات برتر هوش پیچیده ای بخشید.

استراتژی های تکاملی

تز اصلی مقاله OpenAI این بود که، به جای استفاده از یادگیری تقویتی همراه با انتشار پس‌پشتی سنتی، آنها با موفقیت یک شبکه عصبی را برای حل مسائل پیچیده با استفاده از آنچه «استراتژی تکاملی» (ES) نامیدند آموزش دادند. این رویکرد ES شامل حفظ توزیع وزن‌ها در سراسر شبکه، شامل عوامل متعددی است که به صورت موازی کار می‌کنند و از پارامترهای انتخاب شده از این توزیع استفاده می‌کنند. هر عامل در محیط خود عمل می کند و پس از تکمیل تعداد مشخصی از قسمت ها یا مراحل یک قسمت، الگوریتم یک پاداش تجمعی را که به عنوان یک امتیاز تناسب اندام بیان می شود، برمی گرداند. با در نظر گرفتن این مقدار، توزیع پارامترها را می توان به سمت عوامل موفق تر تغییر داد و عوامل کمتر موفق را محروم کرد. با میلیون‌ها بار تکرار چنین عملیاتی با مشارکت صدها عامل، می‌توان توزیع وزنه‌ها را به فضایی منتقل کرد که به عوامل اجازه می‌دهد تا خط مشی باکیفیتی را برای حل وظیفه محول شده تدوین کنند. در واقع، نتایج ارائه شده در مقاله چشمگیر است: نشان داده شده است که اگر هزار عامل را به صورت موازی اجرا کنید، در کمتر از نیم ساعت می توان حرکت انسان را روی دو پا آموخت (در حالی که حتی پیشرفته ترین روش های RL نیاز به صرف هزینه بیشتر دارند. بیش از یک ساعت در این مورد). برای اطلاعات دقیق تر، خواندن عالی را توصیه می کنم ارسال از نویسندگان آزمایش، و همچنین مقاله علمی.

استراتژی‌های مختلف برای آموزش راه رفتن عمودی انسانی، با استفاده از روش ES از OpenAI مورد مطالعه قرار گرفت.

جعبه سیاه

مزیت بزرگ این روش این است که به راحتی می توان آن را موازی کرد. در حالی که روش‌های RL، مانند A3C، نیاز به تبادل اطلاعات بین رشته‌های کارگر و سرور پارامتر دارند، ES فقط به برآورد تناسب و اطلاعات توزیع پارامتر تعمیم‌یافته نیاز دارد. به دلیل همین سادگی است که این روش از نظر قابلیت های مقیاس بندی بسیار جلوتر از روش های مدرن RL است. با این حال، همه اینها بیهوده نیست: شما باید شبکه را طبق اصل جعبه سیاه بهینه کنید. در این حالت، "جعبه سیاه" به این معنی است که در طول آموزش ساختار داخلی شبکه به طور کامل نادیده گرفته می شود و فقط از نتیجه کلی (پاداش برای قسمت) استفاده می شود و بستگی به آن دارد که آیا وزن یک شبکه خاص خواهد بود یا خیر. به نسل های بعدی به ارث می رسد. در موقعیت‌هایی که بازخورد زیادی از محیط دریافت نمی‌کنیم - و در بسیاری از مشکلات RL سنتی، جریان پاداش‌ها بسیار پراکنده است - مشکل از یک "جعبه سیاه تا حدی" به یک "جعبه کاملا سیاه" تبدیل می‌شود. در این مورد، می توانید بهره وری را به میزان قابل توجهی افزایش دهید، بنابراین، البته، چنین مصالحه ای موجه است. چه کسی به شیب ها نیاز دارد، اگر به هر حال به شدت پر سر و صدا هستند؟ - این نظر کلی است.

با این حال، در شرایطی که بازخورد فعال تر است، همه چیز برای ES شروع به اشتباه می کند. تیم OpenAI توضیح می دهد که چگونه یک شبکه طبقه بندی ساده MNIST با استفاده از ES آموزش داده شد و این بار آموزش 1000 برابر کندتر بود. واقعیت این است که سیگنال گرادیان در طبقه بندی تصویر در مورد نحوه آموزش طبقه بندی بهتر شبکه بسیار آموزنده است. بنابراین، مشکل کمتر با تکنیک RL و بیشتر با پاداش‌های پراکنده در محیط‌هایی است که گرادیان‌های نویز تولید می‌کنند.

راه حل طبیعت

اگر سعی کنیم از مثال طبیعت بیاموزیم و به راه‌های توسعه هوش مصنوعی فکر کنیم، در برخی موارد می‌توان هوش مصنوعی را به عنوان رویکرد مسئله محور. به هر حال، طبیعت با محدودیت هایی عمل می کند که دانشمندان کامپیوتر به سادگی ندارند. این عقیده وجود دارد که یک رویکرد صرفا نظری برای حل یک مشکل خاص می تواند راه حل های موثرتری نسبت به جایگزین های تجربی ارائه دهد. با این حال، من هنوز فکر می کنم ارزش آن را دارد که آزمایش کنیم که چگونه یک سیستم پویا که تحت محدودیت های خاص (زمین) عمل می کند، عواملی (حیوانات، به ویژه پستانداران) را تولید می کند که قادر به رفتار انعطاف پذیر و پیچیده هستند. در حالی که برخی از این محدودیت‌ها در دنیای شبیه‌سازی‌شده علوم داده اعمال نمی‌شوند، برخی دیگر خوب هستند.

با بررسی رفتار فکری پستانداران، می بینیم که این رفتار در نتیجه تأثیر متقابل پیچیده دو فرآیند به هم مرتبط شکل گرفته است: یادگیری از تجربیات دیگران и یاد گرفتن از طریق انجام دادن. اولی اغلب با تکامل ناشی از انتخاب طبیعی برابری می‌شود، اما در اینجا من از یک اصطلاح گسترده‌تر برای در نظر گرفتن اپی ژنتیک، میکروبیوم‌ها و مکانیسم‌های دیگری استفاده می‌کنم که امکان اشتراک تجربیات بین ارگانیسم‌های غیرمرتبط ژنتیکی را فراهم می‌کند. فرآیند دوم، یادگیری از تجربه، تمام اطلاعاتی است که یک حیوان در طول زندگی خود موفق به یادگیری آن می شود و این اطلاعات مستقیماً توسط تعامل این حیوان با دنیای خارج تعیین می شود. این دسته شامل همه چیز از یادگیری برای تشخیص اشیا تا تسلط بر ارتباطات ذاتی در فرآیند یادگیری است.

به طور کلی، این دو فرآیند که در طبیعت رخ می دهند را می توان با دو گزینه برای بهینه سازی شبکه های عصبی مقایسه کرد. استراتژی‌های تکاملی، که در آن اطلاعات مربوط به شیب‌ها برای به‌روزرسانی اطلاعات مربوط به ارگانیسم استفاده می‌شود، به یادگیری از تجربه دیگران نزدیک می‌شود. به طور مشابه، روش‌های گرادیان، که در آن به دست آوردن یک یا آن تجربه منجر به تغییری در رفتار عامل می‌شود، با یادگیری از تجربه خود فرد قابل مقایسه است. اگر به انواع رفتارها یا توانایی های هوشمندانه ای که هر یک از این دو رویکرد در حیوانات ایجاد می کنند فکر کنیم، مقایسه بارزتر می شود. در هر دو مورد، «روش‌های تکاملی» مطالعه رفتارهای واکنشی را ترویج می‌کنند که به فرد اجازه می‌دهد تا تناسب اندام خاصی (برای زنده ماندن کافی) ایجاد کند. یادگیری راه رفتن یا فرار از اسارت در بسیاری موارد معادل رفتارهای "غریزی" است که در بسیاری از حیوانات در سطح ژنتیکی "سخت" است. علاوه بر این، این مثال تأیید می کند که روش های تکاملی در مواردی که سیگنال پاداش بسیار نادر است (به عنوان مثال، واقعیت بزرگ کردن موفق یک نوزاد) قابل استفاده است. در چنین حالتی، نمی‌توان پاداش را با مجموعه‌ای از اقدامات خاص که ممکن است سال‌ها قبل از وقوع این واقعیت انجام شده باشد، مرتبط کرد. از سوی دیگر، اگر موردی را در نظر بگیریم که در آن ES شکست خورده است، یعنی طبقه‌بندی تصویر، نتایج به‌طور قابل‌توجهی با نتایج یادگیری حیوانات به‌دست‌آمده در آزمایش‌های روان‌شناختی رفتاری بیشماری که بیش از 100 سال انجام شده است، قابل مقایسه است.

یادگیری از حیوانات

روش های مورد استفاده در یادگیری تقویتی در بسیاری از موارد مستقیماً از ادبیات روانشناختی گرفته شده است شرطیسازی عاملو شرطی سازی عامل با استفاده از روانشناسی حیوانات مورد مطالعه قرار گرفت. به هر حال، ریچارد ساتون، یکی از دو بنیانگذار یادگیری تقویتی، دارای مدرک لیسانس روانشناسی است. در زمینه شرطی سازی عامل، حیوانات یاد می گیرند که پاداش یا تنبیه را با الگوهای رفتاری خاص مرتبط کنند. مربیان و محققان می توانند این ارتباط پاداش را به یک شکل دستکاری کنند و حیوانات را تحریک کنند تا هوش یا رفتارهای خاصی را نشان دهند. با این حال، شرطی‌سازی عامل، همانطور که در تحقیقات حیوانات استفاده می‌شود، چیزی نیست جز شکل واضح‌تری از همان شرطی‌سازی که حیوانات بر اساس آن در طول زندگی خود یاد می‌گیرند. ما به طور مداوم سیگنال های تقویت مثبت را از محیط دریافت می کنیم و رفتار خود را بر اساس آن تنظیم می کنیم. در واقع، بسیاری از دانشمندان علوم اعصاب و دانشمندان علوم شناختی بر این باورند که انسان‌ها و سایر حیوانات در واقع در سطح بالاتری عمل می‌کنند و پیوسته یاد می‌گیرند که نتیجه رفتار خود را در موقعیت‌های آینده بر اساس پاداش‌های بالقوه پیش‌بینی کنند.

نقش اصلی پیش بینی در یادگیری از تجربه، پویایی توصیف شده در بالا را به روش های قابل توجهی تغییر می دهد. سیگنالی که قبلاً بسیار کم در نظر گرفته می شد (پاداش اپیزودیک) بسیار متراکم است. از نظر تئوری، وضعیت چیزی شبیه به این است: در هر زمان، مغز پستانداران بر اساس جریان پیچیده ای از محرک ها و اعمال حسی، نتایج را محاسبه می کند، در حالی که حیوان به سادگی در این جریان غوطه ور است. در این حالت، رفتار نهایی حیوان یک سیگنال قوی می دهد که باید برای هدایت تنظیم پیش بینی ها و توسعه رفتار استفاده شود. مغز از همه این سیگنال ها برای بهینه سازی پیش بینی ها (و بر این اساس، کیفیت اقدامات انجام شده) در آینده استفاده می کند. مروری بر این رویکرد در کتاب عالی ارائه شده است.عدم قطعیت موج سواریاندی کلارک، دانشمند و فیلسوف شناختی. اگر چنین استدلالی را به آموزش عوامل مصنوعی تعمیم دهیم، آنگاه یک نقص اساسی در یادگیری تقویتی آشکار می شود: سیگنال مورد استفاده در این پارادایم در مقایسه با آنچه می تواند باشد (یا باید باشد) به طرز ناامیدکننده ای ضعیف است. در مواردی که افزایش اشباع سیگنال غیرممکن است (شاید به این دلیل که ذاتاً ضعیف است یا با واکنش پذیری سطح پایین همراه است)، احتمالاً بهتر است روش تمرینی را ترجیح دهید که به خوبی موازی شده باشد، مثلاً ES.

آموزش غنی تر شبکه های عصبی

با تکیه بر اصول فعالیت عصبی بالاتر ذاتی مغز پستانداران، که دائماً مشغول پیش‌بینی است، پیشرفت‌های اخیر در یادگیری تقویتی صورت گرفته است که اکنون اهمیت چنین پیش‌بینی‌هایی را در نظر می‌گیرد. من می توانم بلافاصله دو کار مشابه را به شما توصیه کنم:

در هر دوی این مقالات، نویسندگان خط مشی پیش فرض معمول شبکه های عصبی خود را با نتایج پیش بینی در مورد وضعیت محیط در آینده تکمیل می کنند. در مقاله اول، پیش‌بینی برای انواع متغیرهای اندازه‌گیری اعمال می‌شود و در مقاله دوم، پیش‌بینی در مورد تغییرات محیط و رفتار عامل به‌عنوان آن اعمال می‌شود. در هر دو مورد، سیگنال پراکنده مرتبط با تقویت مثبت بسیار غنی‌تر و آموزنده‌تر می‌شود و امکان یادگیری سریع‌تر و کسب رفتارهای پیچیده‌تر را فراهم می‌کند. چنین پیشرفت‌هایی فقط با روش‌هایی که از سیگنال گرادیان استفاده می‌کنند، در دسترس هستند، و نه با روش‌هایی که بر اساس اصل «جعبه سیاه» عمل می‌کنند، مانند ES.

علاوه بر این، یادگیری از تجربه و روش های گرادیان بسیار موثرتر است. حتی در مواردی که امکان مطالعه یک مشکل خاص با استفاده از روش ES سریعتر از یادگیری تقویتی وجود داشت، به دلیل این واقعیت بود که استراتژی ES چندین برابر بیشتر از RL داده ها را شامل می شد. با تأمل در این مورد در مورد اصول یادگیری در حیوانات، متذکر می شویم که نتیجه یادگیری از مثال شخص دیگری پس از چندین نسل خود را نشان می دهد، در حالی که گاهی اوقات یک اتفاق به تنهایی برای حیوان کافی است تا برای همیشه این درس را بیاموزد. در حالی که مانند آموزش بدون مثال در حالی که کاملاً با روش های گرادیان سنتی مطابقت ندارد، بسیار قابل درک تر از ES است. برای مثال رویکردهایی مانند کنترل اپیزودیک عصبی، جایی که مقادیر Q در طول آموزش ذخیره می شوند و پس از آن برنامه قبل از انجام اقدامات آنها را بررسی می کند. نتیجه یک روش گرادیان است که به شما امکان می دهد یاد بگیرید چگونه مسائل را خیلی سریعتر از قبل حل کنید. در مقاله ای در مورد کنترل اپیزودیک عصبی، نویسندگان به هیپوکامپ انسان اشاره می کنند که قادر است اطلاعات مربوط به یک رویداد را حتی پس از یک تجربه حفظ کند و بنابراین، بازی می کند. نقش حیاتی در فرآیند به خاطر سپردن چنین مکانیزم هایی نیاز به دسترسی به سازمان داخلی عامل دارند که در پارادایم ES نیز بنا به تعریف غیرممکن است.

بنابراین، چرا آنها را ترکیب نمی کنید؟

به احتمال زیاد بسیاری از این مقاله ممکن است این تصور را ایجاد کند که من از روش های RL حمایت می کنم. با این حال، من در واقع فکر می کنم که در درازمدت بهترین راه حل این است که هر دو روش را با هم ترکیب کنیم، به طوری که هر کدام در موقعیت هایی که مناسب ترین هستند استفاده شود. بدیهی است که در مورد بسیاری از سیاست‌های واکنشی یا در موقعیت‌هایی با سیگنال‌های بسیار پراکنده از تقویت مثبت، ES برنده می‌شود، به‌ویژه اگر قدرت محاسباتی در اختیار داشته باشید که بر اساس آن می‌توانید تمرینات موازی زیادی را اجرا کنید. از سوی دیگر، روش‌های گرادیان با استفاده از یادگیری تقویتی یا یادگیری نظارت شده زمانی مفید خواهند بود که به بازخورد گسترده دسترسی داشته باشیم و باید یاد بگیریم که چگونه یک مشکل را سریع و با داده‌های کمتر حل کنیم.

با عطف به طبیعت، در می یابیم که روش اول، در اصل، اساس روش دوم را می گذارد. به همین دلیل است که در طول تکامل، پستانداران مغزهایی را توسعه داده اند که به آنها اجازه می دهد تا به طور بسیار مؤثری از سیگنال های پیچیده ای که از محیط می آیند یاد بگیرند. بنابراین، این سوال باز می ماند. شاید استراتژی‌های تکاملی به ما کمک کنند تا معماری‌های یادگیری مؤثری را ابداع کنیم که برای روش‌های یادگیری گرادیان نیز مفید باشد. از این گذشته، راه حلی که طبیعت پیدا کرده است واقعاً بسیار موفق است.

منبع: www.habr.com

یادگیری تقویتی یا استراتژی های تکاملی؟ - هر دو