🥇Навчання з підкріпленням чи еволюційні стратегії? - І те, й інше

Привіт, Хабре!

Ми нечасто наважуємося розміщувати тут переклади текстів дворічної давності, без коду та явно академічної спрямованості, але сьогодні зробимо виняток. Сподіваємося, що дилема, винесена в заголовок статті, хвилює багатьох наших читачів, а фундаментальну роботу про еволюційні стратегії, з якою полемізує цю посаду, ви вже читали в оригіналі або зараз прочитаєте. Ласкаво просимо під кат!

У березні 2017 року компанія OpenAI наробила галасу у співтоваристві фахівців з глибокого навчання, опублікувавши статтю “Evolution Strategies as a Scalable Alternative to Reinforcement Learning.” У цій роботі були описані вражаючі результати на користь того, що на навчанні з підкріпленням (RL) світло клином не зійшлося, і при навчанні складних нейронних мереж доцільно спробувати інші методи. Тоді розгорілася дискусія щодо важливості навчання з підкріпленням і про те, наскільки воно заслуговує на статус «обов'язкової» технології при навчанні вирішення завдань. Тут я хочу висловитися про те, що не варто розглядати ці дві технології як конкуруючі, одна з яких однозначно краща за іншу; навпаки, зрештою вони доповнюють одне одного. Дійсно, якщо трохи замислитися над тим, що потрібно для створення спільного ІІ і таких систем, які протягом усього існування були б здатні до навчання, судження та планування, то практично напевно ми дійдемо висновку, що для цього буде потрібно те чи інше комбіноване рішення. До речі, саме до комбінованого рішення прийшла природа, що наділила в ході еволюції складним інтелектом ссавців та інших вищих тварин.

Еволюційні стратегії

Основна теза статті OpenAI полягала в тому, що замість використання навчання з підкріпленням у поєднанні з традиційним зворотним розповсюдженням вони успішно навчили нейронну мережу вирішенню складних завдань із застосуванням так званої «еволюційної стратегії» (ЕС). Такий ЕС-підхід полягає у підтримці розподілу вагових значень у масштабах мережі, причому задіюється безліч агентів, що працюють паралельно та використовують параметри, вибрані з цього розподілу. Кожен агент діє у власному середовищі і після завершення заданої кількості епізодів або етапів епізоду алгоритму повертається сукупна винагорода, що виражається як оцінка придатності (fitness score). З урахуванням цього значення розподіл параметрів можна зміщувати у бік успішніших агентів, обділяючи менш успішних. Мільйони разів повторивши таку операцію за участю сотень агентів, можна перемістити розподіл ваг у такий простір, який дозволить сформулювати для агентів якісну політику для вирішення поставленого перед ними завдання. Дійсно, результати, наведені у статті, вражають: показано, що, якщо паралельно запустити тисячу агентів, то антропоморфне пересування на двох ногах можна вивчити менш ніж за півгодини (тоді як найпросунутіші методи RL вимагають витратити на це не одну годину). Для більш детального ознайомлення рекомендую почитати чудовий пост від авторів експерименту, а також саму наукову статтю.

Різні стратегії навчання антропоморфного прямоходіння, вивчені методом ЕС від OpenAI.

Чорний ящик

Величезна користь цього методу полягає в тому, що він легко розпаралелюється. У той час як методи RL, наприклад, A3C, вимагають обмінюватися інформацією між робочими потоками та сервером параметрів, ЕС потребує лише оцінок придатності та узагальненої інформації про розподіл параметрів. Саме завдяки такій простоті цей метод далеко обходить за можливостями масштабування сучасні методи RL. Проте, все це дістається не задарма: доводиться оптимізувати мережу за принципом чорної скриньки. В даному випадку під «чорною скринькою» розуміється, що при навчанні внутрішній пристрій мережі повністю ігнорується, а в хід йде лише загальний результат (винагорода за епізод), і саме від нього залежить, чи поширюватимуться ваги конкретної мережі у спадок наступним поколінням. У ситуаціях, коли ми не отримуємо вираженого зворотного зв'язку від навколишнього середовища, - а при вирішенні багатьох традиційних завдань, пов'язаних з RL, потік винагород дуже розріджений - проблема перетворюється з «частково чорного ящика» на «повністю чорний ящик». У такому разі вдається серйозно підвищити продуктивність, тож, безумовно, такий компроміс виправданий. "Кому потрібні градієнти, якщо вони все одно безнадійно зашумлені?" — така спільна думка.

Однак, у ситуаціях, коли зворотний зв'язок активніший, справи в ЕС починають розкладатися. Команда OpenAI описує, як за допомогою ЕС була навчена проста класифікаційна мережа MNIST, і цього разу навчання пройшло у 1000 разів повільніше. Справа в тому, що градієнтний сигнал при класифікації зображень виключно інформативний щодо того, як навчити мережу якіснішої класифікації. Таким чином, проблема пов'язана не так з методикою RL, як з розрідженими винагородами в оточеннях, що дають зашумлені градієнти.

Рішення, знайдене природою

Якщо намагатися вчитися з прикладу природи, продумуючи способи розробки ІІ, то деяких випадках ІІ можна як проблемно-орієнтований підхід. Зрештою, природа діє в рамках таких обмежень, які просто не мають вчені-інформатики. Існує думка, що суто теоретичний підхід до вирішення того чи іншого завдання може давати ефективніші рішення, ніж емпіричні альтернативи. Тим не менш, я все-таки вважаю, що було б доцільно перевірити, як динамічна система, що діє в умовах певних обмежень (Земля) сформувала агентів (тварини, зокрема, ссавців), здатних до гнучкої та складної поведінки. У той час як деякі з цих обмежень не застосовні в змодельованих світах науки про дані, інші дуже гарні.

Розглянувши інтелектуальну поведінку ссавців, бачимо, що вона формується внаслідок складного взаємовпливу двох тісно взаємопов'язаних процесів: навчання на чужому досвіді и навчання на власному досвіді. Перше часто ототожнюється з еволюцією, зумовленою природним відбором, але тут я застосовую ширший термін, щоб врахувати епігенетику, мікробіоми та інші механізми, що забезпечують обмін досвідом між організмами, які не споріднені один з генетичної точки зору. Другий процес, навчання на власному досвіді - це вся інформація, яку тварина встигає засвоїти протягом життя, і дана інформація безпосередньо зумовлена взаємодією цієї тварини з навколишнім світом. До цієї категорії належить все від навчання розпізнаванню об'єктів до освоювання комунікації, властивої навчальному процесу.

Грубо кажучи, два ці процеси, що відбуваються в природі, можна порівняти з двома варіантами оптимізації нейронних мереж. Еволюційні стратегії, де інформація про градієнти використовують для оновлення інформації про організм, зближуються з навчанням на чужому досвіді. Аналогічно, градієнтні методи, де отримання того чи іншого досвіду призводить до тих чи інших змін у поведінці агента, можна порівняти з навчанням на власному досвіді. Якщо задуматися про різновиди інтелектуальної поведінки або про здібності, які розвиває у тварин кожен із двох цих підходів, таке порівняння виходить більш вираженим. В обох випадках «еволюційні методи» сприяють вивченню реактивних варіантів поведінки, що дозволяють розвинути певну пристосованість (достатню, щоб залишитися живою). Навчання ходьбі або втечі з полону в багатьох випадках еквівалентно більш «інстинктивним» варіантам поведінки, «жорстко прошитим» у багатьох тварин на генетичному рівні. Крім того, даний приклад підтверджує, що еволюційні методи застосовні у випадках, коли сигнал-винагорода надходить виключно рідко (такий, наприклад, факт успішного виховання дитинчати). У разі неможливо співвіднести винагороду з якимось конкретним набором дій, які, можливо, відбувалися багато років до цього факту. З іншого боку, якщо розглянути випадок, у якому ЕС відмовляє, а саме – класифікацію зображень, то результати будуть чудово зіставні з підсумками навчання тварин, досягнутими під час незліченних біхевіористських психологічних експериментів, проведених за 100 років.

Навчання у тварин

Методи, що застосовуються під час навчання з підкріпленням, у багатьох випадках взяті безпосередньо з психологічної літератури про оперантному обумовленніа оперантне обумовлення досліджувалося на матеріалі психології тварин. До речі, Річард Саттон, один із двох засновників навчання з підкріпленням, має ступінь бакалавра з психології. У контексті оперантного обумовлення тварини навчаються асоціювати винагороду чи покарання з конкретними поведінковими патернами. Дресирувальники та дослідники можуть тим чи іншим чином маніпулювати такою асоціацією з винагородою, провокуючи тварин демонструвати кмітливість чи певні варіанти поведінки. Проте, оперантне обумовлення, застосовуване щодо тварин – ні що інше, як найбільш виражена форма тієї самої обумовлення, з урахуванням якого тварини навчаються протягом усього життя. Ми постійно отримуємо від навколишнього середовища сигнали позитивного підкріплення та відповідним чином коригуємо нашу поведінку. Справді, багато нейрофізіологів і когнітивістів вважають, що насправді люди та інші тварини діють навіть на рівень вище і постійно вчаться прогнозувати результати своєї поведінки в майбутніх ситуаціях, розраховуючи на потенційну винагороду.

Центральна роль прогнозування при навчанні на власному досвіді істотно змінює вищеописану динаміку. Той сигнал, який раніше вважався дуже розрідженим (епізодична винагорода), виявляється дуже щільним. Теоретично ситуація приблизно така: у кожний момент часу мозок ссавця прораховує результати на підставі складного потоку сенсорних стимулів та дій, тоді як тварина просто занурена у цей потік. У разі підсумкове поведінка тваринного дає щільний сигнал, яким доводиться керуватися при коригуванні прогнозів і розвитку поведінки. Всі ці сигнали мозок використовує для того, щоб оптимізувати прогнози (і, відповідно, якість дій, що здійснюються) надалі. Огляд цього підходу дається у чудовій книзі “Surfing Uncertainty” когнітивіста та філософа Енді Кларка. Якщо екстраполювати такі міркування на навчання штучних агентів, то у навчанні з підкріпленням виявляється фундаментальний недолік: використовуваний у цій парадигмі сигнал виявляється безнадійно слабкий у порівнянні з тим, яким він міг би бути (або має бути). У випадках, коли підвищити насиченість сигналу неможливо (можливо, оскільки він за визначенням слабкий або пов'язаний з низькорівневою реактивністю) – ймовірно, краще віддати перевагу такому методу навчання, який добре розпаралелюється, наприклад, ЕС.

Більш насичене навчання нейронних мереж

На основі принципів вищої нервової діяльності, властивих мозку ссавців, постійно зайнятому прогнозуванням, останнім часом вдалося досягти певних успіхів у навчанні з підкріпленням, яке тепер враховує важливість таких прогнозів. З ходу можу порекомендувати вам дві подібні роботи:

В обох цих статтях автори доповнюють типову політику своїх нейронних мереж, що діє за умовчанням, результатами прогнозів щодо стану навколишнього середовища в майбутньому. У першій статті прогнозування застосовується до безлічі вимірювальних змінних, а у другій – змін у навколишньому середовищі та поведінці агента як такого. В обох випадках розріджений сигнал, пов'язаний з позитивним підкріпленням, стає набагато більш насиченим та інформативним, забезпечуючи як прискорене навчання, так і засвоєння складніших поведінкових моделей. Подібні вдосконалення доступні лише під час роботи з методами, які використовують градієнтний сигнал, але не з методами, що діють за принципом «чорної скриньки», як, наприклад, ЕС.

Крім того, навчання на власному досвіді та градієнтні методи – набагато ефективніше. Навіть у тих випадках, коли вивчити ту чи іншу проблему методом ЕС вдавалося швидше, ніж за допомогою навчання з підкріпленням, виграш досягався за рахунок того, що в ЕС-стратегії задіяно у багато разів більше даних, ніж при RL. Розмірковуючи в даному випадку про принципи навчання у тварин, відзначимо, що результат навчання на чужому прикладі проявляється через безліч поколінь, тоді як часом достатньо єдиної події, пережитої на власному досвіді, щоб тварина назавжди засвоїла урок. У той час як подібне навчання без прикладів поки що не цілком вписується в традиційні градієнтні методи, воно набагато дохідливіше, ніж ЕС. Є, наприклад, такі підходи, як нейронний епізодичний контрольде Q-значення зберігаються в процесі навчання, після чого програма звіряється з ними перед тим, як здійснювати дії. Виходить градієнтний метод, що дозволяє навчитися вирішення завдань набагато швидше, ніж раніше. У статті про нейронний епізодичний контроль автори згадують людський гіпокамп, здатний зберігати інформацію про подію навіть після одного разу пережитого досвіду і, отже, грає критично важливу роль у процесі згадки. Такі механізми вимагають доступу до внутрішньої організації агента, що також за визначенням неможливо у парадигмі ЕС.

Тож чому б їх не поєднати?

Ймовірно, більшість цієї статті могла залишити таке враження, ніби в ній я відстоюю методи RL. Однак, насправді я вважаю, що в довгостроковій перспективі найкращим рішенням буде комбінація обох методів, щоб кожен використовувався в тих ситуаціях, в яких він найкраще підходить. Очевидно, що у випадку багатьох реактивних політик або в ситуаціях з дуже розрідженими сигналами позитивного підкріплення ЕС виграє, тим більше якщо у вас є обчислювальні потужності, на яких можна запускати масово-паралельне навчання. З іншого боку, градієнтні методи, що використовують навчання з підкріпленням або навчання з учителем будуть корисні, коли нам доступний великий зворотний зв'язок, а вирішення завдання потрібно навчитися швидко і на меншій кількості даних.

Звернувшись до природи, виявимо, перший метод, по суті, закладає основу для другого. Саме тому в ході еволюції ссавці розвинули мозок, що дозволяє виключно ефективно вчитися на матеріалі складних сигналів, що надходять із навколишнього середовища. Отже, питання залишається відкритим. Можливо, еволюційні стратегії допоможуть нам винайти ефективні архітектури навчання, які будуть корисними й для градієнтних методів навчання. Адже рішення, знайдене природою, справді дуже вдале.

Джерело: habr.com

Навчання з підкріпленням чи еволюційні стратегії? - І те і інше