Привіт, Хабре!
Ми нечасто наважуємося розміщувати тут переклади текстів дворічної давності, без коду та явно академічної спрямованості, але сьогодні зробимо виняток. Сподіваємося, що дилема, винесена в заголовок статті, хвилює багатьох наших читачів, а фундаментальну роботу про еволюційні стратегії, з якою полемізує цю посаду, ви вже читали в оригіналі або зараз прочитаєте. Ласкаво просимо під кат!
У березні 2017 року компанія OpenAI наробила галасу у співтоваристві фахівців з глибокого навчання, опублікувавши статтю “
Еволюційні стратегії
Основна теза статті OpenAI полягала в тому, що замість використання навчання з підкріпленням у поєднанні з традиційним зворотним розповсюдженням вони успішно навчили нейронну мережу вирішенню складних завдань із застосуванням так званої «еволюційної стратегії» (ЕС). Такий ЕС-підхід полягає у підтримці розподілу вагових значень у масштабах мережі, причому задіюється безліч агентів, що працюють паралельно та використовують параметри, вибрані з цього розподілу. Кожен агент діє у власному середовищі і після завершення заданої кількості епізодів або етапів епізоду алгоритму повертається сукупна винагорода, що виражається як оцінка придатності (fitness score). З урахуванням цього значення розподіл параметрів можна зміщувати у бік успішніших агентів, обділяючи менш успішних. Мільйони разів повторивши таку операцію за участю сотень агентів, можна перемістити розподіл ваг у такий простір, який дозволить сформулювати для агентів якісну політику для вирішення поставленого перед ними завдання. Дійсно, результати, наведені у статті, вражають: показано, що, якщо паралельно запустити тисячу агентів, то антропоморфне пересування на двох ногах можна вивчити менш ніж за півгодини (тоді як найпросунутіші методи RL вимагають витратити на це не одну годину). Для більш детального ознайомлення рекомендую почитати чудовий
Різні стратегії навчання антропоморфного прямоходіння, вивчені методом ЕС від OpenAI.
Чорний ящик
Величезна користь цього методу полягає в тому, що він легко розпаралелюється. У той час як методи RL, наприклад, A3C, вимагають обмінюватися інформацією між робочими потоками та сервером параметрів, ЕС потребує лише оцінок придатності та узагальненої інформації про розподіл параметрів. Саме завдяки такій простоті цей метод далеко обходить за можливостями масштабування сучасні методи RL. Проте, все це дістається не задарма: доводиться оптимізувати мережу за принципом чорної скриньки. В даному випадку під «чорною скринькою» розуміється, що при навчанні внутрішній пристрій мережі повністю ігнорується, а в хід йде лише загальний результат (винагорода за епізод), і саме від нього залежить, чи поширюватимуться ваги конкретної мережі у спадок наступним поколінням. У ситуаціях, коли ми не отримуємо вираженого зворотного зв'язку від навколишнього середовища, - а при вирішенні багатьох традиційних завдань, пов'язаних з RL, потік винагород дуже розріджений - проблема перетворюється з «частково чорного ящика» на «повністю чорний ящик». У такому разі вдається серйозно підвищити продуктивність, тож, безумовно, такий компроміс виправданий. "Кому потрібні градієнти, якщо вони все одно безнадійно зашумлені?" — така спільна думка.
Однак, у ситуаціях, коли зворотний зв'язок активніший, справи в ЕС починають розкладатися. Команда OpenAI описує, як за допомогою ЕС була навчена проста класифікаційна мережа MNIST, і цього разу навчання пройшло у 1000 разів повільніше. Справа в тому, що градієнтний сигнал при класифікації зображень виключно інформативний щодо того, як навчити мережу якіснішої класифікації. Таким чином, проблема пов'язана не так з методикою RL, як з розрідженими винагородами в оточеннях, що дають зашумлені градієнти.
Рішення, знайдене природою
Якщо намагатися вчитися з прикладу природи, продумуючи способи розробки ІІ, то деяких випадках ІІ можна як
Розглянувши інтелектуальну поведінку ссавців, бачимо, що вона формується внаслідок складного взаємовпливу двох тісно взаємопов'язаних процесів: навчання на чужому досвіді и навчання на власному досвіді. Перше часто ототожнюється з еволюцією, зумовленою природним відбором, але тут я застосовую ширший термін, щоб врахувати епігенетику, мікробіоми та інші механізми, що забезпечують обмін досвідом між організмами, які не споріднені один з генетичної точки зору. Другий процес, навчання на власному досвіді - це вся інформація, яку тварина встигає засвоїти протягом життя, і дана інформація безпосередньо зумовлена взаємодією цієї тварини з навколишнім світом. До цієї категорії належить все від навчання розпізнаванню об'єктів до освоювання комунікації, властивої навчальному процесу.
Грубо кажучи, два ці процеси, що відбуваються в природі, можна порівняти з двома варіантами оптимізації нейронних мереж. Еволюційні стратегії, де інформація про градієнти використовують для оновлення інформації про організм, зближуються з навчанням на чужому досвіді. Аналогічно, градієнтні методи, де отримання того чи іншого досвіду призводить до тих чи інших змін у поведінці агента, можна порівняти з навчанням на власному досвіді. Якщо задуматися про різновиди інтелектуальної поведінки або про здібності, які розвиває у тварин кожен із двох цих підходів, таке порівняння виходить більш вираженим. В обох випадках «еволюційні методи» сприяють вивченню реактивних варіантів поведінки, що дозволяють розвинути певну пристосованість (достатню, щоб залишитися живою). Навчання ходьбі або втечі з полону в багатьох випадках еквівалентно більш «інстинктивним» варіантам поведінки, «жорстко прошитим» у багатьох тварин на генетичному рівні. Крім того, даний приклад підтверджує, що еволюційні методи застосовні у випадках, коли сигнал-винагорода надходить виключно рідко (такий, наприклад, факт успішного виховання дитинчати). У разі неможливо співвіднести винагороду з якимось конкретним набором дій, які, можливо, відбувалися багато років до цього факту. З іншого боку, якщо розглянути випадок, у якому ЕС відмовляє, а саме – класифікацію зображень, то результати будуть чудово зіставні з підсумками навчання тварин, досягнутими під час незліченних біхевіористських психологічних експериментів, проведених за 100 років.
Навчання у тварин
Методи, що застосовуються під час навчання з підкріпленням, у багатьох випадках взяті безпосередньо з психологічної літератури про
Центральна роль прогнозування при навчанні на власному досвіді істотно змінює вищеописану динаміку. Той сигнал, який раніше вважався дуже розрідженим (епізодична винагорода), виявляється дуже щільним. Теоретично ситуація приблизно така: у кожний момент часу мозок ссавця прораховує результати на підставі складного потоку сенсорних стимулів та дій, тоді як тварина просто занурена у цей потік. У разі підсумкове поведінка тваринного дає щільний сигнал, яким доводиться керуватися при коригуванні прогнозів і розвитку поведінки. Всі ці сигнали мозок використовує для того, щоб оптимізувати прогнози (і, відповідно, якість дій, що здійснюються) надалі. Огляд цього підходу дається у чудовій книзі “
Більш насичене навчання нейронних мереж
На основі принципів вищої нервової діяльності, властивих мозку ссавців, постійно зайнятому прогнозуванням, останнім часом вдалося досягти певних успіхів у навчанні з підкріпленням, яке тепер враховує важливість таких прогнозів. З ходу можу порекомендувати вам дві подібні роботи:
В обох цих статтях автори доповнюють типову політику своїх нейронних мереж, що діє за умовчанням, результатами прогнозів щодо стану навколишнього середовища в майбутньому. У першій статті прогнозування застосовується до безлічі вимірювальних змінних, а у другій – змін у навколишньому середовищі та поведінці агента як такого. В обох випадках розріджений сигнал, пов'язаний з позитивним підкріпленням, стає набагато більш насиченим та інформативним, забезпечуючи як прискорене навчання, так і засвоєння складніших поведінкових моделей. Подібні вдосконалення доступні лише під час роботи з методами, які використовують градієнтний сигнал, але не з методами, що діють за принципом «чорної скриньки», як, наприклад, ЕС.
Крім того, навчання на власному досвіді та градієнтні методи – набагато ефективніше. Навіть у тих випадках, коли вивчити ту чи іншу проблему методом ЕС вдавалося швидше, ніж за допомогою навчання з підкріпленням, виграш досягався за рахунок того, що в ЕС-стратегії задіяно у багато разів більше даних, ніж при RL. Розмірковуючи в даному випадку про принципи навчання у тварин, відзначимо, що результат навчання на чужому прикладі проявляється через безліч поколінь, тоді як часом достатньо єдиної події, пережитої на власному досвіді, щоб тварина назавжди засвоїла урок. У той час як подібне
Тож чому б їх не поєднати?
Ймовірно, більшість цієї статті могла залишити таке враження, ніби в ній я відстоюю методи RL. Однак, насправді я вважаю, що в довгостроковій перспективі найкращим рішенням буде комбінація обох методів, щоб кожен використовувався в тих ситуаціях, в яких він найкраще підходить. Очевидно, що у випадку багатьох реактивних політик або в ситуаціях з дуже розрідженими сигналами позитивного підкріплення ЕС виграє, тим більше якщо у вас є обчислювальні потужності, на яких можна запускати масово-паралельне навчання. З іншого боку, градієнтні методи, що використовують навчання з підкріпленням або навчання з учителем будуть корисні, коли нам доступний великий зворотний зв'язок, а вирішення завдання потрібно навчитися швидко і на меншій кількості даних.
Звернувшись до природи, виявимо, перший метод, по суті, закладає основу для другого. Саме тому в ході еволюції ссавці розвинули мозок, що дозволяє виключно ефективно вчитися на матеріалі складних сигналів, що надходять із навколишнього середовища. Отже, питання залишається відкритим. Можливо, еволюційні стратегії допоможуть нам винайти ефективні архітектури навчання, які будуть корисними й для градієнтних методів навчання. Адже рішення, знайдене природою, справді дуже вдале.
Джерело: habr.com