Привет, Хабр!
Мы нечасто решаемся размещать здесь переводы текстов двухлетней давности, без кода и явно академической направленности — но сегодня сделаем исключение. Надеемся, что дилемма, вынесенная в заголовок статьи, волнует многих наших читателей, а фундаментальную работу об эволюционных стратегиях, с которой полемизирует этот пост, вы уже читали в оригинале или прочитаете сейчас. Добро пожаловать под кат!
В марте 2017 года компания OpenAI наделала шума в сообществе специалистов по глубокому обучению, опубликовав статью “
Эволюционные стратегии
Основной тезис статьи OpenAI заключался в том, что вместо использования обучения с подкреплением в сочетании с традиционным обратным распространением они успешно обучили нейронную сеть решению сложных задач с применением так называемой «эволюционной стратегии» (ЭС). Такой ЭС-подход заключается в поддержании распределения весовых значений в масштабах сети, причем задействуется множество агентов, работающих параллельно и использующих параметры, выбранные из этого распределения. Каждый агент действует в собственной среде и по завершении заданного количества эпизодов или этапов эпизода алгоритму возвращается совокупное вознаграждение, выражаемое как оценка годности (fitness score). С учетом этого значения распределение параметров можно смещать в сторону более успешных агентов, обделяя менее успешных. Миллионы раз повторив такую операцию с участием сотен агентов, можно переместить распределение весов в такое пространство, которое позволит сформулировать для агентов качественную политику для решения поставленной перед ними задачи. Действительно, результаты, приведенные в статье, впечатляют: показано, что, если параллельно запустить тысячу агентов, то антропоморфное передвижение на двух ногах можно изучить менее чем за полчаса (тогда как даже самые продвинутые методы RL требуют потратить на это не один час). Для более подробного ознакомления рекомендую почитать отличный
Различные стратегии обучения антропоморфному прямохождению, изученные методом ЭС от OpenAI.
Черный ящик
Огромная польза этого метода заключается в том, что он легко распараллеливается. В то время как методы RL, например, A3C, требуют обмениваться информацией между рабочими потоками и сервером параметров, ЭС нуждается только в оценках годности и обобщенной информации о распределении параметров. Именно благодаря такой простоте данный метод далеко обходит по возможностям масштабирования современные методы RL. Однако, все это достается не даром: приходится оптимизировать сеть по принципу черного ящика. В данном случае под «черным ящиком» понимается, что при обучении внутреннее устройство сети полностью игнорируется, а в ход идет только общий результат (вознаграждение за эпизод), и именно от него зависит, будут ли распространяться веса конкретной сети в наследство последующим поколениям. В ситуациях, когда мы не получаем выраженной обратной связи от окружающей среды, — а при решении многих традиционных задач, связанных с RL, поток вознаграждений весьма разреженный – проблема превращается из «отчасти черного ящика» в «полностью черный ящик». В таком случае удается серьезно повысить производительность, так что, безусловно, такой компромисс оправдан. «Кому нужны градиенты, если они все равно безнадежно зашумлены?» — таково общее мнение.
Однако, в ситуациях, когда обратная связь более активная, дела у ЭС начинают разлаживаться. Команда OpenAI описывает, как при помощи ЭС была обучена простая классификационная сеть MNIST, и на этот раз обучение прошло в 1000 раз медленнее. Дело в том, что градиентный сигнал при классификации изображений исключительно информативен относительно того, как научить сеть более качественной классификации. Таким образом, проблема связана не столько с методикой RL, сколько с разреженными вознаграждениями в окружениях, дающих зашумленные градиенты.
Решение, найденное природой
Если пытаться учиться на примере природы, продумывая способы разработки ИИ, то в некоторых случаях ИИ можно представить как
Рассмотрев интеллектуальное поведение млекопитающих, мы видим, что оно формируется в результате сложного взаимовлияния двух тесно взаимосвязанных процессов: обучения на чужом опыте и обучения на собственном опыте. Первое часто отождествляется с эволюцией, обусловленной естественным отбором, но здесь я применяю более широкий термин, чтобы учесть эпигенетику, микробиомы и прочие механизмы, обеспечивающие обмен опытом между организмами, не родственными друг другу с генетической точки зрения. Второй процесс, обучение на собственном опыте – это вся информация, которую животное успевает усвоить на протяжении жизни, и данная информация непосредственно обусловлена взаимодействием этого животного с окружающим миром. К данной категории относится все от обучения распознаванию объектов до осваивания коммуникации, присущей учебному процессу.
Грубо говоря, два этих процесса, происходящих в природе, можно сравнить с двумя вариантами оптимизации нейронных сетей. Эволюционные стратегии, где информация о градиентах используется для обновления информации об организме, сближаются с обучением на чужом опыте. Аналогично, градиентные методы, где получение того или иного опыта приводит к тем или иным изменениям в поведении агента, сравнимы с обучением на собственном опыте. Если задуматься о разновидностях интеллектуального поведения или о способностях, которые развивает у животных каждый из двух этих подходов, такое сравнение получается более выраженным. В обоих случаях «эволюционные методы» способствуют изучению реактивных вариантов поведения, позволяющих развить определенную приспособленность (достаточную, чтобы остаться в живых). Обучение ходьбе или бегству из плена во многих случаях эквивалентно более «инстинктивным» вариантам поведения, «жестко прошитым» у многих животных на генетическом уровне. Кроме того, данный пример подтверждает, что эволюционные методы применимы в случаях, когда сигнал-вознаграждение поступает исключительно редко (таков, например, факт успешного воспитания детеныша). В подобном случае невозможно соотнести вознаграждение с каким-то конкретным набором действий, которые, возможно, совершались за много лет до наступления этого факта. С другой стороны, если рассмотреть случай, в котором ЭС отказывает, а именно – классификацию изображений, то результаты будут замечательно сопоставимы с итогами обучения животных, достигнутыми в ходе бесчисленных бихевиористских психологических экспериментах, проведенных за 100 с лишним лет.
Обучение у животных
Методы, применяемые при обучении с подкреплением, во многих случаях взяты непосредственно из психологической литературы об
Центральная роль прогнозирования при обучении на собственном опыте самым существенным образом меняет вышеописанную динамику. Тот сигнал, который ранее считался весьма разреженным (эпизодическое вознаграждение) оказывается очень плотным. Теоретически ситуация примерно такова: в каждый момент времени мозг млекопитающего просчитывает результаты на основании сложного потока сенсорных стимулов и действий, тогда как животное просто погружено в этот поток. В таком случае итоговое поведение животного дает плотный сигнал, которым приходится руководствоваться при корректировании прогнозов и развитии поведения. Все эти сигналы мозг использует для того, чтобы оптимизировать прогнозы (и, соответственно, качество совершаемых действий) в дальнейшем. Обзор этого подхода дается в отличной книге “
Более насыщенное обучение нейронных сетей
На основе принципов высшей нервной деятельности, присущих мозгу млекопитающих, постоянно занятому прогнозированием, в последнее время удалось добиться определенных успехов в обучении с подкреплением, которое теперь учитывает важность таких прогнозов. С ходу могу порекомендовать вам две подобные работы:
В обеих этих статьях авторы дополняют типичную политику своих нейронных сетей, действующую по умолчанию, результатами прогнозов, касающимися состояния окружающей среды в будущем. В первой статье прогнозирование применяется к множеству измерительных переменных, а во второй – изменений в окружающей среде и поведении агента как такового. В обоих случаях разреженный сигнал, связанный с положительным подкреплением, становится гораздо более насыщенным и информативным, обеспечивая как ускоренное обучение, так и усвоение более сложных поведенческих моделей. Подобные усовершенствования доступны только при работе с методами, использующими градиентный сигнал, но не с методами, действующими по принципу «черного ящика», как, например, ЭС.
Кроме того, обучение на собственном опыте и градиентные методы – гораздо эффективнее. Даже в тех случаях, когда изучить ту или иную проблему методом ЭС удавалось быстрее, нежели с помощью обучения с подкреплением, выигрыш достигался за счет того, что в ЭС-стратегии задействовалось во много раз больше данных, чем при RL. Размышляя в данном случае о принципах обучения у животных, отметим, что результат обучения на чужом примере проявляется спустя множество поколений, тогда как порой достаточно единственного события, пережитого на собственном опыте, чтобы животное навсегда усвоило урок. В то время как подобное
Итак, почему бы их не совместить?
Вероятно, большая часть этой статьи могла оставить такое впечатление, как будто в ней я отстаиваю методы RL. Однако, на самом деле я считаю, что в долгосрочной перспективе наилучшим решением будет комбинация обоих методов, чтобы каждый использовался в тех ситуациях, в которых он лучше всего подходит. Очевидно, что в случае многих реактивных политик или в ситуациях с очень разреженными сигналами положительного подкрепления ЭС выигрывает, тем более, если у вас в распоряжении есть вычислительные мощности, на которых можно запускать массово-параллельное обучение. С другой стороны, градиентные методы, использующие обучение с подкреплением или обучение с учителем будут полезны, когда нам доступна обширная обратная связь, а решению задачи требуется научиться быстро и на меньшем количестве данных.
Обратившись к природе, обнаружим, что первый метод, в сущности, закладывает основу для второго. Именно поэтому в ходе эволюции млекопитающие развили мозг, позволяющий исключительно эффективно учиться на материале сложных сигналов, поступающих из окружающей среды. Так что, вопрос остается открытым. Возможно, эволюционные стратегии помогут нам изобрести эффективные архитектуры обучения, которые будут полезны и для градиентных методов обучения. Ведь решение, найденное природой, действительно весьма удачное.
Источник: habr.com