强化学习还是进化策略? - 两个都

嘿哈布尔!

我们通常不会决定在这里发布两年前的、没有代码且明显具有学术性质的文本翻译 - 但今天我们将破例。 我们希望文章标题中提出的困境能让我们的许多读者感到担忧,并且您已经阅读了本文在原文中争论的有关进化策略的基础著作,或者现在将阅读它。 欢迎来到猫!

强化学习还是进化策略? - 两个都

2017年XNUMX月,OpenAI凭借论文《进化策略作为强化学习的可扩展替代方案” 这项工作描述了令人印象深刻的结果,有利于强化学习(RL)尚未成为楔子,并且在训练复杂的神经网络时,建议尝试其他方法。 随后爆发了一场关于强化学习的重要性以及它如何值得作为解决教学问题的“必备”技术的争论。 这里我想说的是,这两种技术不应该被认为是竞争,其中一种明显优于另一种; 相反,它们最终是相辅相成的。 事实上,如果你稍微思考一下如何创造 通用人工智能 以及这样的系统,它们在整个存在过程中都能够学习、判断和规划,那么我们几乎肯定会得出这样的结论:需要这种或那种组合解决方案。 顺便说一句,正是大自然的这种组合解决方案,在进化过程中赋予了哺乳动物和其他高等动物复杂的智能。

进化策略

OpenAI 论文的主要论点是,他们没有将强化学习与传统的反向传播相结合,而是使用他们所谓的“进化策略”(ES)成功地训练了一个神经网络来解决复杂的问题。 这种 ES 方法包括维护网络范围内的权重分布,涉及多个代理并行工作并使用从此分布中选择的参数。 每个代理在自己的环境中运行,并且在完成指定数量的情节或情节的阶段后,算法返回累积奖励,以适应度分数表示。 考虑到这个值,参数的分布可以向更成功的代理转移,而剥夺不太成功的代理。 通过在数百个智能体的参与下重复这样的操作数百万次,可以将权重分布移动到一个空间,使智能体能够制定高质量的策略来解决分配给他们的任务。 事实上,文章中呈现的结果令人印象深刻:它表明,如果并行运行 XNUMX 个智能体,那么可以在不到半小时的时间内学会两条腿的拟人化运动(而即使是最先进的 RL 方法也需要花费更多时间)超过一小时)。 有关更详细的信息,我建议阅读优秀的 邮寄 来自实验的作者,以及 科学文章.

强化学习还是进化策略? - 两个都

使用 OpenAI 的 ES 方法研究了拟人直立行走教学的不同策略。

黑盒子

这种方法的巨大好处是可以轻松并行化。 虽然 RL 方法(例如 A3C)需要在工作线程和参数服务器之间交换信息,但 ES 仅需要适应度估计和广义参数分布信息。 正是由于这种简单性,该方法在扩展能力方面远远领先于现代 RL 方法。 然而,这一切并没有白费:你必须根据黑盒原理来优化网络。 在这种情况下,“黑匣子”意味着在训练过程中完全忽略网络的内部结构,只使用总体结果(每集的奖励),并且取决于它是否会影响特定网络的权重。被后代继承。 在我们没有从环境中收到太多反馈的情况下——并且在许多传统的强化学习问题中,奖励流非常稀疏——问题就会从“部分黑匣子”变成“完全黑匣子”。 在这种情况下,您可以显着提高生产力,因此,这样的妥协当然是合理的。 “如果梯度实在是太吵了,谁还需要梯度呢?” - 这是普遍意见。

然而,在反馈更加活跃的情况下,ES 的事情就会开始出错。 OpenAI 团队描述了如何使用 ES 训练一个简单的 MNIST 分类网络,这次训练速度慢了 1000 倍。 事实上,图像分类中的梯度信号对于如何教会网络更好地进行分类提供了非常丰富的信息。 因此,问题不在于强化学习技术,而在于产生噪声梯度的环境中奖励稀疏。

自然的解决方案

如果我们尝试学习自然的例子,思考如何开发人工智能,那么在某些情况下人工智能可以被认为是 以问题为导向的方法。 毕竟,自然的运行受到计算机科学家根本没有的限制。 有一种观点认为,解决特定问题的纯理论方法可以提供比经验替代方案更有效的解决方案。 然而,我仍然认为测试在某些约束(地球)下运行的动态系统如何生成能够灵活且复杂行为的代理(动物,特别是哺乳动物)是值得的。 虽然其中一些限制不适用于模拟数据科学世界,但其他限制则很好。

在研究了哺乳动物的智力行为后,我们发现它是两个密切相关的过程复杂相互影响的结果: 学习他人的经验 и 边干边学。 前者通常等同于自然选择驱动的进化,但在这里我使用更广泛的术语来考虑表观遗传学、微生物组和其他能够在遗传无关的生物体之间分享经验的机制。 第二个过程是从经验中学习,是动物一生中设法学习的所有信息,这些信息直接取决于该动物与外界的相互作用。 这一类别包括从学习识别物体到掌握学习过程中固有的沟通的一切。

粗略地说,自然界中发生的这两个过程可以与优化神经网络的两种选择进行比较。 进化策略使用梯度信息来更新有机体的信息,接近于从他人的经验中学习。 类似地,在梯度方法中,获得一种或另一种经验会导致智能体行为的一种或另一种变化,类似于从自己的经验中学习。 如果我们考虑一下这两种方法在动物身上发展出的智能行为或能力的类型,这种比较就会变得更加明显。 在这两种情况下,“进化方法”都促进了对反应行为的研究,这些行为使人能够发展出一定的适应性(足以维持生命)。 在许多情况下,学习行走或逃离圈养相当于许多动物在基因水平上“固有”的更多“本能”行为。 此外,这个例子证实了进化方法适用于奖励信号极其罕见的情况(例如,成功抚养婴儿的事实)。 在这种情况下,不可能将奖励与在该事实发生之前许多年可能已执行的任何特定行动集关联起来。 另一方面,如果我们考虑 ES 失败的情况,即图像分类,其结果与 100 多年来进行的无数行为心理学实验所取得的动物学习结果非常相似。

向动物学习

强化学习中使用的方法在许多情况下直接取自心理学文献 操作性条件反射,并利用动物心理学研究了操作性条件反射。 顺便说一句,强化学习的两位创始人之一理查德·萨顿拥有心理学学士学位。 在操作性条件反射的背景下,动物学会将奖励或惩罚与特定的行为模式联系起来。 训练员和研究人员可以以某种方式操纵这种奖励关联,激发动物表现出智力或某些行为。 然而,动物研究中使用的操作性条件反射只不过是动物一生学习的相同条件作用的更明显形式。 我们不断地从环境中接收积极强化的信号,并相应地调整我们的行为。 事实上,许多神经科学家和认知科学家认为,人类和其他动物实际上在更高的水平上运作,并不断学习根据潜在的奖励来预测他们在未来情况下的行为结果。

预测在从经验中学习中的核心作用极大地改变了上述动态。 以前被认为非常稀疏的信号(情景奖励)结果非常密集。 从理论上讲,情况是这样的:在任何给定时间,哺乳动物的大脑都根据复杂的感官刺激和动作流来计算结果,而动物只是沉浸在这股流中。 在这种情况下,动物的最终行为给出了强烈的信号,必须用来指导预测的调整和行为的发展。 大脑使用所有这些信号来优化未来的预测(以及相应的行动质量)。 优秀的书中对这种方法进行了概述“冲浪的不确定性” 认知科学家和哲学家安迪·克拉克。 如果我们将这种推理推断到人工智能体的训练中,那么强化学习的一个根本缺陷就会暴露出来:这种范式中使用的信号与它可能(或应该)的信号相比是无可救药的弱。 在无法增加信号饱和度的情况下(可能是因为它本身很弱或与低水平反应性相关),最好选择并行化良好的训练方法,例如 ES。

更丰富的神经网络训练

基于哺乳动物大脑固有的高级神经活动原理(不断忙于做出预测),强化学习取得了最新进展,现在考虑到了此类预测的重要性。 我可以立即向您推荐两部类似的作品:

在这两篇论文中,作者都​​用有关未来环境状态的预测结果补充了神经网络的典型默认策略。 在第一篇文章中,预测应用于各种测量变量,而在第二篇文章中,预测应用于环境和代理行为的变化。 在这两种情况下,与正强化相关的稀疏信号变得更加丰富且信息量更大,从而可以更快地学习并获得更复杂的行为。 这种改进仅适用于使用梯度信号的方法,而不适用于基于“黑匣子”原理操作的方法,例如 ES。

此外,从经验中学习和梯度方法要有效得多。 即使在使用 ES 方法比使用强化学习更快地研究特定问题的情况下,也能取得增益,因为 ES 策略涉及的数据比 RL 多很多倍。 反思动物的学习原理,我们注意到,从别人的例子中学习的结果会在许多代之后显现出来,而有时,动物本身经历的单一事件就足以让动物永远吸取教训。 虽然喜欢 没有例子的训练 虽然它不太适合传统的梯度方法,但它比 ES 更容易理解。 例如,有以下方法: 神经情景控制,其中 Q 值在训练过程中存储,之后程序在采取行动之前检查它们。 结果是梯度方法可以让您比以前更快地学习如何解决问题。 在一篇关于神经情景控制的文章中,作者提到人类海马体,即使在一次经历之后也能够保留有关事件的信息,因此, 关键作用 在回忆的过程中。 这种机制需要访问代理的内部组织,根据定义,这在 ES 范式中也是不可能的。

那么,为什么不将它们结合起来呢?

这篇文章的大部分内容可能会给人留下我在提倡强化学习方法的印象。 然而,我实际上认为,从长远来看,最好的解决方案是将这两种方法结合起来,以便每种方法都用在最适合的情况下。 显然,在有许多反应性策略或正强化信号非常稀疏的情况下,ES 会获胜,特别是如果您拥有可以运行大规模并行训练的计算能力。 另一方面,当我们能够获得广泛的反馈并且需要学习如何用更少的数据快速解决问题时,使用强化学习或监督学习的梯度方法将非常有用。

转向自然,我们发现第一种方法本质上是第二种方法的基础。 这就是为什么在进化过程中,哺乳动物已经发展出大脑,使它们能够极其有效地从来自环境的复杂信号中学习。 所以,这个问题仍然悬而未决。 也许进化策略将帮助我们发明有效的学习架构,这对于梯度学习方法也很有用。 毕竟大自然找到的解决方案确实非常成功。

来源: habr.com

添加评论