OpenAI 在捉迷藏游戏中教授 AI 团队合作

一款优秀的老式捉迷藏游戏对于人工智能 (AI) 机器人来说是一个很好的测试,可以展示它们如何做出决策以及如何与彼此以及周围的各种物体进行交互。

在他的 新文章,由已成名的非盈利人工智能研究组织 OpenAI 的研究人员发表 战胜世界冠军 在电脑游戏 Dota 2 中,科学家描述了如何训练由人工智能控制的代理,使其在虚拟环境中能够更加复杂地搜索和隐藏彼此。 研究结果表明,由两个机器人组成的团队比没有盟友的任何单个代理学习得更有效、更快。

OpenAI 在捉迷藏游戏中教授 AI 团队合作

科学家们使用了一种久负盛名的方法 强化机器学习,其中人工智能被放置在一个它未知的环境中,同时具有一定的与之交互的方式,以及针对其行为的一个或另一个结果的奖励和罚款系统。 这种方法非常有效,因为人工智能能够在虚拟环境中以极快的速度执行各种动作,比人类想象的速度快数百万倍。 这允许反复试验找到解决给定问题的最有效策略。 但这种方法也有一些局限性,例如,创建环境并进行多次训练周期需要巨大的计算资源,并且该过程本身需要一个准确的系统来将人工智能行动的结果与其目标进行比较。 此外,智能体通过这种方式获得的技能仅限于所描述的任务,一旦人工智能学会应对它,就不会再有进一步的改进。

为了训练人工智能玩捉迷藏,科学家们使用了一种称为“无向探索”的方法,在这种方法中,智能体可以完全自由地发展对游戏世界的理解并制定获胜策略。 这类似于 DeepMind 研究人员在多个人工智能系统之间使用的多智能体学习方法 接受过在《雷神之锤 III 竞技场》中玩夺旗模式的训练。 在这种情况下,人工智能代理之前没有接受过游戏规则的训练,但随着时间的推移,他们学习了基本策略,甚至能够用不平凡的解决方案让研究人员感到惊讶。

在一场捉迷藏的游戏中,几名以隐藏为己任的特工在稍稍领先之后,就被要求避开对手的视线,而搜查特工队则一动不动。 此外,本文中的“视线”是单个机器人前面的 135 度圆锥体。 特工无法冒险离开游戏区域太远,被迫在随机生成的房间中导航,并能够使用散布在周围的一些外部物体(盒子、可移动的墙壁、特殊坡道),这些物体既可以用来创建掩护,也可以用来渗透其中。

OpenAI 在捉迷藏游戏中教授 AI 团队合作

通过漫长的学习过程,人工智能代理学会了六种独特的策略,每一种策略都帮助他们进入游戏的下一阶段。 起初,寻找者和隐藏者团队只是简单地逃跑并互相追逐,但经过大约 25 万次比赛后,隐藏者团队学会了用盒子堵塞通道并用盒子建造庇护所。 又进行了 75 万场比赛后,团队发现了使用坡道进入这些藏身处的方法。 又经过一千万轮后,躲藏者学会了将坡道拖到比赛区域的边缘并将其锁定到位以防止对手使用它们。

OpenAI 在捉迷藏游戏中教授 AI 团队合作

经过 388 亿场比赛,搜寻者学会了使用堵塞的坡道爬上带给他们的板条箱,然后直接爬上板条箱,渗透到由便携式墙壁创建的敌人藏身之处。 最后,经过 458 亿次比赛,隐藏小组得出结论,他们需要阻挡所有物体,然后建造一个避难所,这显然导致了他们的最终胜利。

尤其令人印象深刻的是,经过 22 万次匹配,智能体学会了协调自己的行动,并且他们的协作效率在未来只会增加,例如,每个人都带着自己的盒子或墙壁来创建庇护所,并选择自己分享的物品来进行躲避。阻止,使对手的游戏难度变得复杂。

OpenAI 在捉迷藏游戏中教授 AI 团队合作

科学家们还注意到与训练对象数量(通过神经网络传递的数据量——“Batch Size”)对学习速度影响有关的重要一点。 默认模型需要 132,3 小时的训练进行 34 亿次匹配才能达到隐藏团队学会阻挡坡道的程度,而更多数据导致训练时间显着减少。 例如,将参数数量(整个训练过程中获得的部分数据)从0,5万个增加到5,8万个,采样效率提高了2,2倍,输入数据大小从64 KB增加到128 KB,减少了训练量时间差不多一倍半。

OpenAI 在捉迷藏游戏中教授 AI 团队合作

在工作结束时,研究人员决定测试游戏中的训练可以在多大程度上帮助智能体应对游戏外的类似任务。 总共有五项测试: 对物体数量的认识(了解一个物体即使在看不见的地方并且没有被使用,仍然继续存在); “锁定并返回”——记住自己原来位置并在完成一些额外任务后返回到原来位置的能力; “顺序封锁”——4个盒子被随机放置在三个没有门的房间里,但有坡道可以进入,特工需要找到并封锁它们; 将箱子放置在预定地点; 以圆柱体的形式围绕物体创建一个庇护所。

结果,在五分之三的任务中,在游戏中接受过初步训练的机器人比经过训练从头开始解决问题的机器人学得更快,并且表现出更好的结果。 他们在完成任务并返回起始位置、在封闭的房间中依次阻挡盒子以及将盒子放置在给定区域方面表现稍好,但在识别物体数量和在另一个物体周围创建掩护方面表现稍弱。

研究人员将人工智能学习和记忆某些技能的方式归结为好坏参半的结果。 “我们认为,游戏中预训练表现最好的任务涉及以熟悉的方式重用以前学到的技能,而比从头开始训练的人工智能更好地执行其余任务则需要以不同的方式使用它们,这在很大程度上更困难,”该作品的合著者写道。 “这一结果凸显了需要开发方法,以便在将培训所获得的技能从一种环境转移到另一种环境时,有效地重用这些技能。”

所做的工作确实令人印象深刻,因为使用这种教学方法的前景远远超出了任何游戏的限制。 研究人员表示,他们的工作是朝着创建具有“基于物理”和“类人”行为的人工智能迈出的重要一步,该人工智能可以诊断疾病、预测复杂蛋白质分子的结构并分析 CT 扫描。

在下面的视频中你可以清楚地看到整个学习过程是如何发生的,AI是如何学会团队合作的,它的策略变得越来越狡猾和复杂。



来源: 3dnews.ru

添加评论