剑指多人夺旗游戏,曾经挑战围棋之巅的Deepmind团魂燃烧了
很多人小时候都玩过的抓人、抢凳子游戏,在现在一些西方小朋友记忆里,可能会被替换成夺旗游戏。
夺旗游戏的规则为,对垒双方需要在保护自己阵营里旗子的同时,夺取藏在对方阵营里的敌旗带回自己的基地,而玩家一旦在抢旗过程中被敌人抓到,就会出局。
夺旗游戏规则,会跑就能玩
对于人类小孩来说,这种目标明确的合作类游戏非常容易掌握,但 AI 却会因为游戏规则过于简单、自由度过高、合作人数太多而陷入深深的迷惑。
唉呀摔倒了
通过端到端的强化学习,AI 已经能在单挑中战胜围棋世界冠军、打败顶级《星际争霸》玩家。但在多人组队竞争游戏中,由于可能出现的情况过于复杂,对于 AI 而言,在学习难度上,5 岁小孩都会玩的夺旗还真的比围棋高出不少。
最近,工程师们终于教会了 AI 夺旗。
上月底,DeepMind 在 Science 上发表了论文《基于人口强化学习的 AI 在 3D 多人游戏中达到人类水平》(Human-level Performance In 3D Multiplayer Games With Population-based Reinforcement Learning),介绍了一种能让 AI 自己学会夺旗,并制定团队策略的模型。
DeepMind 研究员、论文第一作者 Max Jaderberg 表示:“在训练过程中没有人告诉 AI 如何玩这款游戏——只有在胜利或失败后才知道 AI 是否了解怎么玩游戏。”
在最终测试中,这个名叫 FTW(For The Win)的夺旗 AI 取得了比人类更好的表现。在 2 个人类对抗 2 个 AI 的比赛中,AI 组平均每局比人类多拿 16 个旗。在两位人类专业选手开黑的情况下,人类对 AI 的胜率才勉强提到了 25%(6%平局)。
FTW 以压倒性的优势胜出。
DeepMind测试员苦战中
终于,连团队合作也不是人类的专利了。
《雷神之锤3:竞技场》夺旗大战
DeepMind 用来训练 FTW 的“斗兽场”,是大受欢迎的第一人称射击游戏《雷神之锤3:竞技场》中的夺旗模式。
MineCraft 重现的《雷神之锤》夺旗地图
在夺旗模式中,红蓝双方在随机生成的对称地图中比赛,五分钟内谁抢到的旗子最多谁就赢。旗子位于地图两端的基地,双方基地被标记为不同颜色。
在夺旗过程中,除了追逐和躲避,玩家还可以用激光“点杀”扛旗的对手。点到对手后,旗子会被回收,对手几秒后会在自家基地里重生。
在以往的训练过程中,工程师们往往会帮助 AI “作弊”——让 AI 访问环境模型、其他玩家或智能体的先验状态。比如在 DeepMind 与暴雪合作训练的《星际争霸2》智能体 AlphaStar 眼里,游戏就是被拆解好的各种特征层。
AlphaStar 眼中的《星际2》
而在训练 FTW 时,AI 没有开启上帝视角,只能通过观察和移动与环境和其他智能体交互。FTW 可以前后左右移动,通过左右旋转扫视周围环境,获得的输入信息只有第一人称视角画面,和正常玩家完全一样。
FTW 眼中的地图
为了给提供足够多的队友和敌人,工程师在地图里投放了 30 个智能体进行“大混战”。
为了防止智能体记忆地图,每次的场地也是随机生成的。
就像学生学习有快有慢一样,30 个智能体的水平和偏好也参差不齐。在下图底部,每一个圆圈都代表一个智能体,圆圈内部的深色面积越大,则该智能体越强。在训练过程中,智能的计算策略也在不停地进化和变异。
几千局游戏后,每个智能体都建立了各自的奖励信号和小目标,有的决定去拔掉旗子,有的决定专门抢人头,真正做到了分工明确。
FTW 自学成才
据论文描述,在计算公式中,有几个重要的参数。第一是智能体“看”到的第一人称视图像素,以RGB数值输入;第二是游戏中的得分,直接在得分板上显示;第三是 AI 采取的行动路径(左转右转或前进后退)。而智能体的最终目的,是找出一种使积累奖励值最大化的策略。
在训练时产生的数据分别被传递到两个循环神经网络,一个快,一个慢。快速神经网络处理和预测时间序列中不断发生的事件,慢速神经网络则对于养成行为策略有监督作用,两者在最后相互耦合,共同输出游戏行为。
此前,多人游戏中的智能体常常采用“左右互搏”的方式来自我进化,但这样训练出的智能体在团队合作中表现很不稳定。举个例子,在某些情况下 AI 会变成人工智障,在游戏刚开始时就有 10 个 AI 冲出去抢旗。
对此,DeepMind 提出的解决方案是,并行训练多个不同的智能体集群相互配合,并基于比赛结果优化内部奖励系数。
通过个体和团队训练的双层流程,智能体确立了复杂的奖励机制——最大化自我奖励的内部目标,和达成夺旗目的的外部目标。就像一个团队里有负责支援的角色,也有冲锋陷阵赢得鲜花荣耀的角色,而在 FTW 的奖励机制里,它们都是 MVP。
请停止你的 AI 行为!
在这种训练框架下,FTW 出现了很有意思的进化。
随着训练的进行,FTW 有了自家基地的概念,然后认清了对方基地在哪,最后对旗帜的形状和位置有了反应。在发现可以“点杀”敌人之后,FTW 立即更新了自己的行动。而此前,工程师从未有针对性地培训过智能体进行这些行为(对比 AlphaStar,曾将游戏任务拆分成多模块分别进行强化学习)。 这些结果表明,纯粹通过强化学习的训练,FTW 自发产生了和游戏规则相关的概念。
一开始混乱的行为渐渐有序
据论文中说明,在进行游戏时 FTW 会自行分析将近200多个影响最终决策的问题,其中包括:我手上有旗帜吗?我最近见到过我的队友吗?我能很快到达敌方基地吗?
通过比较这些问题的答案和得分情况,FTW 自行生成了能提高胜率的策略。
比如,在一名队友运送旗帜期间,会有另一名队员埋伏在敌方基地,因为 FTW 知道一旦运旗的队友被击杀,敌方旗帜马上会刷新,早就埋伏好的队员就可以立刻捡起来。
FTW 做出决策时被各个条件激活的区域
此外,在训练过程中,FTW 曾经追着抢到旗的队友跑,后期发现这种策略对胜率无益,遂舍弃。在游戏快要结束时,FTW 更倾向于在自家基地门口防守,以防止对方缩小比分差距,而在游戏前期则倾向于进攻。
在最终的测试中,DeepMind 团队发现 FTW 能以 16 分的平均优势击败由两名人类玩家组成的团队。即使是开黑的专业玩家,在 FTW 面前的也胜率只有 25%。
为了确保游戏公平,工程师给 FTW 加上了 267 毫秒的反应延迟,结果 FTW 的胜率降低了,但仍高于人类。
未来的 AI 会进化出个性吗?
DeepMind 这篇论文证明,即使没人教,没有上帝视角,甚至连基本游戏概念都没有,放养的 AI 也能在多智能体环境中学会竞争和合作,甚至出现和高级团队策略。
此外,每个智能体都进化出了各自的“小目标”,达成自己设定的目标就会获得奖励。就好像每个 AI 都在小时候写了一篇《我的理想》,无论是防守还是进攻,它们都有光明的前途。
也许在不久的将来,我们不仅能在游戏中遇到行动和人类类似的 NPC,把单机游戏玩出联机感,还能养成一只有“个性”有理想的 AI。
想想还有点小激动!
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: