AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α
《荣耀之海》是一款什么游戏?
《荣耀之海》是西山居自主研发的新一代多人在线战术竞技游戏。游戏主打时下最火热的「吃鸡」玩法,百名玩家通过海上与陆上的大逃杀决出胜者。
在游戏中,25 支四人小队通过跳伞降落到某个区域,玩家需要在海洋与岛屿间搜集武器、防具、道具等各种资源。随着游戏的进行,地图上的安全区域将逐渐缩小,战斗爆发得也更加频繁,玩家需要配合队友,通过灵活多变的海陆策略,击杀其他队伍的玩家、生存到最后。
对于 AI 来说,《荣耀之海》在 环境复杂度、AI 拟人度 等方面对智能体的设计提出了很大挑战。
在环境复杂度方面,目前 AI 已攻克的游戏,大部分是运行在 2D 空间内。即使是 3D 空间的 DeepMind 雷神之锤 3 AI,也是基于上世代的游戏内核,地图简单、智能体数量少。相比之下,《荣耀之海》的 3D 环境较为复杂,地图较为庞大,玩家也比较多。
在 AI 拟人度方面,从开发商和玩家的角度,AI 并不只是越强越好,还要求越像人越好。作为一款吃鸡类游戏的 AI,猎户座α必须足够像人才能激发玩家的兴趣。
猎户座 α表现如何?
现阶段,超参数团队的研究聚焦于一个迷你对局(mini-game)----在 230 米*230 米岛屿上、时限 6 分钟内、组队 2V2,最终存活的一方获胜。除这些限制外,其他游戏元素与完整游戏完全相同。
研究人员发现,在这个迷你对局中,猎户座α从零开始逐渐学会了在 3D 环境中生存所需的全方位能力。
1)AI 学会了通过 搜集物资和跑毒 来照顾好自己:
AI 出生后会快速搜集物资,观察到毒圈外有高级物资时,选择快速出去拾取后再尽快返回安全区。
AI 具有避障导航能力,可以通过翻窗快速进出房屋搜集物资。
2)AI 也学会了通过 寻找掩体、灵活走位、武器使用 等方式,以及记忆等认知能力,在竞争对抗中提升自己的生存能力:
AI 在对战中会合理利用掩体,并保持灵活的走位躲避攻击。
进入肉搏后,AI 会切换为近战武器,拉开距离后再切换回远程武器。
3)AI 还学会了发挥 团队配合 的力量,与队友 互相掩护 ,在不同的战斗环境中采取针对性的战略战术,最大化自身优势:
某个 AI 被击倒后,AI 队友立刻实施救援,救活后会帮忙望风等队友打药。
在团队作战中,AI 分散站位并拉开枪线,集中火力优先消灭单个敌人。
消灭敌人取得人数优势后,AI 强势冲锋,依次经过楼梯进入房间,击杀剩余敌人。
在 AI 的训练过程中,研究者还观测到了许多与人类生存进化过程相似的地方。
人类在进化过程中,先学会采集食物补充能量、应对恶劣天气,然后学会各种工具的使用,掌握记忆等高级认知能力,进而学会与族群内同伴分工合作、与其他族群竞争对抗。AI 通过多智能体的自我训练的方式,也表现出了类似的进化现象。随着训练局数的增加,AI 逐渐涌现出了 物资搜集、物资使用、空间感知、认知能力和复杂策略 等智能行为。
AI 的进化过程
AI 玩转「吃鸡」类游戏难在哪儿?
《荣耀之海》作为一款 3D 游戏,复杂度相比一般 2D 游戏已经上了一个台阶,而吃鸡类游戏的超大地图、百人同局等要素又进一步增加了技术难度。
总体来说,猎户座α在《荣耀之海》中面临的挑战包括以下几个方面:
实时性与长期性
玩家不仅要做出实时的操作决策,还要做出长期的规划决策,平衡兼顾两者。具体到《荣耀之海》来说,为了最终获胜,整局游戏通常需要进行 30 分钟以上,对应的决策步数在 7000 步以上。
非完美信息
围棋等棋类游戏虽然也很难,但玩家能看到完整的棋局,也就能获取决策所需的完美信息。但在这种多人竞技非完美信息游戏中,玩家只能看到一定视角范围内的信息,无法看到被障碍物遮挡住的部分。因此,玩家需要有效探索不可见的信息,并具备记忆能力。
复杂的状态空间
《荣耀之海》中的 3D 环境比 2D 环境包括更多的信息,例如带深度的 复杂空间结构 、 庞大的地图 (10 公里*10 公里)、 众多的玩家 (100 人)、 丰富的元素 (大量建筑、障碍、物资等),对环境感知和探索提出了巨大挑战。
复杂的动作空间
要玩转这种「吃鸡」类游戏,猎户座α需要同时操作移动方向、视角方向、攻击、姿态(站、蹲、趴、跳)、交互(拾取、打药、换弹)等一系列操作,产生复杂的组合动作空间。据估算,离散化后的可行动作数量可以达到 10^7。
战略与战术
玩家需要对瞬息万变的环境和局势做出快速准确的判断,采取丰富的战略和战术,例如火力掩护、拉枪线、抢点、卡毒圈、封烟救援等等。
多人博弈
玩家不仅需要与队友进行密切的合作和通信,还需要与其他队伍在资源搜集、武装交火时进行对抗。与两人博弈相比,多人博弈的情况会更加复杂多变。
猎户座 α是怎么做的?
不使用人类玩家数据,完全自我学习
「猎户座α」采用了深度强化学习方法,从零开始,通过与环境的交互和试错,学会观察世界、执行动作、合作与竞争策略。AI 没有使用任何人类玩家的对战数据,完全基于自我对战(self-play)的方式进行学习 。
使用非完美信息
AI 观测的状态信息包括玩家/物资的实体信息、深度图、雷达图、小地图,以及宏观标量信息。与人类一样,AI 观测到的状态是非完美的----即 只能看到一定视角范围内的信息,看不到视野外或是被障碍物遮挡住的信息。
与直接用 RGB 图像作为特征相比,研究人员采用的方式省去了图像目标检测和识别的过程,专注在 AI 的决策过程。此外,雷达图和小地图相当于自动驾驶中的高精度地图,深度图相当于深度摄像机捕捉到的信息。
限制 AI 手速
AI 的动作输出分为移动方向、水平/俯仰朝向、身体姿态、物资拾取/使用、武器切换、攻击等任务,多个任务可以同时执行,形成巨大的复合动作空间。
人类玩家在操作时,会存在反应时间的限制,APM(每分钟操作次数)也会有上限。为了与人类一致,研究人员对 AI 也进行了相应限制。
考虑到网络传输延时、特征提取和模型预测的耗时,AI 从「观测到 1 帧状态」到「产生 1 次动作」需要 120ms 的延时。在此基础上,他们额外增加了 100ms 延时。同时, AI 每秒最多执行 4 次动作、每次最多包含 3 个动作 。
多个深度模型共同协作
每个智能体是一个深度神经网络模型,输入状态信息,输出预测的动作指令。研究者通过 Transformer 模型处理玩家、物资等实体信息,通过 ResNet 处理深度图、雷达图、小地图等图像信息,通过 MLP 模型处理宏观标量信息,然后通过 LSTM 模型实现记忆能力。
为实现多智能体合作,猎户座α采用了分布式的策略网络和中心式的价值网络,并引入了策略网络之间的通信机制。
AI 模型结构示意图
自研通用分布式强化学习引擎 Delta
「猎户座α」的训练在超参数自研的通用分布式强化学习引擎 Delta 上进行。该引擎通过大量弹性 CPU 资源产生训练数据,通过 GPU 资源更新神经网络模型参数,并且可以通过监控组件监控 AI 的训练过程。在该项目中, 「猎户座 α」训练一天相当于人类玩家打了 10 万年。该引擎可以部署在任何公有云上,目前已经支持了多款游戏的 AI 训练。
分布式强化学习引擎 Delta 架构示意图
需要指出的是,虽然猎户座α已经取得了一些进展,但目前的方案还存在诸多限制和待解决的问题。例如,AI 只能在单个岛屿上进行陆战对抗;AI 仅在 2 支队伍之间进行博弈;AI 掌握的物资和武器还比较有限。
研究人员表示,他们将逐步克服以上难题,最终让 AI 在完整地图上进行 100 人的吃鸡对战。
超参数科技是一家怎样的公司?
超参数科技是一家专注于游戏 AI 探索的初创公司,主攻机器学习、强化学习、大系统工程等领域,为游戏公司提供 AI 解决方案。已获晨兴资本、 高榕资本 A 轮融资。
该公司创始人刘永升是原腾讯 AI Lab 总经理、T4 技术专家 。同时,他也是腾讯围棋 AI「绝艺」、王者荣耀 AI「绝悟」团队负责人。「绝艺」曾在今年 8 月斩获世界智能围棋公开赛冠军,而「绝悟」也在今年 8 月份的吉隆坡王者荣耀最高规格电竞赛事 KPL 世冠杯半决赛中击败职业玩家联队,晋升王者荣耀电竞职业水平。
超参数科技创始人刘永升。
除了创始人之外,超参数科技的其他团队成员也有多位来自腾讯 AI Lab 和 IEG 游戏的人工智能科学家、技术骨干以及海内外顶尖院校的精英伙伴。
该公司坚信 AGI 的产生来自于对生物智能进化过程的仿真模拟,而非截面式的复制。为了更逼真地实现这种模拟,他们选择电子游戏作为实验环境,并在此过程中反哺游戏本身。
他们致力于将 AI 能力和游戏场景进行深度结合,为游戏公司提供人工智能解决方案,帮助游戏厂商提升开发效率、开启全新玩法,在游戏设计、开发、运营等多个环节创造价值。
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: