世界上最会打牌的 15 个人,输给了这个「赌神算法」
上次 AI 战胜人类玩家,还是 AlphaGo 机器人和韩国围棋冠军交锋。
现在一个名为 Pluribus 的 AI,和世界扑克冠军 PK,再次完胜人类。
但具有突破性的是,这次不再是一对一,对手是 15 名人类顶尖扑克玩家。这也是 AI 首次在超过两个人的游戏中击败人类玩家。
这次的德州扑克比赛为期 12 天,超过 10,000 手牌,形式是最受欢迎的六人无限制玩法,Pluribus 和 15 名顶尖玩家以两种模式开展比赛。
▲ 游戏示例,人工智能系统(Pluribus)和五名职业扑克玩家对抗. 图片来自:Facebook
第一种是 1 个 Pluribus 和 5 个人类玩家组赛,第二种是 1 个人类玩家和 5 个 Pluribus 组赛(其中各个 Pluribus 并未相互配合),第二种形式参赛的是 2 名扑克传奇人物——Darren Elia 和 Chris Ferguson,后者曾 6 次获得世界冠军。
结果是,Pluribus 全部胜利了。
如果它是人类玩家,一个筹码值 1 美元的话,Pluribus 将能以每小时 1,000 美元的惊人速度不断赢钱。
▲ 图片来自:Getty Images
这项成就今天也发表在《科学》杂志上,文中详细介绍了人工智能 Pluribus 如何被创造出来。
Pluribus 由 Facebook 的人工智能团队和卡内基梅隆大学计算机科学系人员一起开发,两年前他们就已经研发出了名为 Libratus 的扑克游戏系统,它在德州扑克的单挑赛中一直是世界赢家。
在和单个人类比赛中,博弈论能为 AI 提供最佳策略, 因此 AI 可以完全掌控游戏中的「特定路线」,预测每次游戏结束的结果后,反过来决定下一步的行为。
但这对于涉及多方利益且没有明确条件的多人游戏场景并不适用。
▲ 图片来自:Alexandre Rotenberg / Alamy
简单来说, Libratus 不能确定所有玩家手里有什么牌,不能了解对手的内心想法,无法琢磨对手的试探或虚张声势,以及他们的每一个投注决定,游戏可以说是呈指数级地复杂化。
因此研究人员在 Libratus 的基础上构建了 Pluribus,它的不同之处在于新使用了一种称为搜索功能的机制,能够对接下来的未知行为进行展望,而不是在预测最终结果后反推。
在同时应对其余几名玩家的复杂性之下,这种短期的敏锐性恰恰是最大的优势。
另外, Pluribus 算法的战略核心就是,它并不是从人类玩家或先前 AI 数据中的经验来训练算法,而是通过对抗自己来不断改进。
在进行数万亿次扑克游戏后,它创造出了一个基本策略模式,能够在不受人类干扰的情况下对抗自身的副本,然后在比赛中屡次借鉴它,并视现场情况自由发挥。
因为它在没有人类信息输入的情况下训练而成,所以它可以想到很多人类玩家不会使用的策略。
这些进步也表示,AI 能够使用更少的资源和更低的成本制造。
比起动辄十万美元的先进系统,Pluribus 短短 8 天内创建,在云服务器上培训也只用了不到 150 美元的费用。
而且 Pluribus 只用两个 CPU 就能运行,2016 年的 AlphaGo 系统用了 1,920 个 CPU 才赢得游戏,而且 Pluribus 内存不到 128 GB,每次下决定平均只用了 20 秒,速度是职业扑克玩家的两倍。
这次的成果也是衡量 AI 进展的一种很好的方法。
与国际象棋、跳棋、围棋不同,扑克游戏隐藏了信息和运气元素,这意味着它不能只是计算人类行为,而是必须超越它们。因为 Pluribus 已经可以对抗多个该领域内的顶尖人类,研究人员表示,客观上来说,AI 已经被证明可以称为「超人」了。
▲ 图片来自:Gizmodo
对于后续的发展,联合开发者 Noam Brown 认为 Pluribus 已经到达了扑克游戏的极限,完成了最后一个挑战。接下来,这个技术将在更多场景被用到。
毕竟 AI 能在多人场景中使用,还能处理隐藏信息的能力,才更符合现实生活中的挑战。扑克游戏只是提供了一个现实世界的模型。
▲ 图片来自:unslash
这项研究将可以应用于各种各样的环境,例如网络安全、欺诈检测、金融谈判等等,甚至还可以帮自动驾驶汽车导航交通。
不过 Pluribus 的算法代码就不会像早期的系统迭代一样公开了,毕竟它可能会毁掉在线扑克世界。
欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: