首页科技快讯 “赌神”的武器：人工智能是如何征服扑克游戏的（一）

“赌神”的武器：人工智能是如何征服扑克游戏的（一）

来源：晰数塔互联网快讯时间：2022年05月24日 13:58

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

编者按：对于德州扑克的职业选手来说，能成为赌神应该是自己的梦想了吧？但是怎么才能成为赌神呢？对这个问题感兴趣并且找到解决方案的，却是数学家与程序员。真正的高手都知道打牌要虚实结合。但到底怎么个虚实结合？应该多少是虚？多少是实？扑克的本质是什么？是靠运气还是技艺？不管扑克玩家自己有没有意识到，或者想不想知道，这种游戏的核心始终都是约翰·冯·诺依曼所揭示的最大化问题。文章来自编译，篇幅关系，我们分三部分刊出，此为第一部分。

划重点：

AI 工具从根本上改变了玩扑克游戏的方式

冯·诺依曼认为，现实生活就像打扑克

通过以数学上精确的频率去诈唬和跟注，玩家的长期表现不会亏

美妙感觉

去年 11 月，拉斯维加斯的里奥（Rio）赌场，在巨大的亚马逊房（Amazon Room）里有二十几个男人，他们主要穿着运动衫戴着棒球帽，一起围坐在三张破旧的扑克桌旁玩德州扑克。偶尔会有几个路人驻足下来观看比赛，但除此以外，就剩下玩家们默不作声地反复翻弄手中的筹码。除了在牌局中保持着紧绷的、电击般的静止外，既没有任何外在迹象表明这帮人是全世界最伟大的扑克玩家，他们也没有像玩牌的老话所说的那样，是“为了房子而玩”，或者至少是为了高额首付而玩。这是为期三天的锦标赛的第一天，其官方名称是世界扑克超级豪客系列赛（World Series of Poker Super High Roller），不过参赛者在每人交了 250000 美元后，就干脆把它叫做 “250K”了。

在一张牌桌上，职业玩家 Seth Davies 偷偷地掀开手上纸牌的一角，开始琢磨自己刚刚拿到的这手牌：方块六跟方块七。经过几个小时的比赛之后，Davies 已经设法将自己的筹码从 150 万增加到 200 万以上，并且把其中一部分推出来作为加注。曾经是大学棒球运动员的 Davies 现年 33 岁，留着修剪整齐的浅棕色胡须的他身子直挺挺地坐着，一边密切地关注着别人的叫注。在 Dan Smith 之前已经有 2 人跟注，这位圆脸、长着小胡子、戴着一顶古怪的牛仔帽的职业选手选择了加注，而且是大额的加注。这次只有 Davies 跟了。

庄家开出了一张 K，一张四和一张五，都是梅花，给了 Davies 一手顺子听牌。Smith 选择过牌（不下注）。Davies 下注。Smith 跟注。转牌是方块二，Davies 的顺子没成。Smith 再次选择过牌。Davies 还是下注。Smith 再次跟注。最后一张牌是梅花二，这是 Davies 提高自己这手牌实力的最后希望。截止到目前，在那褪色的绿色毛毡覆盖的桌子中央，底池已经增加到超过一百万的筹码。最后一个二使得牌面出现了四张梅花，这意味着如果 Smith 手上只有一张梅花，他就能得到同花。

一直在下注的 Davies 需要一张八或者一张三才能将自己的这手牌变成顺子，但现在，这两样牌他都没拿到。Smith 第三次选择过牌，Davies 思考了将近一分钟，然后宣布自己全押，把剩下的 170 万筹码都推了出去。如果 Smith 跟注的话，Davies 将会被淘汰出局，他的那 25 万美元的报名费，则会在一次不合时宜的虚张声势中化为乌有。

Smith 从牛仔帽的檐下打量着 Davies，因为对 Davies，或者，也许是对运气本身的恼羞成怒，面孔已经扭曲到变形。最后，Smith 的表情定在了怒眉睁目，无奈弃牌，庄家把五颜六色的一堆筹码推向 Davies 的方向。按照 Davies 的说法，打完这手牌时，他的感受与其说是胜利了，不如说是解脱了。

他后来说：“玩的这个底池其实价值是 50 万美元。压力实在是太大了。”

最终的确认其实要等到那天的凌晨 2:30 左右，在第一天比赛结束之后，Davies 从里奥赌场酒店驱车，用了 15 分钟的时间回到自己位于拉斯维加斯郊外的家中。在他家车库附近的一间办公室里，他打开了一个计算机程序，这款名为 PioSOLVER 的程序是少数人工智能型扑克辅助工具之一，在过去几年的时间里，这些工具也已经从根本上改变了玩扑克游戏的方式，尤其是顶级扑克的游戏方式。Davies 将这手牌的所有细节输入进去，然后开始让程序跑起来。这个求解程序一下子就生成出一个最优策略。程序给出结论说，Davies 大多数情况下都做对了。在转牌圈发了方块二时，他的下注应该是底池的 80% 而不是 50%，但河牌圈诈唬的 170 万筹码是正确的玩法。

Davies 说：“那种感觉真妙。甚至比赢下一个大底池还要妙。真正令人满足的地方是当你赢下像这样一场比赛的时候。” 在确信自己这手牌下出了近乎完美的水平之后，Davies 那晚睡得很安稳。

完美扑克

对完美扑克的追求至少可以追溯到 1944 年。那一年数学家约翰·冯·诺伊曼以及经济学家奥斯卡·摩根斯坦（Oskar Morgenstern）发表了《博弈论与经济行为》。这两个人想要纠正一个东西，他们认为，在经济学领域根本上存在着不精确性。他们写道： “我们希望能找到具备数学严谨性的原则，去为社会经济参与者定义‘理性行为’，并从中推导出该行为的一般特征。”他们认为，经济生活应该被视为一系列的最大化问题，在这些问题中，个体参与者会竞相从每日的辛劳中获取尽可能多的效用。如果冯诺依曼和摩根斯坦能够对做出正确决策的方式进行量化的话，那么他们就能够在坚实的基础上建立起一门经济学科学。

正是这种要为经济决策建模的渴望，导致了他们要玩玩游戏。冯·诺依曼拒绝了大多数不适合这项任务的游戏，尤其是像跳棋或国际象棋这样的游戏。这种游戏玩家双方都可以看到棋盘上的所有棋子，并共享相同的信息。他向同为数学家的雅各布·布朗劳斯基（Jacob Bronowski）解释道：“现实生活不是这样的。现实生活会有虚张声势、还会有欺骗的小花招、会自问别人会认为自己打算做什么。这才是我的理论里面想要的游戏。”冯·诺依曼认为，现实生活就像打扑克。

冯·诺依曼使用的扑克游戏是简化版。在这种游戏里面，会给其中的两名玩家随机“发放”对方看不见的数字，然后要求双方按照预定大小下注，赌谁的数字更大。冯诺依曼推导出了最佳策略的基础。玩家既应该在拿到最好的牌的时候下重注，也应该在拿到最糟糕的牌的时候，按照一定的次数比例下重注，作为诈唬。（这个比例的变化取决于下注的大小相对于底池的大小。）冯·诺依曼证明，通过以数学上精确的频率去诈唬和跟注，从长远来看，玩家的表现不会低于收支平衡，而且就算他们把自己的策略一五一十告诉对手也不会亏。更好的是，如果他们的对手不采用冯·诺依曼描述的完美策略，那么只要样本足够大，这些对手采取其他任何策略肯定都会输。

“博弈论”指明了通往未来之路。在这个未来里，各种竞争性的互动都可以用数学的方式建模：比方说拍卖、潜艇战，甚至是物种将基因传递给后代的竞争方式都可用这种方式建模。但在策略方面，扑克本身在响应冯·诺依曼的证明方面几乎没有进步，直到 50 多年后，阿尔伯塔大学（University of Alberta）计算机科学系的人才接过了这项任务。该系游戏研究的早期明星是一位叫做 Jonathan Schaeffer 的教授，经过 18 年的攻关，他终于发现了跳棋的解决方案。阿尔伯塔大学的师生在围棋、黑白棋、《星际争霸》以及加拿大人的消遣运动冰壶等多种游戏方面也取得了重大进展。不过，扑克仍然属于特别棘手的问题，这正是冯·诺依曼当初被它吸引的原因：这种游戏里面的隐藏信息阻碍了好决策的制定。

像国际象棋或西洋双陆棋这样的游戏，在棋盘上双方玩家的动作都清晰可辨，但扑克不同，尽管计算机永远都没法确定对方拿的是什么牌，但仍必须解读对手的下注。 Neil Burch 是一名计算机科学家，在加入人工智能公司 DeepMind 之前，他曾在阿尔伯塔大学以研究生和研究员的身份研究了 20 年扑克，但他认为自己的团队早期的尝试非常不成功。他说：“我们发现，如果你找个见过世面的扑克玩家来跟电脑比赛”，程序就会“被碾压，彻底被击败”。

从某种程度来说，这只是建模难度的函数而已。所谓的建模，是指对玩扑克时牵涉到的所有决定进行建模。博弈论学者使用分枝树状图来表示游戏不同的玩法。如果是像剪刀石头布这种简单的游戏，这张分枝树状图就很小：就三个分支，分别表示出石头、剪刀以及布，然后每个分支的又可以引出三个分支，分别对应对手可以出的石头、剪刀以及布。游戏越复杂，这棵树就越庞大。即便是简化版的德州扑克，玩“单挑”（即只有两个玩家玩）而且赌注固定在预定大小，一棵完整的游戏树也会包含有 316,000,000,000,000,000 个分支。如果是玩下注金额不限的无限德州（no-limit hold ’em）的话，树的规模甚至更加庞大。Burch 说： “确实会变得非常庞大，大到什么程度？比宇宙中的原子数量还要多。”

一开始，阿尔伯塔大学研究小组的做法是尝试把游戏规模缩小到更易于管理的范围——简单粗暴地将多多少少有点相似的牌归到一起，比方说，把一对九跟一对十看作是相同的。但是，随着人工智能这个领域发展得更加强大，并且随着团队的算法能更好地适应了扑克的复杂性，它的程序也开始得到改进。这一发展的关键是一种叫做虚拟遗憾最小化（counterfactual regret minimization）的算法。计算机科学家给机器布置任务，让它们识别出扑克的最佳策略，方法是让程序跟自己对战数十亿次，并记录游戏树里面哪些决策的利润最低（那些就属于“遗憾”，人工智能就能通过做出其他更好的选择，从而学会在未来的迭代中将遗憾最小化）。 2015 年，Alberta 团队在《科学》杂志上发表了一篇文章，标题叫做 “双人限注德州扑克已被攻克”（Heads-Up Limit Hold'em Poker Is Solved），宣布 AI 取得成功。

对于某些玩家，尤其是那些靠玩在线扑克为生的玩家来说，阿尔伯塔大学研究小组的胜利对他们的生计构成了严重威胁。曾经是职业玩家的 Terrence Chan 说： “我记得当我们读到这篇文章时，大家的感觉就好像，‘噢，这下子比赛精彩了，这一次一定会很有趣。’”

情况很快就很清楚了，对计算机能发现最优策略的能力感兴趣的不仅仅是学者。阿尔伯塔大学团队的一位前成员，因为跟目前雇用他的软件公司签有保密协议，所以要求本文不要透露他的姓名，但他告诉我，自己已经拿到了数十万美元的报酬，条件是帮助扑克玩家开发能够识别完美玩法的软件，以及为开发能够在在线游戏中击败人类的机器人的程序员提供咨询。付不起那么多钱的玩家不需要等待很长的时间就可以获得更实惠的，由 AI 提供的策略。《科学》杂志发表攻克双人限注德州扑克文章的同一年，一位叫做 Piotrek 的波兰计算机程序员与前在线扑克玩家 Lopusiewicz 一起，开始售卖他的应用 PioSOLVER 的第一个版本。只需 249 美元，玩家就可以下载一个近似于更复杂的无限制版德州扑克游戏的解决方案。到了 2015 年，任何拥有足够强大的个人计算机的人，都可以用得起冯·诺依曼数学证明的实际实现了。