完美的“面瘫杀手”,会根据对手或强悍或保守的牌风调整自己的策略,甚至‘他’还学会了似乎人类才更擅长的“诈唬”。
“保守地打了很多手牌后,没有任何预兆地,‘它’会忽然‘原地起跳’,开始超额下注,或者干脆all-in(押上全部赌注)。没有情绪、没有动作、没有语言,打牌的套路没有任何蛛丝马迹可循。”德扑老手许朝军对《第一财经周刊》说,他很少遇到“冷扑大师”这样的对手。 曾经创立了轻博客网站点点网的许朝军,被中国的德扑圈称为“校长”,这一称呼可看作对其牌技的一种肯定。在4月10日结束的“冷扑大师VS.中国龙之队”德州扑克人机大战表演赛中,他也是6名龙之队成员中的一员,比赛第一天就和德扑AI系统冷扑大师交过手了。 然而最终,在为期5天的9场比赛中,人类一共输了792327分,平均每百手损失22个大盲注。甚至9个单场的比赛,人类牌手未取一胜。 德州扑克的规则并不复杂,每个人2张底牌,5张公共牌,最后玩家用手中底牌加上3张公共牌比大小,最大的是皇家同花顺,即花色相同的10、J、Q、K、A,最小的是没有对子、同花和顺子的“高牌”。紧挨着发牌者顺时针的第一二个玩家会被强制下注,分别为小盲注和大盲注,大盲注金额是小盲注的两倍,这也是牌桌上的最小赌注。这次冷扑大师对战龙之队的大盲注为100分,小盲注为50分,每个选手的初始分为20000分。 但这次比赛采用的是“一对一无限注德州扑克”,就是两人对战且不限下注筹码。这种玩法由于人数少,每个人即使底牌并不理想也能采取激进的措施,因为对方手中有好牌的机会同样很小。相比多人对战,一对一比赛的复杂度虽然有所降低,但对于牌手的心理素质要求高,同时打法会更加难以捉摸——从这个角度看,似乎对人类和机器来说各有利弊。 德州扑克之所以精彩,原因就在于,除了算牌的技巧,牌手的心理素质和性格也对比赛影响巨大。一个性格毛躁的人即使手中底牌并不理想,也可能选择押上全部赌注(all-in),把筹码全押进去“诈唬”(bluff),对手如果是个保守的人,可能会选择弃牌认输,但一旦被识破,也可能会直接被“爆仓”出局。 因此,一个德扑高手往往是“面瘫杀手”,他的表情或动作无懈可击,很难让人猜到底牌状况。有一个未经证实的说法甚至提到,有些牌手会戴上大口罩上场。从这点上看,与冷扑大师对战就像面对一个完全的“黑箱”。 冷扑大师的英文名为Libratus,在拉丁语中是“平衡及有力”的意思。这个德州扑克的AI程序由卡内基梅隆大学的托马斯·桑德霍姆教授和博士生诺姆·布朗开发。 许朝军承认,自己虽然打了很多比赛,但仍然会受到情绪的影响。桑德霍姆教授有时会在选手身后观战,这时,许朝军的打法就会变得激进,他会跟着冷扑大师一轮轮加注,最终输掉牌局。 “人类在打牌时会有马脚,而且随着时间推移,体力和脑力都会跟不上,但冷扑大师完全不会。‘他’的确是一个非常强悍的对手。” 但德州扑克也给机器提出了全新的挑战。相比围棋它更加难以掌握,因为它是“非完整信息博弈”。 在围棋中,双方都能够看到彼此的走法,棋手只需要分析摆在明面上的信息,再想出策略就可以应对。但在不了解对方底牌的“非完整信息博弈”中,德州扑克的选手唯一知道的是自己的底牌,而对方的底牌、每一次公共牌的开牌情况、对手的反应都是未知的,不同要素的组合会引发天量的算计结果。虽然每一局德州扑克的决策点是10的160次方,少于围棋的10的170次方,但由于信息不透明,人工智能系统必须应对隐藏的信息,计算的数量和难度实际上都有所增加。 扑克牌最终需要达到的是“纳什均衡”状态,即“非合作博弈均衡”。在德州扑克中,牌手能够知道的只有底牌和已经放在桌上的公共牌,他要做的是猜测对手可能作出的决策,再据此选择自己的最优策略,使自己的利益最大化。在某种情况下,无论是牌手还是对手都不能通过单方面改变决定而增加自己的收益,这就是达到了纳什均衡的状态。 冷扑大师似乎仔细研究和掌握了博弈论和纳什均衡。它能直接从对手处获取信息,通过对方的失败来完善自己的战略,与“他”对战,是一个实时动态的过程。在和中国龙之队比赛之前,冷扑大师曾与美国队对战,当时参赛的一位选手Dong Kim就表示,冷扑大师好像知道他的底牌。在今年1月于美国匹兹堡举行的这场比赛中,冷扑大师与4个职业玩家打了12万手牌,最后赢走了接近总数的筹码。 “‘他’会根据对手或强悍或保守的牌风调整自己的策略,如果对手强势,有好牌的时候‘他’往往会fold(弃牌),但一旦对手弱势,冷扑大师往往会在河牌阶段加注,甚至all-in。”许朝军也说。 更可怕的是,冷扑大师甚至学会了人类比较擅长的“诈唬”技巧——这是德扑比赛中最常用的一种战术,即在没有好牌时也会虚张声势,通过加大押注甚至all-in的方法让对手弃牌。 人类在诈唬时,除了分析对手的牌力,还会察言观色,如果对手是个保守的人,或流露出紧张的情绪,诈唬一般能收到成效。但冷扑大师的诈唬纯粹基于计算,只要达到纳什均衡的状态,冷扑大师就会加注。“这是算法自然而然的结果,并非事前程序的设定。”桑德霍姆教授对《财经界》说。 “‘他’有20%的时候表现非常激进, 常常会在河牌圈无缘无故超池下注,通过诈唬引起对手情绪的波动。在这个时候,人类绝对不能比‘他’更激进,不然通常会输。”通过这5天的比赛,许朝军对冷扑大师”有时显得不合常理的风格已有了一定了解。 但如果再跟冷扑大师比赛一场,人类会赢吗?据桑德霍姆教授透露,这次和龙之队的比赛,冷扑大师只是启动了默认程序,能够让其更进一步升级的“自我强化”模块还没有付诸使用呢。 |