第十三章 混合策略
上帝不会扔骰子。
—[美]阿尔伯特•爱因斯坦
在人类的进化过程中,因为我们不必懂得概率,所以也就没有足够的诱因来发展出了解概率的能力!人类不是被设计来理解事物的,我们只是被设计来求生和繁衍后代。
—[美]纳西姆•塔勒布的《随机致富的傻瓜》
过去的历史决定的是舞台,最终演出效果还要看演员发挥。
—丁利的《理性、进化与均衡—博弈论解概念及其基础》
本章指引:通过前几章的介绍,我们已经熟悉了纯策略的纳什均衡,但是如果一个博弈没有纯策略的纳什均衡,我们又该如何解决呢?你可能会问,什么博弈没有纯策略的纳什均衡呢?比如,当我们在玩石头、剪子、布或者划拳的时候,我们很难找到一个纯策略的纳什均衡,因为无论自己选择什么策略,对方总会有一个可以胜过自己的策略(否则游戏就失去了意义)。所以根据我们平时玩游戏的经验,就是随意出一个而已,其实这就是混合策略。在这一章中,我们可以学到混合策略纳什均衡的概念,掌握均衡策略纳什均衡的求解方法。并看到混合纳什均衡在现实中的应用。深入思考混合策略,有利于我们更深一步地理解均衡的意义,并且学会在生活中利用混合策略谋取利益或者减少损失。
纳什均衡分为两种,如果一个策略规定参与者在每一个给定信息的情况下只选择一种特定的行动,我们称该策略为“纯策略”。相反,如果一个策略规定参与者在给定信息情况下以某种概率分布随机地选择不同的行动,我们就称该策略为混合策略。
混合策略是对每个纯策略分配一个概率而形成的策略。混合策略允许参与者随机选择一个纯策略。因为概率是连续的,所以即使策略集合是有限的,也会有无限多个混合策略。当然,每个纯策略其实都是一个“退化”的混合策略,某一特定纯策略的概率为1,其他的则为0。完全混合策略对每个纯策略都分配了一个不为零的概率。
奥林匹克运动会中随机药物检测“群体”由比赛运动员和国际奥林匹克委员会(IOC)组成。双方的直接相互作用来自两方面,一方面是运动员之间的相互作用,他们需要作出在训练安排中和比赛前是否服用禁药的决策;另一方面是运动员与IOC之间的相互作用,后者需要维护运动的声誉。“理性策略”的应用需要运动员将获胜的机会以及如果服用了兴奋剂之后被逮到的机会之间进行比较而作出决策。类似的,IOC也会根据检测成本和清白声誉的价值而制定药物检测的程序和相应的惩罚措施。双方博弈的结果是IOC随机抽检,一些服药的运动员幸运地逃脱了,一些运气没那么好的运动员被发现了。
“石头、剪子、布”的起源有四种说法,大多数人认同中国起源说,也有人认为它起源于日本、非洲或者爱尔兰。根据史料记载,这个游戏很可能是起源于中国,然后传到日本、韩国、欧洲等地。中国从汉代就有猜拳游戏,而其他国家都不具备产生这种游戏的土壤和相关历史。“石头、剪子、布”作为猜拳的一种,根据明人谢肇浙所撰的《五杂俎》一书,猜拳的传统可以追溯到汉朝的手势令。明李日华《六研斋笔记》载云:“俗饮,以手指屈伸相搏,谓之豁拳,又名豁指头。”在明清小说中,相关记载更多。《红楼梦》第六十三回写道:“彼此有了三分酒,便猜拳赢唱小曲儿。”《水浒传》第一百零九回写道:“猜拳豁指头,大碗价吃酒。”清朝人赵翼有诗云:“老拳轰拇阵,谜语斗阄戏。”
根据博弈论,最优玩法其实就是一种随机的选择,因此,当排除心理因素后,这是一个简单并且直观的游戏,就如同和计算机玩一样。但是,这里所说的“最优”是指不存在有比期望的随机概率更好的玩法。然而,对手如果不是采用“最优”策略,而是采用某种“次优”策略的话,采用随机玩法并不一定是最好的玩法。事实上,如果对手是人或者非随机程序的话,那么几乎可以肯定他采用的是某种“次优”策略,这种情况下,针对对手的弱点可以设计出一个更好的策略。基于这种思路而设计的Roshambot计算机程序,轻松击败了人类玩家(甚至包括它的开发者Perry Friedman,他曾经在2001年8月击败7名对手,其中包括前世界扑克大赛冠军Phil Hellmuth,并赢得800美元的奖金)。阿尔伯塔大学的扑克选手Darse Billings组织了一个Roshambot程序大赛,希望能够通过这种活动研究这些非随机事件的概率,以及它们在计算机游戏中的其他各种应用(例如,在扑克游戏中,推测对手的各种非随机出牌模式是游戏过程中的一个重要策略)。
真正的石头、剪子、布的比赛是一个有趣的心理学较量。石头、剪子、布的策略是随机地选一个,但是人类不能达到真正随机,所以比赛的技术在于利用对手的非随机性。某些有经验的选手能连续取得比赛胜利,证明了技术能影响比赛结果。众所周知,在打扑克、打麻将的时候,经常出现刚刚明白规则的新手第一次玩就赢了身经百战的老手的现象。在我们各地对这种普遍的现象也有熟语说明。这到底是怎么回事呢?这真的是像熟语说的“臭手摸好牌”?其实不是这样的,这是个混合策略的问题。新手因为刚刚理解规则,对游戏的技巧一无所知。所以他的策略有着很强的不可预测性,而老手因为经常打牌,所以他的手段和策略已经变得比较纯熟,易于预测。就像我们很容易预测一个正常人的动机,但是很难预测一个疯子的行为。
总之,当你的策略变得随机,对方就没有规律可以研究,那么这个博弈就进入了一个混合策略纳什均衡。
在足球比赛中,在比赛必须分出胜负的情况下(例如各种一场决胜负的杯赛),如果双方在经过90分钟激战和加时赛(有时不进行加时赛)仍然无法分出胜负,采取的是以互罚点球决胜负的残酷方法,这就称为点球大战。
点球大战开始后,双方各自先确定本队罚点球的球员顺序,然后双方依确定好的顺序将各自罚点球的前5名球员派出参加第1轮的点球互罚。5轮之后如果分出了胜负,那么点球大战结束,全场比赛结束;假如5轮过后双方仍为平手,那么就接着进行点球互罚,双方依次派出1名球员罚点球,直到分出胜负为止。
在每一次射门时,攻方的策略是:攻左边,或攻右边。守方的策略是:守左边,或守右边(以守方的方向为准)(见表13.1)。
表13.1 点球大战
不难看出,在这个博弈中,以上的4个结局都不是纳什均衡,也就是说这个博弈并没有一个纯策略的纳什均衡,只有一个混合策略的纳什均衡。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。