在动态博弈中,逆推归纳法是求解纳什均衡的有效方法,但值得注意的是,逆推归纳法只有在博弈问题的基本信息完全且完备的条件下,才可以发挥作用。即每一个博弈方都拥有其他博弈方的特征、策略及得益函数等方面的准确信息,且后行动的博弈方可以观测到先行动的博弈方的行动。然而,现实中这样的条件很难达到,尽管这些关于博弈信息的苛刻条件均能达到,逆推归纳法也不能分析比较复杂的动态博弈。由于逆推归纳法是从动态博弈的最后阶段开始对每种可能路径进行比较,因此适用范围是人们有能力进行比较判断的选择路径数量,包括数量不大的离散策略,或者有连续得益函数的连续分布策略,所以很多复杂且真实存在的博弈模型不得不被简化分析,否则无法分析。另外,在两条路径利益相同的情况时,逆推归纳法也会发生选择困难,无法确定唯一的最优路径,过程会在这里中断。逆推归纳法对博弈方的理性要求非常高,不仅要求所有博弈方都有高度的理性,不允许犯任何错误,而且要求所有博弈方相互了解和信任对方的理性,对理性有相同的理解,或进一步有“理性的共同知识”,这是很难实现的。如果博弈方出现了非理性的偏差,情况会发生怎样的变化?
下面我们以一个三阶段的动态博弈模型为例,展示博弈方可能会出现的非理性行为以及导致的结果。
如图6-7所示,这是一个简单的动态博弈模型,具有三阶段博弈行动,且由博弈方1先进行行动。应用逆推归纳法,从最后一个阶段开始,通过对各级子博弈进行搜寻,可得最优博弈路径:博弈方1在第一阶段选择L,博弈即结束。然而,若存在博弈方产生行为偏差,即非完全理智,不妨假设博弈方1在第一轮选择了R,则此时博弈的结果会产生什么变化呢?
图6-7 三阶段动态博弈模型的非理性行为及后果
如果接下来博弈双方仍然严格按照“理智”的定义(即个人得益最大化来进行决策)进行决策,那么博弈方2将选择N,博弈方1将选择T,本场博弈以双方博弈分别为单位1和单位3结束。但是,在博弈方1选择了R以后,博弈方2还能相信他的行为是理智的吗?很有可能,博弈方2会为了避免博弈方1再次失去理智而导致自己利益受到更大损害,而直接于第二轮选择M,让博弈终止。
分析博弈方1的非理性行为偏差到底是怎样产生的,一种可能是随机性的偶然行为误差使得博弈方1错误选择了行动R,这是一种解释。另外还存在着这样一种可能,即博弈方1极其聪明地故意选择了R,因为他希望利用博弈方2规避对手理智缺陷的心理,令博弈方2选择M,从而增大自己的得益,可以从得益单位2增长至单位3。如果是这种情况,博弈方1不仅没有偏离理性人的原则,而是更加“聪明”了。
可见,对于不同的“犯错”原因,应该采取不同的有效对策,对行为偏差的性质判断,正是解决其引出的负面效应的根本基础。怎样理解对手的错误?如何分析和判断对方的错误原因,继而选择有利于自己的策略,需要寻找针对这类有限理性博弈的解决方法。
一、颤抖手均衡分析
为了理解有限理性的博弈方的偏离行为,泽尔腾在1975年提出“颤抖”概念。他将非均衡事件的发生解释为“颤抖”,即当博弈方突然发现一件不该发生的事件发生时(此时博弈偏离均衡路径),他将此事件的发生归结为某一其他博弈方的非蓄意错误。但是,当某博弈方为了扩大自身利益,而故意做出的非理性行为,则不能理解为“颤抖”。
在处理有限理性下的动态博弈时,我们不仅需要寻找其纳什均衡,而且由于博弈方随时可能产生理性偏差,所以希望在以微小的概率产生偏差时,该纳什均衡仍是双方最好的选择,这便引出了“颤抖手均衡”的概念。
规范起见,我们给出“颤抖手均衡”的定义。
定义6.3 对于一个给定的博弈以及该博弈的一个策略组合,当且仅当任何博弈方以非常微小的概率产生任何行为偏差均不会影响其他博弈方的策略选择(即其他博弈方的策略仍是能为其提供最大得益期望)时,该策略组合为这个博弈的一个“颤抖手均衡”。
那么如何判别一个纳什均衡是“颤抖手均衡”?现对一个简单的动态博弈模型(如图6-8所示)进行策略均衡分析,得到分析颤抖手均衡的一般方法。
图6-8
为方便分析,将本扩展型博弈转化为由得益矩阵表示,如图6-9所示:
图6-9
从博弈矩阵中寻找纳什均衡,运用划线法可以得到,此博弈有两个纯策略纳什均衡,策略组合{D,L}和{U,R}都是纳什均衡。然而,这两个纳什均衡中,只有一个是稳定的均衡状态。事实上,{U,R}是一个“颤抖手均衡”,而{D,L}并不是。
我们首先分析纳什均衡{U,R},分别分析博弈方1和博弈方2的得益情况。分析博弈方1采取行为规避博弈方2的行为偏差的结果,可以见图6-10所示:
图6-10
对图6-10作出如下说明:
(1)博弈方1的采取行动表现为其决策由U改为D;
(2)博弈方2的行为偏差表现为其决策由R变为L;
(3)p2表示博弈方2产生行为偏差的概率;
(4)考察的得益差为博弈方1采取行动比不采取行动获得的收益增量(为负则表示损失);
(5)当得益差期望为正时,说明采取行动是有益的;更进一步来说,若p2取较小数值时得益差期望为正,说明采取行动是必要的。
由图6-10可以直观得到,博弈方1的得益差期望为:
该期望为正的条件为:
分析博弈方2采取行为规避博弈方1的行为偏差的结果,如图6-11所示:
图6-11
同样对图6-11作出如下说明:
(1)博弈方2的采取行动表现为其决策由R改为L;
(2)博弈方1的行为偏差表现为其决策由U变为D;
(3)p1表示博弈方1产生行为偏差的概率;
(4)考察的得益差为博弈方2采取行动比不采取行动获得的收益增量(为负则表示损失);
(5)当得益差期望为正时,说明采取行动是有益的;更进一步来说,若p1取较小数值时得益差期望为正,说明采取行动是必要的。
由图6-11可知,博弈方2的得益差期望为:
该期望为正的条件为:
把博弈方1和博弈方2的得益情况分析综合起来,博弈双方分别在对方以大于50%的概率下产生行为偏差时,采取避险行为才会带来正效应,也即当对方以小概率产生非理性行为并不影响自身策略的最优性,这满足了“颤抖”的稳定性要求,所以纳什均衡{U,R}为颤抖手均衡。
使用同样的方法来分析纳什均衡{D,L}。
博弈方1采取行为规避博弈方2的行为偏差的结果,如图6-12所示:
图6-12
博弈方1的得益差期望为:E1=0×(1-p2)+4×p2,且期望恒为正。
博弈方2采取行为规避博弈方1的行为偏差的结果,如图6-13所示:
图6-13
由图6-13得到,博弈方2的得益差期望为:
博弈方2的期望为正的条件为:
此时博弈方1的得益差始终为正,即无论如何博弈方1改变策略一定能为自己带来正效应,所以纳什均衡{D,L}在有限理性下不具有稳定性,不满足“颤抖手均衡”对每个博弈方在对方小概率偏差下保持最优策略稳定性的要求,不属于“颤抖手均衡”。
但是,当我们将以上的得益矩阵稍加改动成为图6-14的情形时,纳什均衡{D,L}就会变成“颤抖手均衡”。
图6-14
在图6-14的情况下,博弈方1采取行为规避博弈方2的行为偏差的结果变为如图6-15所示的情形:
图6-15
这时,博弈方1的得益差期望为:E1=-1×(1-p2)+4×p2,并不是非恒为正的情况,且该期望为正的条件为:p2>20%,仍是一个很大的概率。
纳什均衡{D,L}就满足“颤抖手均衡”的条件。
结合实例分析,我们已介绍一种在有限理性下判别纳什均衡是否为“颤抖手均衡”的方法,下面对操作步骤进行简要归纳:
第一步:分析各博弈方采取行为规避其他博弈方行为偏差的关于策略组合和得益的结果,并将以上结果制图列出。
第二步:计算出各博弈方的得益差期望,以及期望取正的概率条件。
第三步:判别是否对于所有博弈方,均满足小概率下保持最优稳定性的要求,如果能够,即可判定“颤抖手均衡”。
此外,“颤抖手均衡”不仅可以应用于动态博弈,还可以应用于讨论分析更复杂的博弈模型。
二、Van Damme博弈Van
Damme发现了“颤抖手均衡”方法的不足,在1989年设计了Van Damme博弈模型,并且给出了另一种理解和处理有限理性问题的方法。我们将“颤抖手均衡”方法应用于Van Damme博弈模型中。如图6-16所示,Van Damme模型可被看作是一个动态博弈和一个简单静态博弈的复合。此模型决策进行的步骤是:先由博弈方1进行决策,若选择U,博弈以双方得益均为单位2结束;如果博弈方1选择R,则博弈进入静态阶段,由博弈方1和博弈方2同时进行决策。
图6-16 Van Damme博弈
首先寻找本博弈的纳什均衡。对于第二阶段的静态博弈,直观可见有两个纯策略纳什均衡,即{B,C}及{A,D},以及一个混合策略纳什均衡,即,在这里我们只关心纯策略均衡。将静态博弈的纳什均衡看作是第一阶段动态博弈的子博弈均衡,由于决策组合{B,C}为博弈方1提供的收益小于路径U,{A,D}为博弈方1提供的收益大于路径U,运用逆推归纳法分析,最终得到整个博弈模型的最优路径为{UB,C}和{RA,D}。
下面分别讨论这两条最优路径的稳定性,即是否为“颤抖手均衡”。为了讨论方便起见,将复合博弈模型转化为得益矩阵表示的策略模型,如图6-17所示。事实上,博弈方1的策略U包含了两项策略UA、UB,但由于它们带来的收益相同,便不再区分。
运用前面介绍的“颤抖手均衡”分析方法,首先分析纳什均衡{RA,D}。
博弈方1采取行为规避博弈方2的行为偏差的结果,如图6-18所示。
图6-17
图6-18
对于两种不同的避险行动,博弈方1的得益差期望分别为:
E1{RA→U}=-1×(1-p2)+2×p2,该期望为正的条件为:p2>33%。
E1{RA→RB}=-3×(1-p2)-1×p2,该期望为正的条件为:p2>75%。
博弈方2采取行为规避博弈方1的行为偏差的结果,可用图6-19表示:
图6-19
博弈方2的得益差期望为:
该期望为正的条件为:
综上分析,博弈双方均在对方以小概率发生行为偏差时保持决策最优稳定性,所以纳什均衡{RA,D}为“颤抖手均衡”。
对于纳什均衡{UB,C},运用“颤抖手均衡”分析方法,发现这种解释有问题,方法可能失效了。
博弈方1采取行为规避博弈方2的行为偏差的结果,可以用图6-20表示。
图6-20
对于两种不同的避险行动,博弈方1的得益差期望分别为:
E1{U→RA}=-2×(1-p2)+1×p2,该期望为正的条件为:p2>67%。
E1{U→RB}=-1×(1-p2)-2×p2,恒为负。
博弈方2采取行为规避博弈方1的行为偏差的结果,可以用图6-21表示:
图6-21
博弈方2的得益差期望为:
所以,期望为正的条件只需:
综上对于纳什均衡{UB,C}的分析,就博弈方1采取行为规避博弈方2的偏差这个方向来说,博弈方1的策略选择是具有稳定性的;然而,对于博弈方2采取行为规避博弈方1的偏差这个方向,由于得益差期望为正的条件为一个比例不等式,任何大于0的偏差概率都会导致最终正的得益差,所以已不适用于常规的“颤抖手均衡”判别方法。这种情形可以认为是博弈方故意犯错,“颤抖手均衡”的方法不适合这种情况的判别和分析。
针对故意犯错的情况,Van Damme在1989年给出了另一种理解和处理有限理性问题的方法,称为“顺推归纳法”。
根据博弈方前面阶段的行为特点,特别是有意偏离均衡路径的行为,分析推断博弈方的思路和想法,为后面阶段的博弈提供策略选择的依据,这种分析方法称为“顺推归纳法”,主要是针对博弈方故意偏离子博弈完美纳什均衡。
三、蜈蚣博弈
动态博弈的复杂性,远比我们掌握的分析方法要广泛得多。Rosenthalzai(1981)提出了一个动态博弈,如图6-22所示,从博弈的表示上看像一只蜈蚣,因此得名“蜈蚣博弈”。
这是两个博弈方轮流出策、多阶段的动态博弈,有198个阶段,数组中前一个数字是博弈方1的得益,后一个是博弈方2的得益。
图6-22 蜈蚣博弈
运用逆推归纳法分析,对于完全理性人的情况,逆推到第一阶段,没有开始就结束了。蜈蚣博弈的经典在于,大量的实验证明理论的预测和实验的结果是不相符合的。
因为博弈中有潜在的合作倾向,但并不是一定会合作到最后一个阶段。逆推归纳法或许在某个时刻发挥作用。蜈蚣博弈的长短对合作的可能性有很大的影响,一般长度与合作可能性呈正比。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。