(姚·尼亚柯(Yaw Nyarko)和安德鲁·肖特(Andrew Schotter)的原文“An Experimental Study of Belief Learning using Elicited Beliefs”正式载于Econometrica,Vol.70,No.3(May,2002),971-1005。)姚·尼亚柯,安德鲁·肖特 摘 要:此篇论文考察信念学习。不像其他研究者受制于信念不可观测,只能用可观测的替代物来近似表征信念,这里使用一种信念诱导技术(elicitation procedure,即恰当的记分规则),直接诱导出被试的信念。采用该技术就能使我们更直接地检验这样的命题:在某种意义上,人们行为过程是与信念学习相一致的(people behave in a manner consistent with belief learning)。我们发现的情形是有趣的:首先,在被试趋于“信念学习”的情况下,他们所用的信念正是可以从他们那里诱导出来的“陈述信念”(stated beliefs),而非虚拟博弈或古诺模型所给他们硬安上去的“经验信念”(empirical beliefs)。其次,我们给出的定性和定量的证据表明,被试的“陈述信念”与通常用作信念表征的“经验”或历史信念差异极大。再次,如果受制于信念的不可观测性,而用可观测的替代表征来推断我们一直认为不可观测的变量的话,那么,信念诱导技术就能够发现该参数值被推断误导的程度。通过将此前不可观测的信念转换成可观测,可以直接看出新信息引入后的参数估计变化情况。再一次地,我们证明这些差异将会很大。最后,将这里的实验数据分别用于强化学习、EWA和陈述信念学习进行模型估计时,可以看出陈述信念学习模型优于强化学习和EWA模型。
关键词:信念学习,博弈论,实验经济学
1 引 言
近年来,博弈论学者和实验经济学家们对局中人在简单的(2×2矩阵)重复博弈中如何学习的问题,倾注了大量心血。而另一些研究者,如罗斯、埃里夫(Roth,Erev,1998)和亚瑟(Arthur,1991),关注的是强化学习(reinforcement learning)(强化学习的确是心理学文献的派生(Thorndike,1898;Bush,Mosteller,1955),它主要一致的主题(main unifying theme)是:过去成功的行为在将来会被更频繁地加以运用的“功效定律”(law of effect)。),这是指决策者回顾自己过去的经历,看其中哪些能获得成功。其他人,张和弗里德曼(Cheung,Friedman,1997),波莱姆和加麦尔(Boylan,El-Gamal,1993),玛克赫吉(Mookherjee,1994)和索弗(Sopher,1997)(索弗和玛克赫吉实际调查了信念和强化学习(模型)。),兰金、范修克和巴特利奥(Rankin,Vanhuyck,Battalio,1997),以及弗登伯格和莱温妮(Fudenberg,Levine,1998)则关注信念学习(belief learning),即决策者依过去的经历来更新有关对手将采取什么行动的信念。还有其他人,凯默瑞和胡(Camerer,ho,1999)则是从这两类模型(以及其他工作)中提取最主要的特征进行综合,该方法已经被证明是相当成功的。
尽管如此,所有这些研究都假设:虽然个体过去经历的行动和支付都是可观测的,但信念不可观测,因而信念必须用其他(可观测的)予以替代表征与推断。例如,在最通常的信念学习模型——古诺和虚拟博弈模型中,信念或取为对手前期的行动,或取对手先前行动的平均。一些作者也使用我们接下来所说的γ-加权经验信念(γ-weighted empirical beliefs)或简单经验信念(simply empirical beliefs)。其中以往行动的加权平均被作为信念的替代表征,权重以几何级数等比速率γ下降(见,Rankin,et al.,1997,Cheung,Friedman,1997),弗登伯格和莱温妮(Fudenberg,Levine,1998)的平滑虚拟博弈(smooth fictitious play)。本文将从不同角度关注虚拟博弈模型,因为该模型在实验和理论领域的广泛应用,使它们形成了测定实验结果的一条自然基线。
本文给出了一系列两人支付之和为常数的“常和”实验结果(two-person constant-sum game experiments,下简称为“常和”——译者注),实验中采用一种恰当的记分规则直接诱导出被试的信念,该记分规则为被试报告其真实信念提供了激励。我们称这些信念为被试“陈述的”信念(stated beliefs)。因此,我们认为这项工作首次展现了在信念学习中所有相关变量均可观测的研究,即,运用诱导信念(elicited beliefs)来研究信念学习。(我们感谢Jason Shachat为我们提供的实验程序。)(Shachat (1996),Noussair和Faith(1997)的程序都可以支持混合策略的使用,但都不支持可观察信念。)(其他人大多在公共物品问题的研究中进行了信念诱导,如Offerman(1997);Offerman,Sonnemans,Schram(1996);还有McKelvey,page(1990)。同时,这篇论文试图将这种信念诱导程序与信念学习的研究结合起来。)
根据最初的研究计划我们提出三个问题:
问题1:虚拟博弈信念〖或更一般的加权平均经验信念(weighted empirical beliefs)〗对于陈述信念是一个好的替代表征(a good proxy for stated beliefs)吗?
问题2:如果实验被试做出最优反应,那么他们对什么信念做出最优反应?例如,他们是对陈述信念做最优反应呢,还是对其经验信念(empirical beliefs)做最优反应呢?
问题3:一如实验学习的文献让我们相信的:如果被试行为能用信念学习的逻辑模型框架(a logistic belief learning model)予以最佳描述,那么,在这样一个模型框架中应用不同的信念时,哪种信念能为我们的数据提供最优拟合。
我们的发现具有重要的启迪意义(quite revealing)。
首先,关于“形成虚拟博弈或经验信念的过程,表征了被试(或一般的说人们)如何形成他们真实信念或陈述信念(their true or stated beliefs)”的假设,几乎无法得到实验支持。虚拟博弈信念限定了一条非常稳定的时间路径,但实际上被试的陈述信念的跨期变化非常大。
其次,对问题2的研究表明,被试最常做出最优反应的恰恰是针对陈述信念的。更明确地说,在实验1中,被试的策略选择在近75%的时间里是与他们对陈述信念的最优反应一致的,而关于古诺和虚拟博弈信念(Cournot and Fictitious play beliefs),该百分率仅为55%左右。当然,需要指出的是,即使随机选择也有50%的比例是与最优反应相一致的。
具有讽刺意味的是,必须指出,尽管被试对其陈述信念作出了最优反应,但陈述信念对于实际预测对手的行动并不比简单的虚拟博弈信念更准确。因此,仍有的困惑是为何被试坚持他们自己的陈述信念而不切换(switching)呢?但是,这两种(陈述与简单虚拟博弈——译者注)信念的预测精度差异非常小,尽管在统计上是显著的(见第3.1.3小节)。在3.13小节我们将表明,这也许和我们度量预测精度所使用的计量方法有重大关系,采用其他合理的计量方法,陈述信念(关于对手行动的信念——译者注)的预测的确比虚拟博弈信念的预测更好。
最后,研究问题3时,我们用Logit模型来预测个体的选择行为[Logit模型不要求被解释变量Y服从正态分布,而只要分布函数离散地服从标准的Logistic函数。事件发生与否,是否属于某类范畴等二值状态,其模型称为二项Logit模型(Binary Logit Model);对多值离散状态(polytomous),如属于“满意、一般、不满意”等定序尺度的哪一类,其模型为多元Logit模型(Multinomial Logit Model)——译者注],以比较三个信念形成模型——古诺、虚拟博弈和陈述(Cournot, Fictitious play,and Stated),看哪一个能对实验数据做出最好的解释。结果发现该Logit模型在用陈述信念模型解释选择行为数据时,要比其他信念形成模型拟合得更好。
我们的结论倾向于支持这一观点,即在二人对局的信念学习中,人们使用的是他们迄今为止不可观测的陈述信念,而不是文献中通常提及的虚拟博弈信念,也不是其他各种各样γ-加权平均经验信念(经验信念),该发现正是本文的主要贡献之一。而且,因为能够用诱导方法直接测量信念,并且能将其与通常文献采用的各种经验信念加以比较,所以我们的诱导技术设计提供了一套完善的实验设置。对仅由可测行动变量导出的信念进行参数估计,无法知道与那些用真实信念或至少是陈述信念估计的结果究竟有多大偏差,这里提供的实验设置,正好可以考察参数估计的偏差。
对于使用陈述信念的一个可能批评是,陈述信念在实验室外难以获得,因此也就难以进行样本预测。然而值得注意的是,实际上存在种类广泛的调查数据,据此可诱导出关于各类经济变量的信念,所有这些都可用于像这里进行估计的信念学习模型。
我们的结果提示了许多额外的研究问题。例如,如果被试的最优反应与其陈述信念的一致性要优于与经验信念的一致性,那么是否因为在实验中对其诱导而使被试们在行动时顾及自己是如何陈述的呢?或是一如我们在基线实验中所为,采用对手不变的被试匹配,是否造成了我们所观察到的陈述信念的多样变化呢?(虚拟博弈信念调整是平滑过渡的——译者注)特别地,如果我们在每轮实验结束后都随机地匹配被试,那么经验信念是否更有助于预测被试的行为呢?这些关注引出了三个额外的问题:
问题4:当信念未被诱导时,被试的行为是不是就不一样了呢?是否这时标准虚拟博弈和经验信念模型对数据的拟合就会更好呢?
问题5:当被试随机配对时,他们的信念波动是否会变小,从而是否以更稳定的虚拟博弈信念作为最优反映的基础?
在回答了问题1至5之后,可以得出这样的结论:在一系列信念学习模型中,采用陈述信念的模型在组织和解释数据方面表现最优。因此,合乎逻辑的下一步工作可能就是比较该模型与其他模型——非信念学习模型,以发现哪一类模型对数据的拟合最佳。这就形成了问题6的提出与回答。
问题6:用实验数据估计Roth-Erev形式的强化学习模型、EWA模型和陈述信念这三种学习模型,与前两者相比陈述信念学习模型的拟合效果如何?
回答这些问题的工作表明可以继续支持前面所提出的推断。诱导技术看来并未造成被试特别顾及自己对信念的陈述;而且每轮随机匹配对被试行为的影响,即使有的话,这种影响也是微乎其微的。此外,陈述信念学习模型优于强化学习模型和EWA模型。
以下各部分内容的安排是:第2部分说明要实施的实验及设计,第3部分分析实验结果并将其与强化模型和EWA模型的结果进行对比,第4部分讨论实验的启示并给出若干结论。
2 实验设计和实验程序
2.1 实验设计
该实验于1997年秋季至2000年夏季在纽约大学C.V.Starr应用经济研究中心的经济学实验室中进行。(在本文的初稿中,我们报告了被试明确使用混合策略的四个附加实验结果。因这些实验结果并未在任何显著意义上改变本文结论,为节省篇幅起见,这里略去了相关讨论。有关这些实验详见尼亚柯和肖特(Nyarko,Schotter,2000a)。)实验的被试是从经济学系的本科生中招募的,并且花了一个半小时到两小时的时间向他们介绍实验。所有被试均未受过任何博弈论训练。实验中被试在不同的条件下与相同的对手进行了60次2×2博弈。实验报酬以实验币支付,可以以1pt.=0.05美元的兑换率兑换为美元。实验被试在实验阶段结束时平均大约获得15美元的报酬。他们只要来参加实验便可获得3美元的报酬。
我们希望它易于理解,决策求解不至于太复杂而难以计算(或学着推断);其次,我们也希望这是一个混合均衡,因为我们不希望均衡信念退化(degenerate,这里degenerate的大意是不会从混合策略变为纯策略——译者注)。该“常和”2×2阵提供了这些特征,因为2×2简单,参与者都能理解盘算。而且其均衡不仅受最佳反应动态理论支撑,也为mini-max定理所支持(决策树各支均有多种结果,例如取每支最大损失而后在各支间取min{}——译者注)。
进一步,2×2矩阵的重要特征是单位间隔——信念域很宽,在该信念域上的最优反应都一样。如本实验中,若陈述信念和经验信念预计对手将选“绿”的概率ρ∈[0.4,1],则这两种信念就导致被试的最优反应相同。这个最优反应函数掩盖了各信念模型间差异的观测,所以,如果我们的确观察到了显著统计差异,那么我们的结论将更具说服力。最后,由于我们的目的是研究学习行为,所以我们先让被试与固定对手进行重复,不过这里“重复博弈均衡”对参与者影响很明显,后一步,放松固定配对特征以检验随机匹配的影响。
本文采用的实验程序(在使用该实验程序时,只要他们愿意,被试均可在给定轮次采用确定的混合概率来选择混合策略。我们做了一些混合策略选择实验,结果详见尼亚柯和肖特(Nyarko,Schotter,2000a)。)由杰森·沙奇(Jason Shachat)和亚利桑那大学实验科学实验室慷慨相赠。(该实验的指导说明都被计算机程序化了,可以与作者联系,请他提供。)四个实验是由相同的2×2“常和”博弈在不同策略条件下进行的。实验1中,使用恰当的记分规则诱导出实验被试的信念。
为了考察问题4和问题5,我们进行实验2和实验3。在实验2中我们重复实验1,只不过没有诱导被试的信念。实验3则是在60轮配对中每一次都让被试随机组对,其他则与实验1相同。所有这些安排都告知了被试。最后,为了确认我们的结论与现存文献中的结论一致,我们进行一次“复制实验”,即实验4,不用信念诱导且随机配对的方式。
2.2 信念诱导
被试在每一轮选择纯策略之前,都要求在一张工作单上写下一个概率向量,表明自己关于对手使用每种纯策略可能性的信念或者说预测。(关于诱导程序的说明可见www.nyarko.com/papers.htm。)
当我们诱导出信念,我们便对被试进行如下奖励:首先,被试写下概率向量r=(rRed,rGreen),表示他关于对手使用红绿策略概率的信念(在说明中,r的报告值用[0,100]中的数字表示,所以我们把它们除以100从而得到概率。)。由于在实验中实际上仅有一个策略被使用,所以当被试i报告的信念向量为r,被试i的对手选“红”的时候,被试i的支付就是:
πRed=0.10-0.05[(1-rRed)2+(rGreen)2](1)
类似地,当对手选择“绿”策略时,被试i的支付是:
πGreen=0.10-0.05[(1-rGreen)2+(rRed)2] (2)
实验完成后,参与者可获得预报任务的相应报酬。
注意该报酬函数的含义。被试开始时有0.10美元,并陈述了一个信念向量r=(rRed,rGreen)。如果对手选“红”,那么被试将全部概率都押在红色上——他将获得全额收益。而被试仅仅指定了rRed则意味他或她犯了一个错误。为惩罚该错误,要从被试的0.10美元中减去(1-rRed)2。而且被试还必须因其为绿色策略所配置的rRed而受到惩罚,即从被试的0.10美元中再减去(rGreen)2。(对称地,若对手选择“绿”,则同理应用)最坏的可能是预测为某一纯策略,而对手却选了另一个纯策略,从而只有0支付(这也就解释了式中的归一化常数0.05)。容易证明这一报酬函数对被试显示他们关于对手行动的真实信念提供了激励。因此,说实话是最优的。
正如所有记分函数那样,虽然表露真实信念可以支付最大化,但仍有其他陈述信念的办法,使得在保证获得更高的最低收入上更加安全可靠。例如,等概率地报告每一策略将保证获得最大的最低报酬(见Camerer(1995)和Allen(1987)对这一点的讨论。)。如果被试是风险规避的,那么这样就是合适的。不过,如我们的数据所示,并无迹象表明被试使用了这种等概率陈述信念向量。
实验要确保被试因预测可获得的这一部分报酬与正在进行的对策输赢相比并不算很多。(事实上,实验1和3的预测部分所获得的最大收入仅为6美元,而相比之下博弈中的平均支付就为15美元)这里的担心在于如果预测得好而不是博弈得好就能获得更多报酬,那么此实验便有可能变成一个协调博弈,在这种协调博弈中,被试将有动机去协调他们的策略选择并重复采取任何特殊策略,以他们的博弈收入为代价来最大化其预测收入。再一次地,实验数据中没有发现协调博弈存在的证据。事实上,我们提供了充分的证据来支持这样一种观点:当被试选择他们的行动时,他确实是依据这些信念来选择的;而且他们的行动选择也没有被预测收益的相关考虑所扭曲,在这两层含义上,我们所诱导出的信念是真实的。
2.3 加权经验信念定义
给定任意在(-∞,∞)内取值的γ,采用张和弗里德曼(Cheung,Friedman,1997)的符号,我们定义参与人i的γ-加权经验信念(或简称为经验信念)为:
bjit+1=1t(aj)+;t-1—u=1γui1t-u(aj)—1+;t-1—u=1γui (3)
其中bjit+1是参与者i(在第t期所做的)关于对手将在t+1期选行动aj之可能的信念估计;1t(aj)为指标函数(indicator function)——若t期对手选的是aj则1t(aj)为1,否则为0;γui是针对t-u期对手行动aj观察值所赋的权重。虚拟博弈信念(fictitious play beliefs),以下简称虚拟信念,即上述γ=1的特例;古诺信念定义为参与者将对手上期行动赋概率1作为本期对手的行动信念,即(3)式中γ=0的特例。
由于只有两种行动,即可将诸行动信念赋值都用红色的行动的主观概率赋值来表示。令BSt和bt(γ)分别为参与者i在t期陈述的信念(stated beliefs)和γ-加权经验信念(其中t∈{1,…,T})。在均方差意义上使加权经验信念与陈述信念距离最短的γ值记为γ*,即minγ;T—t=1BSt-bt(γ)2的解,被试的γ*-加权经验信念相应为bt(γ*)。(构造经验信念γ*相当于定义一个信念的时间序列,该信念的时间序列采用被试将选择红色策略的狄利克雷先验概率(Dirichlet priors for the probability)进行贝叶斯估计。在此构造中,先验信念的权重赋值为0,而为实验中每个被试(选红色的行动)预置的初始权重为0.5(initialized at 0.5 for each subject)。显然,若被试行动用了不同的(小于1的正值)初始权重,被试可能获得对γ*的不同估计。其实,我们可以对每个被试的初始权重和先验信念分别进行(事后)的真实估计,而不是假定地对其赋予同样的初始值。尽管还可以进一步研究如何从被试行动的数据中估计狄利克雷先验概率(先验信念和初始权重),但这并不影响这里(模型和实验分析)结果的足够有效性。)
3 实验结果
3.1 基线实验1
通过回答最初推动本项研究的一系列问题,我们将构建对实验结果的讨论。首先报告基线实验(baseline experiment)1的结果;之后,讨论扩展的实验2和实验3。
3.1.1 问题1:经验信念对于陈述信念来说是一个好的替代物表征?
为考察陈述信念,γ-加权经验信念和虚拟信念之间的关系,展现基线实验1中被试的对手选红策略时,陈述信念、γ-加权经验信念和虚拟信念之差的绝对值(以下简称绝对差)分布直方图。在每个实验的第一、第二和第三个20轮中逐个计算被试的差异——即,把数据分为每期20轮的三个期间,每一期的信念绝对差列出一张柱形图,该图的数据是对每一轮陈述信念(关于对手选红策略的主观概率赋值记录)和虚拟信念差异绝对值、与我们计算出的γ-经验信念的差异绝对值,进行20轮的加总平均。最后,为了在个体水平上理解陈述信念与递推计算的虚拟信念这两个时间序列的差别,虽然这种时间序列在个体间肯定有差别,有一些并不那么极端(当然3号被试的陈述信念跳跃很大——译者注),但这张图仍然代表了陈述信念和虚拟信念之间的关系。
我们看到虽然虚拟信念很快就变得稳定了,但是陈述信念在实验的整体水平上却变化剧烈。这就不仅仅是一个典型的特例了(第3号单个被试的数据——译者注)。
若大多数陈述信念和虚拟信念接近一致,则应看到差异绝对值的直方图将会以较小的偏差收缩在0附近,且众数也应趋于0;若陈述信念和虚拟信念趋异,则大部分记录将会导致直方图散布得很开——表示大量不同程度或正或负的差异。
对于陈述信念和虚拟信念之间差异的绝对值为零的假设,我们并未发现支持证据。为看清这些直方图的特征(直方图本身是以单人20轮绝对差平均数据为基础,表示28个人在不同绝对差水平上的人数分布频数——译者注),我们计算了绝对差异的均值(图中水平重心——译者注)和中位数(与最大最小等差——译者注),以及基线实验分布中的四分位区间(the interquartile range)(按四分位差分布,这里取28人中第1/4处绝对差与第3/4处绝对差的间隔区间。)。总的来说:第一,选红策略的陈述信念和虚拟信念间绝对差的均值,从41—60轮的较低值0.242到21—40轮的高值0.254不等;第二,差值中位数则从41—60轮的低值0.237到21—40轮的高值0.254不等;第三,分布的四分位区间之下限从21—40轮的0.1554到1—20轮的0.2141(若分布几乎全聚在均值处,则第1/4的位置也在均值左侧一点点,故1—20轮的1/4点的位置更近均值——译者注)。四分位区间下界(1/4点的位置——译者注)明显大于0的事实意味着陈述信念异于虚拟信念。(可以看到这些数据的确很大,注意如果我们假设陈述信念和虚拟博弈信念是在独立同分布的[0,1]上抽取的,我们将获得近似的数据。特别的,如果x和y是 在独立同分布的[0,1]上的两个独立的随机变量,它们差额的绝对值的期望E[x-y]为0.33,而其分布的四分位差的下限为0.13。)
为了证明这些差异并不会随着时间推移而发生变化或减小,对3个20轮数据做了一组Kolmogorov-Smirnov检验,以测试这些绝对差的分布是否随时间发生变化,即这些绝对差分布在第一个20轮和最后一个20轮中是否是相同。结果发现无法拒绝“相同”假设。换言之,第一个20轮中的绝对差分布与最后一个20轮中的分布无显著差异。(在下面的结果中,D是Kolmogorov-Smirnov测验所定义的计算检验统计量(calculated test statistic)。在5%水平下D的关键值(critical value)为8。陈述信念vs经验信念:实验1,1—20轮vs 40—60轮,D=7;陈述信念vs γ*-经验信念:实验1,1—20轮vs 40—60轮,D=7。)
注意到这些γ*值(加权经验信念权重的最佳估计——译者注)大多聚集在1附近,偏差相对不大。由此引发如下有意思的讨论:加权经验信念的待定权重γ就是以距陈述信念最短值来定的,估计结果记为γ*,再代回信念形成模型式(3)就是经计量估计的加权经验信念形成模型。前面已经提到过,式(3)中γ为1时即为虚拟信念,所以表面上看虚拟信念较好地近似了估计加权信念时所用的陈述信念。但这并不是说拟合得很好,很显然,实际上经验信念权重估计值γ*是寻求γ以使得经验信念和陈述信念之间的差距最小的解,有些情况下该解可能接近1。判断绿色概率的陈述信念大致为两个端点的往复振波序列,拟合该序列的就是贯穿波幅中部的一条相对平稳的经验信念序列。这样仅有一个参数,虽然可能是我们所能得到的最好状态(满足距离平方和最小——译者注),但仍不够理想。
标示为γ*-经验信念柱形高度表示我们已估计的加权经验信念拟合值,因γ*值比较接近1故可认为是虚拟信念的计量估计。虽然γ*-经验信念和陈述信念之间的关系较虚拟信念和陈述信念之间的关系更为密切,但之前定性表述的所有结论在此依然成立。例如,γ*-经验信念与陈述信念绝对差直方图显示了与前面虚拟信念考察的相同特征,而且用Kolmogorov-Smirnov检验该绝对差是否会随时间趋于下降,检验结果也显示实验中任何两个20轮的绝对差分布对比无显著差异。
简而言之,按照这些描述性统计所示,三个20轮实验中陈述信念和虚拟信念显示了非常大的差异,而且也没有迹象显示经60轮之后这些差异会缩小。
即使虚拟信念对于真实或陈述信念来说并不是一个好的替代表征,但是,这并不意味着虚拟信念不是一个有用的模型,因为操作上重要的是这两套信念在每个(或大多数)时点上均指示要采取相同的最优反应行动。在实验的2×2博弈中这是很有可能的,因为,正如我们前面所论,存在一个较宽的信念区间,依该区间信念会导致相同的最优反应,因此可能存在一个较大的范围其中虚拟信念不同于陈述信念,但不同信念却导致了相同行动。例如所有三个20轮实验中,就“行”参与方(即2×2阵中的行——译者注)而言,所有认为其对手将以大于0.4的概率选绿策略的信念,都将引导他们将选绿作为最优反应。对于“列”情况则正好相反,所有认为其对手将以大于0.4的概率选绿的信念,都将导致“列”依概率1选红。因此,如果陈述和虚拟博弈这两者所作的大量的信念调整都落在适当的范围以内的话(60%的范围显然很大,但要r≥0.4——译者注),那么无论这两种信念多么不同,关于可描述的行动,它们在观测上也相等的。(设行参与方关于对手采取G策略的估计概率为r,自己分别取G、R策略的收益支付为πG=3r+3和πR=5-2r。若πG≥πR则最佳反应选G,由此,πG≥πR,可得r≥0.4——译者注)
取针对虚拟信念的最佳反应时间序列,与针对陈述信念的最佳反应序列对比,我们容易在个体水平上检验这种推测(this conjecture,尽管两种信念在一定范围内差异很大,但分别针对两种信念所作出的行动在观测上也可能是一样的——译者注)。为此我们构造了一个“计数指标”(counting index),其定义如下:每个实验的每一轮有N个被试;每个被试在每轮决策时都有一个陈述信念和一个虚拟信念。此外,如果他们寻求收益最大化,他们将对指导自己作出纯策略方案的信念做出最优反应,除非他们持有均衡信念(equilibrium beliefs)。N个被试中,虚拟博弈信念下最优反应与陈述信念下的最优反应相同的决策个数作为计数指标。因此,若在策略上虚拟信念和陈述信念是一致的话,则两者在每轮都将导致相同的行动,我们也将观察到所有这N个被试都选择相同的行动;若两个信念总是导向不同的最优反应,则计数指数应为0。特别地,该计数指数就是这两种信念时间序列之最优反应间接近程度的量度。
观察“stated-fictitious play”——描述虚拟博弈和陈述两个信念的最优反应之差的曲线,可以看出所有的信念时间序列之最优反应都有些相似。平均地说,在实验1的任一轮中,大约65%的陈述信念和虚拟信念给出了相同的行为,也就是说有35%的行为差异。随着时间推移这些差异也并未消失,所以在这一时段上也没有出现太多的学习行为。
应该指出的是,上面讨论的一致性仅仅是理论推导的两种信念的最佳反应的相似性,这种理论推导的相似性在被试的实际行为中有可能存在,也可能不存在。迄今为止还没有提到有关实际行为的事,这促使我们关注第二个问题。
3.1.2 问题2:如果被试可以做出最优反应,那么他们做出最优反应的对象是什么?
为研究被试的最佳反应行为,作如下考虑:根据对手曾采取过的行动按经验信念表达式(3)可以推出理论上的虚拟信念和古诺信念,给定式(1)(2)可以诱导出陈述信念。但是对任一个体在任一时刻,他们究竟是针对上述三种信念的哪一个进行最优反应的呢?为此,我们可以取被试策略选择与不同信念所引致的最优反应相符的次数。当被试所选策略与两个甚或三个(或者零个)信念相符时,则分别计算次数。
如你所见,当涉及最优反应行为时,陈述信念仍是最显著的信念。然而,注意到由于古诺信念与-信念两者通常都能预测相同的最优反应,所以-信念可以替代古诺信念。这是因为对于许多被试而言,取了接近0的值,而其恰好定义了古诺信念。)。这些数字表示被试的实际行动,与单一或多种信念所引致的最优反应行动相一致的次数。例如,沿左边3×3阵的对角线,即(古诺,古诺)、(虚拟博弈,虚拟博弈)及(陈述,陈述),列出的是实际行动与单一信念下最佳反应相符的次数。因此,被试的行动共有92次仅仅与古诺信念下的最优反应相符;67次仅仅与虚拟信念下的最优反应相符。对角线之外的元素,则表示被试的行动同时与两种信念下最优反应相一致的次数,如(古诺,陈述)表示被试实际采取的行动与古诺信念下的,与陈述信念下的最优反应都一样。被试的纯策略行动与三种信念下的最优反应都一致(或分别与每个信念下的都不同)也是可能的。例如,当三种信念都指示绿(或红)策略最佳时,被试的确选了绿(或红)。
注意到当实验被试做出最优反应时,他们更可能对他们的陈述信念做出最优反应,要么单单依据陈述信念要么联合另一个信念。例如,被试依陈述信念作出了800次最优反应(单独的302次加上分别与另两个联合的238次和260次),而符合虚拟博弈和古诺信念的仅分别为459次和462次。在实验1中这一点相当明显,只有陈述信念最优反应能够吻合(其他信念的最优反应都不能预报)的被试行动为302次,而相应虚拟信念和古诺信念的则仅分别为67次和92次。实验1中数据的总数为1680个(28个被试×60轮)。如果800加上472个可以用三种信念学习模型加以解释的数据,则共有1272次或75%的数据可用陈述信念模型予以解释(我们再次指出,如果策略选择是随机的,他们在一半的时间里将与对陈述信念的最优反应相一致。),而以虚拟博弈模型和古诺模型解释的比率均为大约55%。
归纳起来,被试都明显更多地对陈述信念做出最佳反应而不是古诺或虚拟信念。在某种程度上,该结果倾向于认可我们的信念诱导技术,因为看起来在填报准了马上就能获益实验中,我们让被试填报的对手策略的信念就是他们的行动依据。如果在以后的实验中采用这种计分规则,我们认为上述发现是非常重要的。
3.1.3 陈述信念预测对手行动的准确程度如何?
最后人们会问,就预测对手行动而言,是否陈述信念要比虚拟信念更好呢?更准确地说,由于我们的诱导方法是根据被试预测的准确性进行酬赏,所以我们会问:在每个时点上是否被试报告陈述信念要比拿虚拟信念来预报能获得更多的收入呢?有趣的是,在诱导被试信念的实验1与实验3中,答案都是否定的。尽管统计上是显著的,但差异并不大(双样本Wilcoxon rank-sum检验发现实验1(z=-3.93,p值=0.0001)和实验3(z=-2.25,p值=0.024)中支付样本在5%水平上有显著区别。)。平均起来,虚拟信念在预测对手行动上似乎比陈述信念做得更好。(预测好,在此表示为支付高。决策行动依2×2矩阵得到的支付为第1部分,但“陈述信念”数据换主试为被试递推计算的“虚拟信念”值,代入计算信念预报任务的支付为第2部分。两支付之和为总的收益——译者注)例如,在实验1以及实验3中,被试依陈述信念获得的平均支付分别为4.26美元和4.16美元,而如果他们改为报告虚拟信念的话,则收入分别为4.43美元和4.47美元。此外,在被试支付的配对比较中,实验1和实验3里的28名被试分别仅有11名和8名使用陈述信念比他们假设换成虚拟信念来报告时,得到较高的报酬。
应强调的是,我们指出被试以陈述信念作为他们的行为基础(要么选择一个最优反应纯策略,要么选择一个在下面将讨论的逻辑模型中正确的“平滑”策略),而事实上依虚拟信念预测对手行动平均说来更为准确,这两者并不矛盾。因为模型拟合度(goodness-of-fit)的高低,正是用模型是否能较好地预测被试自身的行动而不是预测其对手的行动来衡量的。
可能的困惑在于,如果存在其他更准确的信念,那么被试为何仍坚持使用他们的陈述信念?对这一问题存在许多可能的解释。解释之一是被试可能没有发现虚拟信念的显著优势(salient)。被试可用的预测规则有很多,虚拟博弈只是其中之一。可能被试并不单单关注这些信念,即便被试知道有(cognizant)虚拟博弈的预测规则,但他们仍相信自己能做得更好——他们可以遵循预感(hunches),这一预感使他们的信念在全范围调整,也使他们觉得这比简单的虚拟博弈更好。
另一种可能是行动者用某种我们未知的理论来选择行动,然后公布要如此行动的理由作为“陈述信念”。因此,行动引导和决定信念,这与经济学中被模型化的各种其他信念预期决定反应的途径正相反(我们感谢推荐人和审稿人的意见。)。这种信念可能是自身行为的良好模型,但却不能较好地预测对手的行为。当然,如果被试所用的理论是与最佳反应行为相结合的虚拟博弈预测的话,那么我们就有数据对该理论假设提出怀疑。因为如果被试确实关注虚拟博弈而以陈述信念作为自己行动的理由,则应发现他们选择的行动是对陈述信念和虚拟信念的最优反应,大量的情形是,行动乃是对陈述信念而非虚拟信念的最优反应。
对此困惑的另一解释涉及我们用来评估预测的记分规则。我们可以给某种预测规则打分——按照被试将其用于应对重复博弈中所预测的对手行动的绩效进行打分,当然被试采取的应对行动符合预测的最佳反应。亦即,对给定的预测规则,依此规则判断对手的行动并给出最佳应对的话,被试获得的各阶段平均支付作为该规则的得分。用这种记分规则,我们再次发现陈述信念优于虚拟信念。在实验1和实验3中,若用陈述信念决策获得的平均支付(依支付矩阵记每人每轮的支付)分别为4.19美元和4.11美元;若依虚拟信念决策的话,他们将获得4.15美元和4.06美元。此外,与被试进行配对比较,在实验1和实验3中,28个被试里分别有15个和17个人在使用陈述信念后比使用虚拟信念获得了更高的支付。
最后我们强调,的确陈述和虚拟博弈两种信念过程大致都比较合适,不过还是我们所记录的两者差异更重要,对此实际上还有很多工作要做——用统计学的概念评价拟合度。回忆一下,我们用来判断预测精度的规则正是由式(1)、式(2)计算的预报支付。注意到这是关于预报的二次式,且斜率增大,故扣罚额亦如此增大。不过,前面我们已经说明陈述信念波动起伏大,而虚拟信念则平缓,所以如果把式(1)、式(2)中的二次项去掉变成线性记分规则,便可发现陈述信念现在确实要比虚拟信念预测得更好(根据线性记分规则(the linear scoring rule),我们发现,在实验1中和实验3中,被试从他们的陈述信念中获得的平均支付分别为3.27美元和3.24美元,然而,如果他们给出的是虚拟博弈信念,他们的支付将分别是3.08美元和3.15美元。而且,使用线性记分规则对被试的支付进行配对比较,在实验1和实验3中,28个被试中分别有18个和13个人使用陈述信念比使用虚拟博弈信念获得更高的支付;而这些数字在二次记分规则(the quadratic scoring rule)的情况下分别是11和8。)。
3.1.4 问题3:若被试行为可用逻辑信念学习模型最佳表征,逻辑模型中用哪种信念能最好地拟合数据?
这里问题3区别于问题2,因为问题2所关注的仅仅是被试的行动(依哪种信念作最优反应)和关于对手的预测(准不准),而这里所要关注的是:若运用适当的离散选择行为模型,则哪一种信念能对被试的选择做出最佳解释?该模型中,最佳反应是关于信念的连续函数,且该最佳反应函数表示被试选择某一给定的纯策略的概率,而不是像虚拟博弈那样指定确定性的纯策略,用概率的连续变化表示选择的调整而不是用间断点表示纯策略的突然变化。实际考虑的模型为,t期被试i选红策略的概率(2×2阵仅有红绿两种可选)是两策略间支付差异期望的函数。要计算这个期望支付,我们必须启用一些信念集,实验中我们有若干各不相同的信念可供比较、选用。
设置了要使用的信念后,我们必须为描述个体决策的行为规则选取某种具体形式。在下面的分析中我们将采用如下常用的逻辑函数形式:
在t=eβ0+β1(E(πdt))—1+eβ0+β1(E(πdt))时期选红的概率;
在t=1-eβ0+β1(E(πdt))—1+eβ0+β1(E(πdt))时期选绿的概率。
其中E(πdt)是在t期给定被试当时持有的信念下红策略替换绿策略导致的支付差异期望(其含义即决策由绿变红的边际支付期望值——译者注),β0和β1为待估参数。当虚拟信念用于计算式中的支付差异期望E(πdt)时,即可获得弗登伯格和莱温妮(Fudenberg,Levine,1998)所称的“平滑虚拟博弈”。
用实验1得出的观测数据,我们对被试的决策行为估计了不同信念的五个逻辑模型。既在个体水平上也在汇集数据的加总水平上对这些模型进行了估计,模型分别带入的不同信念即我们试设(posit)的被试不同的信念形成过程。模型1用被试的陈述信念来计算期望支付;模型2用虚拟信念;模型3则采用我们称之为加权估值经验信念-经验信念,模型中的权重γ本身与参数β0和β1同时用极大似然法估计出来;模型4用古诺信念;最后模型5采用我们前面的γ*-经验信念(见本文第2.3节的定义)。
模型1到模型5均对逐个被试的60轮决策点进行了估计。然后,对实验1的所有28个被试60轮的总体样本,这5个模型分别进行了回归估计,模型中的设定与单个个体时间序列模型中的设定一样,因支付矩阵不对称故用哑元表示个体的角色。总体样本的模型估计结果:观测的样本点数,β0和β1系数估计值(模型3为β0、β1和γ的极大似然估计),参数估计的标准差和每个模型的显著性水平。此外,也给出了每个模型的极大似然估计的效果。
说明了如下几点:第一,所有β1的回归系数均为正,且显著性水平至少为5%。显然,由模型的含义推断符号应为正——个体预计能带来更多支付的策略应被更频繁地采用。第二,所有模型的常数项也都是正值,且除了陈述信念模型四个估计值都是显著的。第三,参数γ的估计值0.6098 (即)在5%水平上是统计显著的。
最后,在较微观的水平上(对28个被试中每个人),比较模型3中的γ回归估计值与前面计算的经验信念估计值γ*有多大的差别,这是比较有意思的。
模型3估计的信念权重与前面拟合陈述信念的经验信念权重估计值γ*的两者差异大得离奇(dramatic)。例如,依拟合陈述信念的经验信念权重估计值γ*,对每个被试,都要比模型3中估计的信念权重大得多。Wilcoxon双尾检验表明这些分布在1%水平上有显著差异(T=0,z=-4.622,p(z)<0.00005,此处T是Wilcoxon检验的统计量。z是对T作标准正态分布转换。)。且经验信念权重估计值γ*以1为中心,而从模型3中估计得到的则趋于以0为中心,在28个被试的γ估计中有9个是负值。(这些结果与张和弗里德曼(Cheung,Friedman,1997)对γ的估计非常相似。)
我们认为这一对比很重要,因为它确切地证明了,当我们试图用可观测数据作为不可观测数据的替代(proxies)进行极大似然估计时(大多数经济学的数据处理都是这样),这种参数估计的偏离会有多大。更确切地说,经济学家标准的经验分析过程十分类似模型3的做法,其中对γ的估计是用离散的0—1数据作为不可观测变量的经验替代。因为我们的实验能观察到陈述信念,所以可通过对陈述信念序列的最佳拟合来直接地计算γ(即我们的γ*-经验信念)。所以,本文提供了一种可控实验,该实验能够让我们测定,经济学家和政策制定者对不可观测变量勉强用经验表征予以替代时,其偏误会有多大。我们的实验工作表明这种差异就是如此显著(两种估计的参数分别落在0和1这样两个差异极大的点的附近),因此,当我们迅速接受那些类似极大似然法得到的参数估计时,应将这里的结果作为一个警示,提醒自己要更加小心。
3.1.5 Logistic Models中的模型选择
现在我们根据拟合度,对上一小节给出的5个模型进行选择。评选将按照两种方式进行:第一种方式,是以被试偏差平方的截面均值(MCSMSD-Mean Cross-Subject Mean Squared Deviation)作为拟合度,即对模型逐个计算每轮截面样本点的被试偏差平方的平均值,从而比较出哪个模型对被试决策数据拟合得最好。
比较这五个模型拟合度的第二种方式是,就加总的回归进行一系列模型选择测试(performing a set of model selection tests on our aggregate regressions),第二种方式稍后再讨论。
为更详尽地解释第一种方式,作如下考虑:对每个个体和每个逻辑模型(即陈述、虚拟博弈、-经验、古诺、γ*-经验),都有一组β0和β1的参数估计(模型3的是联合β0和β1一道估计的。)。因此在任一轮,若要度量某种信念下的模型拟合准确程度的话,就取对应信念逻辑方程(第3.1.4小节)在该轮的值,即得到该轮红(或绿)策略预测的概率。该预测概率向量{pRed,pGreen}可与该轮被试实际选择的行动向量{0,1}比较,取两点坐标差的二次项作为预测该轮被试偏差的度量SDscore(a squared deviation score for that subject in that round)。对第t轮取K个被试的SDscore的平均值,称之为被试偏差平方的截面均值(MCSMSD):
MCSMSDt=1—KK—i=1(pit-ait)2
其中pit是被试i在t轮选红的预测概率,ait是被试i的实际选择(选红、绿取值分别为1和0)。对这五个估计模型的每一个,都可以把60轮的每轮被试决策截面样本的MCSMSD值计算出来。显然陈述信念模型比其他所有模型都要出色。
现在按第二种拟合度量方式比较先前的五个模型,第二种拟合度是针对加总回归计算一系列极大似然比的测试值,对诸模型两两比较,找出是否有哪个模型比其他四个拟合得都要好。由于我们的模型就参变量而言并不是嵌套形式的(nested),所以无法引用经典的极大似然比进行测试,不过我们可以运用Vuong(1989)针对非嵌套模型的测试方法。Vuong(1989)已证明,对任意像f和g这样的两个模型,采用最大化的对数似然值log£f和log£g及n个观测值,则检验的统计量为:
T=1—nlog£f-log£g-k(f, g)—1—n(log£f-log£g)2
在模型f和模型g相同的虚假设下,T趋于渐近正态分布N(0,1)。上述T表达式中:k(f,g)=[(p/2)logn-(q/2)logn](其中,p和q分别是模型f和g中参数的个数)是针对具有不同参数个数模型的修正因子(correction factor)(由于我们要对这些检验进行二元比较,故我们对累计回归进行检验,同时由于总体中有76个对象,故进行个体回归是不可行的。)。
三角阵里的各项表示检验的统计值[服从渐近正态分布,见王(Vuong,1989)],用于检验两两模型之间拟合度无差异的虚假设。例如M1—M2位置所放的是,陈述信念模型(M1)和虚拟博弈模型(M2)两者拟合度无差异之虚假设的组对检验(pairwise test)值。检验的统计值若在±1.96之内,意味着在5%的显著性水平上不能拒绝该假设,若大于1.96意味着模型M1的数据拟合度比M2要好;比-1.96小则表示相反的情况——即模型M2拟合度优于M1。
在总体水平上,陈述信念模型,即模型1至少在5%显著性水平上要比其他模型表现出色。此外,任何其他模型统计上的显著程度彼此不分轩轾。这一结果再次证明了我们的结论,即如果信念学习是对被试行为的实验研究提供了一个良好指导的话,那么就应该更加小心,运用信念模型时让被试显示其真实信念,用其他观测值替代(empirical proxies)将误入歧途。
3.1.6 实验的稳健性:实验2与实验3
人们可能认为,之所以成功地揭示了陈述信念的重要性,是因为信念诱导技术使被试特别在意自己陈述的信念,这导致他们依陈述信念行动以作为最佳反应行为。因此,很自然地,我们就不用诱导信念来重复该实验,看看被试是否能更成功地聚焦在他们的经验信念上。类似地,人们可能争论说,被试陈述信念在各轮之间差异如此巨大的原因在于他们各轮的对手总是不变,因此总是试图猜透对方的行动。依此考虑,那么每轮被试随机匹配,他们的信念是否就更稳定,更接近经验或虚拟信念呢?事实上,人们甚至可能认为虚拟信念在此处更说得通,因为在实验中任一时点取被试所经历的平均值,就相当于取作为被试对手的群体行为的样本值,进而虚拟信念有可能是一个意义重大的统计量——因为并非要对其作出最优反应。
上述考虑引导我们进行实验2和实验3,在这两个实验中我们提出两个更进一步的问题:
问题4:当信念未被诱导时,被试行为是否与有诱导时相异?标准虚拟博弈和经验信念模型是否能更好地拟合数据?
问题5:当被试随机配对时,他们的信念波动是否变小?他们是否用更为平稳的虚拟信念作为最优反应的基础?
让我们依次回答这些问题。
3.1.7 问题4:当信念未被诱导时,被试行为是否与有诱导时相异?标准虚拟博弈和经验信念模型能否更好地拟合数据?
我们打算从几个方面来回答问题4。首先,通过对有诱导和无诱导这两个实验数据所计算的的估计分布,来考察被试形成信念所用的历史信息是否不一样。这些使我们能够看到被试在形成信念时如何对历史信息进行加权。如果这两个实验估计的有巨大变化,我们就可以怀疑,倘若对被试信念不进行诱导,被试对历史信息的看法将有所不同。
然而值得注意的是,信念可不是那种能够直接用可测数据加权出来的信念,这一点与陈述信念、古诺和虚拟博弈等其他信念不同。信念是对描述个体决策行为规则的信念分布逻辑函数,采用极大似然法同时和β0、β1一道估计出的参数。所以,构造出的这种信念并不是自然发生的,它只是估计程序过程的一部分,依该估计程序同时估计被试的随机最优反应行为。因此值的取舍是与0、1值的取舍一道纳入权衡,以使最优反应行为能够最佳拟合观测的被试行动数据。
实验1和实验2的值的差异并不是太离奇。实验1、实验2的平均分别为-0.0186(标准差SD=0.635),和0.195(SD=0.653)(这些计算是在实验2中观察值17被排除的情况下进行的,而实验2中观察值16.3明显是排除在外的(a clear outlier)。)。经Kolmogorov-Smirnov检验(p=0.169),在5%显著性水平下无法拒绝这两个样本来自具有同样分布总体的假设。
第二,看决策行动与信念对应的最佳反应吻合次数。无诱导时(实验2),和有诱导时(实验1)被试最优反应对应不同信念的次数。若诱导使被试关注了陈述信念,则可以预期,在无诱导(实验2)的情况下被试所作的最优反应将比有诱导的更频繁地使用自己的虚拟信念。
依实验1、实验2处理得出的数据可推断:信念诱导对被试最优反应时运用虚拟信念的程度并没有太大的影响。在无诱导实验中,被试行动吻合虚拟信念下最优反应的次数的确显得多了一些,但是从定性和定量角度来看,两个实验的差别并不大。例如,由虚拟信念且仅由虚拟信念解释的最优反应次数,实际上在这两个实验中是相同的(336对325)。进一步,作为最优反应的基础,古诺信念(单独地或与虚拟信念同时)在实验2中被用了941次,实验1中被用了934次。最后,虚拟信念(单独地或与古诺信念同时)作为最优反应的基础,在实验2中被用了993次,实验1中被使了928次。尽管有这些相应不同信念反应次数的数据,不过事实上被试在无诱导情况下更倾向于虚拟信念而非古诺信念(993对941),比诱导情况下对虚拟信念的倾向更大(实验1的虚拟对古诺为928对934)。(在实验1和实验2的最优反应中,对使用虚拟博弈信念的被试的次数样本进行Wilcoxon检验拒绝了该假设,即在两个实验中经常等同使用这些信念。同时接受单尾替换(one-tail alternative),即它们在无诱导实验中会被更频繁地使用(Z=-2.074,p<0.0381)。同时,这些差异在经济上并非显著。)
尽管有诱导,但是各单元格每一对数值都表现出高度关联性——只要实验1(括号内数据)的数值大,则实验2(括号外数据)的值也会大。对矩阵中非冗余的各组数值(即CC,FF,CF,TotalC,TotalF和None)进行计算,Spearman等级相关系数为0.905,由此证明了上述观察。据此可作为该论断的支撑:即至少在序数(ordinal,秩或者说位序等级差别)意义下,诱导信念并不会改变被试最优反应的方式。
人们还可能建议:我们应该在诱导影响显著与否的比较中采用信念而非虚拟信念,因为这是对个体经历观察值赋予更为灵活的权重安排。用信念替代虚拟信念后进行类似分析得到了相同的结论。注意,由于趋于聚集在0附近,所以作为对最优反应行为的考察,信念反映的是关于古诺信念的最优反应,于是信念就替代了古诺信念。因此信念与古诺信念就具有高度相关性,古诺)提示的情况。
在无诱导的情况下,被试行动吻合单独的信念最佳反应与同时吻合古诺信念反应次数之和为966次,而在诱导下实验1的相应次数为955。表中其他数据体现了类似性质。
回答问题4的最后一个方面,是考察当我们使用无诱导实验的数据估计前面描述的虚拟博弈和-经验逻辑信念模型(模型2和模型3)时,被试的行为会不会发生显著变化。为探讨该问题要做两个测试:首先,我们汇集实验1和实验2(有诱导和无诱导实验)所有观察值。然后定义一个虚变量(哑元)——观测来自诱导实验时取0,来自无诱导实验时取1。该哑元作为一个独立变量被引入,并与模型2和模型3要代入的逻辑函数之截距、斜率的估计一道,估计哑元的系数。由此得到选红的概率如下:
t=eβ0+β1E(πdt)+β2D+β3DE(πdt)—1+eβ0+β1E(πdt)+β2D+β3DE(πdt)
和以前一样,其中E(πdt)表示在t期给定被试当时持有的信念下红策略替换绿策略导致的支付差异期望(由绿改红的边际支付期望值——译者注),β0、β1、β2和β3为待估参数。据此检验β2和β3是否独立且为0,也探讨两系数是否联合为0。为考察是否联合为0,对上述模型加约束β2=β3=0,进行了极大似然比(maximum-likelihood ratio test)检验。
在5%显著水平下,无论用模型2(虚拟信念)还是模型3(-经验逻辑函数估计权重的信念),都拒绝了β2或β3异于0的假设。所以,引入诱导既未改变模型2或模型3估计的斜率也未改变截距。进一步,检验β2与β3相等且为0的联合假设,在5%显著水平下,模型3的似然比检验不能拒绝该假说(p=0.0145,该结果说明,就-经验估计权重信念模型拟合来看,诱导与否差别很大——译者注),模型2则可以拒绝(p=0.631)。平衡考虑检验问题4的诸方面,结论为:从有诱导实验到无诱导实验,即从实验1变到实验2,以两个实验中被试对经历的可测信息的同等处理来看,去掉诱导并不能显著改变被试的选择行为。
3.1.8 问题5:当被试随机配对时,他们的信念波动是否变小?他们是否用更为平稳的虚拟信念作为最优反应的基础?
我们观察到了实验1中被试信念的大幅度变化。于是可能猜想,这些变化是因为在实验的整个60轮中,被试与对手重复配对。如果被试随机配对,预计该变化就可能会消失,因为被试要应付所有对手(playing against the field),这会使他关于对手的信念变得平滑。为衡量信念的波动,对每个被试计算60轮实验中两轮之间信念变化的平均值(所有变化均以绝对值计算)。于是得到基线实验(实验1)的28个被试的平均值,以及随机配对诱导实验(实验3)中28个被试的值。
并没有确切证据表明被试非随机配对时信念波动更大。实验1中被试非随机配对,平均值(中位数)为0.28(0.25);而实验3随机配对,波动平均值(中位数)为0.22(0.99)。虽然平均值和中位数显示非随机匹配时,实验中的信念波动会更高些,但是用Kolmogorov-Smirnov检验波动分布,却没有显著差异(实验1与实验3的波动分布对比KS=0.2143,p=0.541)。
至此,我们尚未解释为什么信念波动在被试随机配对时还是不能平稳下来。如前所述,随机配对实验中的任一决策时点上,被试拿已经领教过的对手行动的平均值来看待当下对手,这是很有意义的。实际上,如果一个被试假定其他被试都将使用相对稳定的策略,那么使用对所有观察结果赋相同权重的虚拟信念可能更加合理。但这显然与发生的事实不符。
若给定随机配对不会引致信念波动的巨大变化,那么我们就可以推想,被试要做最优反应的话,其陈述信念仍是应关注的焦点。
其中最不寻常的就是:所得结果竟如此相似。随机配对的安排似乎不会导致被试的最佳反应行为出现巨大差异。两个实验最佳反应的相关性达到了0.9455,Spearman等级相关系数检验显示,这一关系至少在5%的水平上是显著的(τ=0.9701,p=0.0001)。(我们比较实验1——固定配对诱导实验和实验3——随机配对诱导实验中被试产生的,得到了相似的结论。特别的,Kolmogorov-Smirnov检验在5%水平上无法拒绝该假设,即样本来自于有着相同分布的总体的假设(p=0.071)。而且,对实验1和3中被试γ*样本估计的比较表明,在5%水平下,用Wilcoxon signed-rank进行检验,这些样本之间无差别(z=-0.615,prob>│z│=0.5387)。)(同诱导部分一样,这次我们也构造了同样的虚拟变量逻辑回归运算:使用一个虚拟变量,即当固定配对时,变量值为0;而随机配对时,变量值为1。这个回归中,β1是期望支付的差异系数,β2是连续项(constant term)虚拟系数而β3是倾斜项(slope term)的系数。
这些结果表明了随机配对行为的混合效应。然而我们在比较实验1和实验3时拒绝了模型2和模型3的无效假说:β2=β3=0,当单独检验时,在实验1和3比较中,我们不能拒绝模型2中β2=0的假设。)
总体看来,随机匹配与非随机匹配的两种被试最优反应行为之间的关联非常紧密。因此,无论就信念形成,还是就给定信念下的最优反应行为,都可以看出固定配对的安排对被试行为并没有产生很大影响。于是,我们可以把这里的结果作为基于实验1的前面已得出结果的再现,因为这里的结果意味着:给定同样真实的陈述信念,被试就会有同样行为方式。
3.2 学习模型的比较:问题6
本文的主要推论之一就是,在比较学习模型的时候,人们将要花大力气求解每种模型的最佳表征形式,才能分出高低。正如我们的工作所指出的,使用诱导信念的信念学习模型与实验中观察到的被试行为最为接近,就我们实验数据而言,这就是信念学习模型的“最佳”表征。因此,我们要尽力将该模型(即:用诱导或陈述信念的逻辑信念学习模型),与罗斯和埃里夫(Roth,Erev,1998)的强化学习模型,与凯默瑞和胡(Camerer,ho,1999)的7参数EWA模型进行比较。
尼亚柯和肖特(Nyarko,Schotter,2000b)对此已经做了非常详尽的比较,不过这里还是要强调一下比较的结果。为此列出两组数据:首先,我们比较各模型均方差(mean square deviation,MSD)得分的平均值,MSD是最常用的拟合优度矩阵(泽尔腾(Selten,1998)已经对MSD记分的使用提供了理论上的正当理由。MSD在误差处是凸的,即它惩罚了“冒失预测”。使用MSD矩阵对解释行为进行记分,陈述信念模型比EWA和加强模型做得更好(其中,陈述信念模型是作出相对冒失的预测的模型),从这个程度上来说,我们相信结果的可靠性。罗斯和埃里夫(Roth,Erev,1998)最先使用的pOI测量是用他们的最终预测(deterministic predictions)来判断所有模型的——该行为是模型在每个时期都给予了最高可能性的行为。在做出精确预测或最终预测上pOI更适用于作为预测规则。因此,也许并不令人惊奇,从用MSD记分而得到的结果中我们发现,当使用pOI矩阵时陈述信念相对来说做得更好。最后,将这些对数似然率构成一个矩阵来估计模型。同样地,逐个计算完对数似然率方程后,我们发现陈述信念比EWA和强化学习模型做得更好(有更高的对数似然率)。)。对每个被试分别估计3种不同信念学习模型(the stated belief model:SB,the fictitious play model:Fp,and the -belief model)60轮数据下的MSD得分,每个被试60轮数据也用两个非信念学习——EWA和强化模型进行拟合并取MSD值。强调一下,对EWA和强化模型,我们逐个估算被试的参数,即对每一被试估计一个参数向量。其次,为了对这些MSD的平均值所蕴含的意义作更具体的描述,我们给出了每个被试的数据比较结果。
10A是每个模型对实验1和实验3的实验数据进行估计后,度量MSD的平均得分。这里不同模型的MSD平均得分代表的是每个模型,对实验1、实验3中所有被试(28个)所有决策轮次(60轮)的普遍情况。
以MSD平均值为标准来衡量的话,陈述信念模型要优于其他模型。将汇总数据分解为个体情况,显示了对陈述信念模型更加有力的支持。几乎所有被试在陈述信念模型下的MSD值都要比其他模型的低。例如实验1的28个被试中有22人陈述信念模型的MSD值都优于EWA模型。对强化模型所做的相同比较表明这对28个被试中的20人也是适用的。对于随机匹配的实验3,17个被试的陈述信念模型MSD值优于EWA模型的MSD值,与强化模型相比则有23个被试陈述信念模型的MSD值占优。
用一系列与陈述信念两相比较的Wilcoxon配对符号秩检验(Wilcoxon matched-pairs signed-rank test),可以比较容易地在5%显著水平上拒绝如下假设:由陈述信念模型拟合衡量的MSD值构成的样本,与其他模型拟合衡量的MSD值样本,出自同一个总体。
如果这种比较不用陈述信念而用-经验信念学习模型(基于信念学习模型对历史经验的权重γ之最佳估计,即)的话,情况会发生变化。在实验1中,只有5个被试的模型衡量值MSD优于EWA模型。然而,与强化模型相比,却有25个。对无诱导的实验2,结果也是类似的。只有9个被试的模型优于EWA模型,而26个被试的模型均优于强化模型。如果说存在一个次优学习模型的话,那就是EWA模型,不过它也不是始终位居第二。
3.3 一项重复实验:实验4
实验4是要重复曾经做过大量实验的混合策略下单一纳什均衡的结果。更确切地说,ONeill(1987),Rapoport和Bobel(1992)和其他许多人对混合策略下唯一纳什均衡的大量实验已经表明,随着经历次数不断增加,加总行为(aggregate behavior)只是近似地而不是严格地重复纳什理论预测值。这就意味着,加总频率向纳什均衡趋于收敛过程中的变化问题,足以让研究者去探究关于行为的其他解释(见,McKelvey,palfrey,1995)。
在实验4中,没有信念诱导,并且被试都是随机配对的。设置这样的控制实验条件,是希望更接近与一次性决策均衡(one-shot equilibrium)相一致的行为得以发生的条件,本文实验设计用的就是一次性决策。回忆本文第2.1节实验设计的支付矩阵,理论预计的唯一混合均衡是每个参与者以0.4概率选绿,0.6概率选红。沿时间进程,绿、红策略的平均使用频率看起来的确趋于向均衡水平收敛。采用其他处理方式也能获得非常相似的图形。(特别的,我们观察到,在下面的实验中,限定运用红色策略,累积行为(cumulative actions)有着相同的趋势趋于稳定。
3.4 结 论
本文研究了信念学习。不像其他研究者被迫用可观测的信念替代物来近似表征不可观测的信念,我们使用一种信念诱导技术(一种恰当的记分规则),直接诱导出了被试的信念。这样能使我们更直接地检验“人们会以哪种信念学习方式行事”的命题,即决策行动与哪种信念学习相一致的方式来行动。我们的发现是颇有意思的。
第一,在被试倾向于“信念学习”的意义上,他们所使用的信念正是我们从他们身上诱导出来的陈述信念,而不是虚拟博弈或古诺模型所假定的“经验信念”。因此,当我们给出实验数据用于支持“人们的行为方式与信念学习一致”的观点时,我们应该对纳入信念学习模型的信念类型,予以详细界定说明。
第二,给出了的定性和定量证据表明,被试的陈述信念与常被用作信念替代表征的经验信念之间存在巨大差别。经验信念,即被试根据过去使用的各种策略频率形成的信念,倾向于生成一个相当稳定的时间序列,而陈述信念在各期波动则很大,并且没有显示出会随着实验的决策次数增加而稳定下来的趋势。然而,如果对被试行为没有影响的话,这种差别就不重要。所谓对被试行为没有影响,即尽管陈述信念和经验信念表现得不一样,但却都描述了同样的行为。我们已经表明事实并非如此。
第三,当我们被迫用可观测变量作为对先前认为不可观测变量的替代,来进行参数推断的时候,信念诱导技术可以检查这样做的偏误程度有多大(how far we can be led astray)。通过将此前不可观测的信念变换成可观测的,引入该新信息后我们可以直接看出参数估计的变化情况。对参数估计变化的考察再次证明,差别巨大。
第四,关于实验设计的非随机匹配和诱导特征,研究结果具有稳健性。即与诱导实验下经验信念模型对实验数据的解释力相比,无诱导时基于经验的信念模型对实验数据的解释并未显著改善。
第五,将陈述信念学习模型与其他两个学习模型——罗斯和埃里夫(1998)的强化学习模型以及凯默瑞和胡(1999)的EWA模型,进行了比较。我们证明了陈述信念模型的拟合效果更佳。
参考文献
Allen,F.(1987):“Discovering personal probabilities When Utility Functions are Unknown,”Management Science,33,542-544.
Arthur,B.(1991):“Designing Economic Agents That Act Like human Agents:A Behavioral Approach to Bounded Rationality,”AER papers and proceedings,81,353-359.
Boylan,R.&El-Gamal,M.(1993):“Fictitious play:A Statistical Study of Multiple Economic Experiments,”Games and Economic Behavior,5,205-222.
Brown,J.& Rosenthal,R.(1990):“Testing the Minimax hypothesis:A Re-examination of ONeills Game Experiment,”Econometrica,58,1065-1081.
Bush,R.& Mosteller,F.(1955):Stochastic Models of Learning.New York:John Wiley and Sons.
Camerer,C.(1995):“Individual Decision Making,”inThe handbook of Experimental Economics,ed.by A.Roth and J.Kagel.princeton New Jersey:princeton University press.
Camerer,C.& ho,T.h.(1999):“Experience-weighted Attraction Learning in Normal Form Games,”Econometrica,67,827-874.
Cheung,Y.W.& Friedman,D.(1997):“Individual Learning in Normal Form Games:Some Laboratory Results,”Games and Economic Behavior,19,46-76.
Feltovich,N.(2000):“Reinforcement-Based vs Belief-Based Learning Models in Experimental Asymmetric-Information Games,”Econometrica,68,605-641.
Fudenberg,D.& Levine,D.(1998):Theory of Learning in Games.Cambridge MA:MIT press.
Luce,R.D.(1959):Individual Choice Behavior—A Theoretical Analysis.New York:John Wiley and Sons.
McKelvey,R.& page,T.(1990):“public and private Information:An Experimental Study of Information pooling,”Econometrica,58,1321-1339.
McKelvey,R.& palfrey,T.(1995):“Quantal Response Equilibrium for Normal Form Games,”Games and Economic Behavior,10,6-38.
Mookherjee,D.& Sopher,B.(1994):“Learning Behavior in Experimental Matching pennies,”Games and Economic Behavior,7,62-91.
Mookherjee,D.& Sopher,B.(1997):“Learning and Decision Costs in Experimental Constant-Sum Games,”Games and Economic Behavior,19,97-132.
Noussair,C.& T.Faith(1997):“A Laboratory Study of Mixed Strategy play,”Mimeo,Krannert School of Management,purdue University.
Nyarko,Yaw & Andrew Schotter(2000a):“An Experimental Study of Beliefs Learning Using Elicited Beliefs,”Russell Sage Foundation Working paper 154,Russell Sage Foundation,New York.
Nyarko,Yaw & Andrew Schotter(2000b):“On the Comparison of Learning Models Using Micro-Micro Data,”Mimeo,Department of Economics,New York University.
Offerman,T.(1997):Beliefs and Decision Rules in public Goods: Theory and Experiments.The Netherlands:Kluwer Academic publishers.
Offerman,T.,Sonnemans,J.& Schram,A.(1996):“Value Orientations,Expectations and Voluntary Contributions in public Goods,”Economic Journal,106,817-845.
ONeill,B.(1987):“Nonmetric Test of the Minimax Theory of Two person Zerosum Games,”proceedings of the National Academy of Science USA,84,2106-2109.
Rankin,F.,Van huyck,J.,& Battalio,R.(1997):“Strategic Similarity and Emergent Conventions:Evidence from Scrambled payoff perturbed Stag-hunt Games,”Mimeo,Department of Economics,Texas A&M University.
Rapoport,A.& Boebel,R.(1992):“Mixed Strategies in Strictly Competitive Games: A Further Test of the Minimax hypothesis,”Games and Economic Behavior, 4, 261-283.
Roth,A.& Erev,I.(1998):“predicting how people play Games:Reinforcement Learning in Experimental Games With Unique,Mixed Strategy,Equilibria,”American Economic Review,88,848-881.
Selten,R.(1998):“Axiomatic Characterization of the Quadratic Scoring Rule,”Experimental Economics,1,43-62.
Shachat,J.(1996):“Mixed Strategy play and the Minimax hypothesis,”UCSD Economics Discussion paper 96-137,University of California at San Diego.
Thorndike,E.L.(1898):“Animal Intelligence:An Experimental Study of the Associative processes in Animals,” psychological Monographs,2.
Vuong,Q.h.(1989):“Likelihood Ratio Tests for Model Selection and Non-Nested hypotheses,”Econometrica,57,307-333.
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。