第四代评价的思想及特点

时间：2023-03-07 理论教育版权反馈

【摘要】：本节主要分析第四代评价的有关思想、特点和操作流程框架。枯巴和林肯在第四代评价理论中，批判了前三代评价的不足，他们认为，在前三代评价中，每一代都表示评价概念向前迈进了一步，并且每一代都在特定的时代和情景下肩负着自己的使命。枯巴和林肯认为，断言科学是价值无涉的认识正在面临着挑战。评价者通常以发布信息的权力和管理者交换独立完成评价报告的权利。

第二节　理论解读：第四代评价的思想及特点

20世纪80年代后，欧美各国的教育改革进入高潮，为适应教育改革发展的需要，此时，人们开始反思和批判六七十年代的评价理论和模式，并期盼出现新的评价理论和方法。1989年，著名评价专家枯巴和林肯在反思、批判传统评价理论的基础上，提出了“第四代评价理论”。本节主要分析第四代评价的有关思想、特点和操作流程框架。

一、前三代教育评价理论的不足

枯巴和林肯在第四代评价理论中，批判了前三代评价的不足，他们认为，在前三代评价中，每一代都表示评价概念向前迈进了一步，并且每一代都在特定的时代和情景下肩负着自己的使命。但所有这三代评价都有一些长期未解的难题，即前三代评价至少有三个不足：忽视价值的多元性、管理主义倾向和对已有科学范式的过渡推崇。^[5]

1.对价值多元化的排斥问题

枯巴和林肯认为，前三代评价所存在的问题，最突出的问题之一就是对价值多元化的排斥。长期以来，人们普遍认为，社会应当共享价值观，同时也存在以社会成员同化和认同为特征的价值体系。美国的价值观建立在所谓“文化大熔炉”的基础之上，实际上这个基础的实质就是“基督教伦理”。学校强调的教学中的“我们的传统”，实际上包含着我们的传统是共享的这样一种思想。通常所主张的我们的道德体系，是建立在同是犹太教与基督教所共有的伦理基础之上的。而所谓的“客观评价标准”、“科学评价工具”都根植于这样一种价值标准之中。

在早期的评价中，每一代都有一个暗含的假设基础，即在评价发生的情境中存在着一个共同的价值体系。人们对于什么是要测量的重要变量达成了共识，对目标有了一致的看法，并相信他们有能力做出无懈可击的判断，所有这些都暗含了共同的价值观。

近年来，人们开始逐渐意识到“社会在根本上是价值多元化的”。这种多元性不仅表现在政党、利益集团之间，民族、性别之间，而且也深刻反映在人的生活中，反映在人们对待许多具体的问题上。这样，就有一个问题逐渐显现出来：评价要维护谁的价值观？这明显是一个政治问题。

评价的方方面面都要依靠价值观，它要回答：评价中什么是重要的（什么不是）；要使用什么样的评价模式；收集什么数据；如何解释研究结果；建议采取什么行动。如果评价的各个方面的价值观都是确定的，即使一部分是这样，那么常规的科学研究，就不能成为评价应采用的合适方法，因为它被认为是价值中立的。^[6]

由于教育评价涉及不同人的不同利益，人们必然要问，“这一教育评价是谁作的？”“为谁作的评价？”自认为将会受到伤害的被评价者就会采取不合作态度，“客观的”评价结果也就难以被具有其他文化背景和其他价值观念的人接受。于是，希望通过评价来改进课程、教学、教育的期望就会落空。

尽管存在着价值差异，但评价的结果是否完全可信一直处于争议中。因为我们不能确认评价所使用的方法是科学的，以及科学被证实是价值无涉的。要求客观性的核心是排除价值的影响。枯巴和林肯认为，断言科学是价值无涉的认识正在面临着挑战。

当然，必须承认，评价者无法控制如何使用评价结果；如果持不同价值观的人以不同的方式解释实际结果，评价者就很难对评价结果负责任。

如果科学不是价值无涉的，那么评价的结果将会有不同的解释，“事实”本身也是和评价中的价值体系紧密相连的。那么评价的每个环节都变成了一个政治问题，包括咨询、是否评价、研究、政策分析等。

如果价值差异不会对评价有什么影响，那么评价的结果就代表了事物的真实状态，评价结果作为客观真理将被接受。但管理者们限定了评价的范围和参数，也就决定了评价的问题、方法及得出的结论。枯巴和林肯认为这种价值无涉的主张是不可取的，社会中的价值多元化应是评价关注的关键因素，但前三代评价还没有考虑价值差异问题。

2.管理主义倾向

管理者通常是指那些委托进行评价和给予财政资助的人，评价者和管理者签有评价合约，管理者通过资助控制着评价、决定着评价的范围和任务，决定着评价的报告对象。评价者在设定评价的参数和范围时要听从管理者的意见，并且要向管理者报告。管理者和评价者的传统关系很少受到挑战，但这种关系在实际活动中却常常造成一系列不合理的后果。

首先，管理者在评价中可以免受牵连。由于管理者处于评价范围之外，评价中也不会被涉及，不能因为评价的问题而质疑他们的管理质量和方法，接受问责是其他人的事；也不能因为没有得到评价所期望得到的结果而让管理者负责。如有问题，评价结论一定指向其他人，这些人通常处在权力等级结构中的较低位置。

第二，管理者和评价者的关系有失公平的，评价者处于无权的地位。尽管评价的问题、对象、资料的收集及处理方法以及如何公布结果等问题，通常都经管理者与评价者协商，但实际上，一旦出现分歧，最后决策权掌握在管理者手中。这就导致其他利益相关者无权发问或提出自己不同的见解，以及找出解决问题的方法等。整个评价的过程对其他利益相关者有失公平，他们的要求和意见得不到尊重。管理者的地位高高在上，被提高到拥有最大权力的地位。在前三代评价中，给所有利益相关群体同等的对话机会是非常困难的。

第三，管理者和评价者的这种关系是剥夺性的（disenfranchising）。管理者拥有决定评价结果是否公布以及向谁公布的权力。评价者通常以发布信息的权力和管理者交换独立完成评价报告的权利。由于这种关系的存在，其他与评价有利益关系的人就更无法在评价中维护自己的利益，阐述自己的见解，也无法按评价建议，采取有效的改进行动了，他们被剥夺了共享信息权利。

最后，管理者和评价者的这种关系很可能变成一种不幸的“暧昧”（cozy）关系。即评价者将决定评价形式的权利让与管理者，从某种意义上说，就是评价者和管理者的同谋。管理者用各种方法保护自己的利益不受损害，没赋予管理者之外的其他利益相关者应得的权力，并且侵犯了其公民权利。评价者则为换取合同兑现，有一份稳定的收入，保证使用管理者认可的评价方法。

3.对调查的科学范式的过渡推崇

第一、二、三代评价模式过分强调运用科学范式来指导评价方法（Eisner的鉴赏家模式除外，这一模式声称遵循人文主义范式）。枯巴和林肯认为，这种对科学方法的过分依赖产生了一些不良后果：^[7]

（1）过分注重科学范式，使评价者仅考虑评价对象，而对背景因素重视不够。使评价对象只存在于被精心控制的条件下，从中得出的结果若想推广到其他不太类似的情境中就变得不可行。

（2）对科学范式的过分推崇，不可避免地使评价过于依赖正规的定量测量工具。这就阻挡了其他认识方法的应用，如“质”的探究。

（3）既然科学方法承诺能提供一种关于事物真实情况的信息，这就需要一种不可抗拒的特定权威。于是，事实是不容妥协的，数据是毫无争议的。评价者、委托人和其他任何人的价值观都不能影响评价结果。管理者和评价者都被认为是不容置疑的。这种科学的方法进一步巩固和支持了管理主义倾向。

（4）科学方法的使用阻碍了考虑评价对象的其他途径。既然科学揭示了事物的真理，那么其他方法肯定是错误的。合理的替代方法不能被接受，在关于什么是真理的问题上没有协商的余地。

（5）前三代评价没有赋予评价者所应承担的道德责任。既然科学是价值无涉的，对科学范式的坚持可以减少评价者对其行为所负的道德责任。评价者无法控制评价结果的使用，也就没有责任去追踪评价后的影响。当提交评价报告后，评价者的使命也就结束了。前三代评价缺乏有效的机制来赋予评价者所应承担的道德责任。

这三个问题使寻找新的评价范式的工作更为迫切，那是一种不仅能容纳价值多元化而且对之尊重的范式，一种建立在与科学范式不同的研究范式上，一种可以冲击管理主义的模式。第四代评价的提出者枯巴和林肯深信，第四代评价足以解决以上这三大难题。

二、第四代教育评价理论的特点

第四代评价与前三代有显著的不同，它是一个社会政治过程，打破以往评价中的“管理主义倾向”，采取以“回应”各种与评价利益相关的人为评价的出发点，以“协商”为途径达成共同的“心理建构”。它在技术方法上，主要采用了解释学的方法，形成了自己完整的评价程序，第四代评价创导者提出了“回应——协商——共识”的线索。第四代评价的倡导者认为，正是由于这些特征，使这代评价能够解决前三代评价长期面对的难题。归纳起来，第四代评价具有如下特点：

1.关注价值多元，回应多元利益相关者不同的价值诉求

在评价过程中，判断的要求与价值多元化几乎同时出现。根据枯巴和林肯的观点，当评价出现时，价值就已蕴含其中，实际上，从评价（evaluation）的词根来看，英文“evaluation”的词根就是“value”，也就是价值的意思。也即评价（evaluation）这个词在语言学上是源于“价值”（value）这一词的。评价就是对被评之物赋予价值。但是只要价值差异的问题没有被提出来，那么甚至是涉及价值判断的“客观”工具的发展或者是蕴含价值认同的客体描述的问题，都很容易被忽略。一旦这个问题被提出来，那么哪种价值观将会在评价中占据主导地位，或者如何协调价值分歧等类似问题现在都将成为主要问题。

第四代评价认为，对意义的建构和意义的价值是评价的重要焦点，评价的主要目的是创造出反映所有参与者价值的结果。这一方式的主要假设是，现实并不在那里等待被发现，而是通过人际交往被创造出来，通过这些交往可以创造出许多可能的同时存在的现实。评价过程是具有价值导向的，因为所有参与者不仅具有关于对评价目标的期待，而且具有来自社会、心理、物理背景的个体价值观。在设计评价时要允许不同价值系统的加入，通过讨论产生能够对所有意见给以考虑的一致意见。^[8]

第四代评价关注多元利益相关者的不同的价值标准，认为参与评价活动的利益相关者的价值标准是不同的，它十分重视在评价中对不同价值体系存在的差异进行协调，并视之为评价工作的关键问题。第四代评价提倡在评价中充分听取不同利益相关者的意见，并把评价看成是一个由评价者不断协调各种价值标准间的分歧，缩短不同意见间的距离，最后形成公认的一致看法的过程。

评价中有很多不同利益相关者。枯巴和林肯（1981）在《有效的评价》一书中，将这些利益相关者分为三大类，若干次类：^[9]

（1）评价的推动者或代理人（agents），他们是评价的需求者、评价结果的使用者和评价活动的实施者。包括：

①评价对象的开发者。

②地方、区域及全国评价活动的资助者。

③具有评价对象所要改进或者放弃需求的本地评价需要的提出者。

④决定使用、开发评价对象的当地决策者。

⑤评价工具、资料、设施条件的提供者。

⑥委托进行评价的委托人（合同签订者）。

⑦投身于评价实施过程中的人，如教师、公益服务机构的工作人员、警务人员、护士等。

（2）评价的受益者，他们是由于运用了评价以及某种方案、工具而受益的人。包括：

①直接受益者，即“目标群体”，评价就是为他们而设计的。

②间接受益者，即与直接受益者的关系是调节、缓和、促进等受直接受益者积极影响的人。

③从评价对象的使用过程中获利的群体，如教材出版商，或者提供必要支持性服务的承办者。

（3）评价的受害者，他们因接受了某种评价而受到消极影响的人。包括：

①评价活动中被有计划地排除在项目利益之外的群体。如正常儿童就接受不到为天才儿童提供的特别服务。

②受某种评价活动造成的副作用影响的某些群体。

③某些评价造成的政治影响，也会使一些人受到伤害。如一些人因此失去晋升机会、影响力、甚至声誉等。

④为某种评价活动付出了“机会成本”的人。如有些决定把一些必需的资源投入其他活动的人，或那些竞争性资料的出版商。

第二类利益相关者有时不易发现，有时要待评价结果出现后才明确起来。但相比之下，最容易忽视的是第三类，因为评价者并不一定有意去伤害他们。然而，这些人的利益必须维护，他们的建议必须受到尊重。否则，出于利益的考虑，教育实践中有价值、有利于改进课程、教学的信息就会被有意无意地遮掩起来。例如，在课程评价中，对课程实施评价的本意是为了检验和调整某地区的师资配备情况，但是由于评价结果可能会使一些学校教师和学生在声誉、资金、学习信心等方面受到不利影响，学校教师和学生就有可能把一部分信息封闭起来，或者在评价活动中采取不合作态度，使评价难以深入、准确，更难以起到改进师资配备、改进课程实施的作用。

所有这些利益相关者人群（及子群体）都会有自己不同的观点，这就会使他们对评价对象有着不同且常常对立的看法，并且对其价值也有不同、甚至常常互相对立的判断。所以，枯巴和林肯强调，在评价活动中一定要努力使所有与评价有利益关系的人都积极参与、充分表述自己的观点，把每一方面的“心理建构”都展现出来，只有在这样的基础上，有关方面才有可能达成共识，形成有利于改进课程、教学、学校教育的“共同心理建构”。^[10]因此，第四代评价认为，评价就是所有参与评价的人们共同建构的过程，亦即参与评价及与评价有关的人或团体基于对评价对象的认识，通过不断的协商、对话和交流，不断协调教育价值观，缩短关于教育评价结果的意见分歧，而整合成的一种共同的、一致的看法的过程。

枯巴和林肯认为，第四代评价会对利益相关者所持的主张（claims）、担心（concerns）和争议（issues）采取应答态度，而所有这些都是利益相关者们基于自己的价值观而发出的心声。利益相关者群体以及组成群体的个体之间的观点分歧有时候可以成为“局内人”或“主位的”（emic）观点，和与之相对的由评价者带入评价过程的“局外人”或“客位的”（etic）观点（“主位”和“客位”是从人类学中借用的术语）。强调对评价采取应答式的方法，而不去测验变量、目标或决策等，使每一个利益相关者群体都能根据自身的价值观，用自己内在的语言说出自己的看法、主张、兴趣或意见。这就可以解决价值多元化的问题，因为所有的价值观都可以展现出来；它也可以解决管理主义问题，因为所有管理层的利益相关者不会比其他人拥有更多的发言权——尽管也不会少。^[11]

2.资料收集方法：应答式互动

任何评价都是从要评价什么，采用什么方法及收集什么信息开始的。在第一代评价中，通过标准化的测验来收集数据，通常是在学校环境中，测量学生的学业成绩。第二代评价中，评价目标是确定的，依据目标来评价学生的表现与目标之间的匹配程度。在第三代评价中，多样化的评价模式需要不同的信息；决策导向模式，如CIPP模式需要的信息是在一个特定的环境下，收集与每一种决策相关的、能为决策服务的信息；目标游离模式着眼于项目完成情况和有价值的副效应上。鉴赏家模式做出的判断则是从行家的专业技能出发。这些评价理论所关注的因素——变量、目标、决策等，都是预先设定的。评价者在进行这类评价时，通常会提出，“你的评价目标是什么”，“评价是为什么决策服务的”等问题。

第四代评价的强调评价过程中资料收集的“回应性的聚焦方式”（responsive mode of focusing），这一思想主要来自评价专家罗伯特·斯达克（Robert Stake）。斯达克认为传统的评价模式是“预定式的评价”（Preordinate evaluation）。^[12]即预定式评价是先陈述目标，再依目标来收集资料，并对目标和结果之间的差距或吻合程度做出报告。这种评价对目标本身的合理程度、变化以及学生在目标之外的感受，各方面人士对目标、课程实施等方面的不同观点都难以反映。而且教育的价值有时是扩散的、潜在的或是内在的，这些都难以用事先确定的目标来核对。评价的意义在于服务，为了使评价有利于服务对象，评价者就应该首先关注服务对象关注的问题、兴趣和焦点。因此，斯达克提出了一个以“回应”服务对象为起点的评价模式。即评价界所称的“应答模式”（responsivemodel）。

枯巴和林肯认为，与教育评价有关的，各有关方面容易有不同见解的要求和问题大致可以分为三类，他们把这三类要求或者“焦点”，分别称为“主张”、“担心”和“争议”（Claims，Concerns and Issues）。^[13]

“主张”（Claim）就是某一利益相关方提出的、被认为是有利于被评价者的声明。例如，某些教师或研究者声称，某一种阅读教学方法能在一年之内，使学生的阅读水平迅速上升，甚至在阅读成绩标准测试中的分数高于学习现行方案的其他学生。这就是一种主张或宣称。尽管这种“主张”也许已经过许多试验和检验，也许已在其他地方行之有效，但它在某一次特定的评价中仍然是一种有待评定的“主张”。由于条件、学生的变化，这种“主张”的实际实施结果仍有待于评价验明，实施方法也可能需要有所调整和改进。“担心”（Concern）是指“某一利益相关者认为实施某一方案，采用某些方法会不利于评价对象的想法或意见。”例如，当一些专家主张大力推广电脑教学的时候，一些教师可能会提出“计算机教学会大大降低学生的计算能力”。这是一种担心。“争议”（Issue）就是人们不一定都赞同的事情。例如，有人可能不赞同在中小学进行艾滋病教育；有人反对用学校的场地及设施进行宗教教育等。不同的利益相关者可能会有不同的主张、担心和争议，评价者的任务就是找出这些问题，并在评价中谈论、解决问题。

第四代评价不仅使不同利益相关者都有机会表达自己的主张、担心和争议，不受价值观的限制，而且在资料收集过程中也是应答式的。前三代评价用来收集资料的方法最大不足就在于把评价对象的意见排除在外，评价者和客户密切合作，设计、规定评价过程，预先设定评价的参数和范围。预先设计好的评价假定评价者和客户拥有足够的信息来合法地设计和实施评价，无需征求他人的意见。第四代评价则大力提倡评价者按评价对象的意见、偏好设计项目，并引导所有参与评价的人都有机会表达自己。这也意味着所有参与评价的人都承担着一定的风险，要付出或多或少的代价。他们应该有权提出各自所担心的问题和看法，不论它附属于何种价值体系。评价者则通过收集各种资料来协同众人讨论，用协商的方式，逐步改变、统筹不同意见上的分歧。虽然不可能让所有的利益相关群体都达成一致的意见，但至少要了解彼此的意见分歧在哪里，理解他人的看法，以及持有这种看法的理由。评价中的参数和界限设定要通过一个交互的过程来确定，它需要和所有参与评价的人进行协商，这要花费相当多的时间和精力。最后的结论和行动建议是通过协商达成的公认的、统一的观点。

在评价结果的运用方面，第四代评价反对过去那种认为评价结果仅归评价者所有的错误观点，而认为评价结果应该为所有与评价有关的人所拥有，特别是应归评价对象使用。因为评价的最终目标在于提高评价对象的工作质量和效率。

这种应答式的资料收集方法有四个阶段：^[14]第一阶段，鉴别利益相关者，并要求他们各自表达自己的主张、担心和争议，找到问题所在；第二阶段，各利益相关者群体之间互相交流主张、担心和争议，相互评论、反驳和认同等，在这一阶段，将解决很多最初的主张、担心和争议；第三阶段，评价者将收集信息的重点转到还没有解决的主张、担心和争议上，这些信息的收集将采用量的或质的方法；第四阶段，在利益相关者群体之间进行协商，在评价者的指导下，运用已经收集的信息，努力使各方在有争议的问题上达成共识。此时并不是解决了所有的问题，总还存在一些未被解决的主张、担心和争议，需要进一步研究。当时间和资源和利益允许时，将会开始新一轮的评价。

3.方法论基础：根植于建构主义

第四代评价建立的基础不是前三代评价模式的科学主义的范式，而是根植于建构主义（或称自然主义/解释主义）。建构主义范式的基本假设和传统的科学范式的基本假设是根本相对的。建构主义范式对现实采取一种相对主义的立场，认为描述和理解世界（评价对象）的方式有多种。因为不同的利益相关者各自都有很多很主位的观点和看法，所以在使用方法上，要依不同的情境而定，不能与情境脱离。此外，质的方法的使用频率要增多，但并不意味着要排除量化方法。最后，评价者要对其行为负责，他们并不仅仅是提供了一种沟通渠道，而是必须为自己的所作所为承担道德和伦理上的责任。

建构主义范式在三个主要维度上不同于传统的科学范式，即本体论（有什么可以被获知）、认识论（知者与被知之物的关系是什么样的）和方法论（人们如何去探索）。^[15]

从本体论来看，建构主义依附于相对主义者，现实并不是客观存在的，而是人脑的一种社会建构，这种建构常常受到各种各样的社会、文化因素的影响而导致产生不同的建构。

从认识论来看，建构主义认识论是主观一元的，而不是客观二元的。认为究竟什么可以获知，完全要由知者和被知对象之间的相互作用来决定。“发现”是由探索过程逐渐创造出来的。

从方法论来看，由于已经给出了本体论和认识论的假设结果，建构主义方法论反对采用构成科学范式特征的干预性的、控制性的方法；并采用解释学的、辩证的方法来取代这种方式，即通过观察者和被观察者的主客体之间的交互作用而产生相应的心理建构。

枯巴和林肯认为，建构主义的方法论是从建构主义本身的基本信念体系中演绎出来的，代表了从它本身的假设中产生的坚定的立场。为了便于理解并从实践中贯彻此种范式，他们通过一张“建构主义者调查的方法论”示意图来阐明。（见图2-1）

在示意图中，枯巴和林肯阐明了由进入条件、探究过程和探究结果构成的“建构性调查”框架。在“进入条件”中，第四代评价首先强调，调查和评价要在自然环境下进行，这也是支持建构主义相对主义本体论的结论。其次，建构主义者一般作为学习者进入这样的探究调查框架，人是建构主义者选择的工具。第三，选取人为收集资料的工具，这也就决定了必须更多地依靠人的感官和思维器官来进收集信息，通过与人交谈、观察行为、阅读文件、记录他们留下的不显眼的标记，重视人的非言语暗示等途径来收集信息。质的方法显然是收集信息的主要方法，但同时并没有限制使用定量的方法，更不意味着不需要调查和统计。最后，建构主义者坚持吸收和使用缄默知识的权利。

枯巴和林肯认为，当这些规范和条件全部满足后，才可以进行建构主义调查。

图中左侧的圆圈描绘了这样一种建构主义调查的过程和结果是通过调查者和应答者之间的协商持续不断地形成共识。双方必须同时同意这些“进入条件”。当分析完数据时，过程须以一种合作的精神涵盖回答者输入的信息，分析结果也要通过其他来源的信息来验证。“共同的建构”（Joint Constructivist）必须能够反映本位的（内部）的观点和非本位的（外部）观点。

图中右侧的圆圈描绘的另外的事实：在建构主义范式中，发现和验证也是不断互动的过程。

图2-1　建构主义者调查的方法论示意图

资料来源：Egon G. Guba and Yvonna S. Lincoln，Fourth generation Evaluation，Newbury Park，CA：Sage，1989：174.

解释学辩证过程的最终成果是个案报告。这一报告不同于实证主义调查中看到的技术报告，它是作为解释辩证过程的结果而产生的共同建构，是利益相关各方形成的共识，以及反映共识形成条件和过程的案例报告。个案报告以密集的描述为特征，不仅阐明所有重要内容，同时使读者能够获得一种身临其境的替代性体验（Vicarious experience）。

4.协商：达成共识的途径

第四代评价实质上包含了一系列反映人及社会政治背景影响下的种种因素的互动过程。其核心就是协商。^[16]在第四代评价中，协商是个关键的环节，但又贯穿在评价的全过程中，它是形成共同建构的途径，也是建构与再建构体现最明显、发生最频繁的过程。协商是从出发点“各方面的关注焦点”通向“共同建构”的必由之路。

探究的过程本身也是一个不断协商的过程，一个不断发现新的问题、焦点，不断验证新的共识的过程，而且一直在整个过程中产生着相互影响。要使所有参与评价的利益相关者达成共识，就需要在评价中充分听取不同方面的意见，把评价看作是一个由评价者不断协调各种价值标准间的分歧、缩短不同意见间的距离，最后形成公认的一致看法的过程。第四代评价明确提出了协商的条件、问题和结果：

（1）协商的条件

枯巴和林肯认为，一个富有成效的解释学辩证协商需要满足以下条件：^[17]

①参与评价的各方以完整的立场工作。能坦诚相待，没有说谎、欺骗、误导、隐瞒或提供错误的建构。

②参与各方要具备进行交流的最低限度的能力。持有不同看法的人要能够提出自己的建构，敢于对他人的建构提出批判意见，这种争执是有益的。但要把下述人排除在讨论之外：儿童（与年龄有关，缺乏知识、经验和能力）、心理不健康的人和精神病人。

③参与各方共同分享权力。

④当协商有说服力时，参与各方愿意改变，而不是固执己见。极端地固执己见无法进行有意义的协商。

⑤参与各方愿意适时重新审视各自的价值立场。

⑥参与各方愿意承诺投入评价过程可能需要的时间和精力。

（2）协商的问题

在确定协商问题的主次时，至少有三个问题需要考虑：

①有可能达成共识的问题。要继续收集信息，努力达成共识。

②尽管有分歧，但仍有可能妥协，并采取一致行动的问题。要通过协商，决定首先采取哪些行动来改善状况。

③与某一方面价值观念有根本性冲突的问题。这类问题最不易达成共识，最不易解决，但如能解决意义也最大。对于此类问题，需要双方充分阐释各自的见解，让每一方都了解，除了自己的认识外，还有其他看法的存在。

就协商的行动而言，可首先从前两类问题开始，最后解决的并不意味着最不重要，而是放在随后的评价活动中。

（3）协商的结果

与协商的问题一致，协商的结果也有三种：

①完全解决的问题和共识。

②部分解决问题的共识；这种结果可能引出两种行动，一是继续进行下一轮的协商，二是在获得更多信息之前，先采取一些折中行动。

③未达成问题解决方案，承认各方的建构仍然抵触的“共识”。这种情况不会引起有效的改进行动，但评价者有义务向各方说明不能达成有效方案的原因，并将情况写进评价报告，以便后人再研究或采取其他行动。

5.方法技术的依据：解释学循环

第四代评价采用的是解释辩证的循环过程。所谓解释是因为它在性质上是解释性的，所谓辩证是因为这一方法体现了一种各种分歧观点的比较与对比，以期获得一种互动和融合。其目的在于允许各参与者共同研究，在互相建构的过程中达成共识。这一解释辩证过程的目标是，如有可能即取得一致意见，达成共识；如果不可能，该过程至少能展现并澄清几种不同的观点，并允许建立协商议程。

关于如何实现这一解释学辩证协商的途径，枯巴和林肯解释学辩证循环示意图（见图2-2）展现了大量利益相关者循环的过程。^[18]首先，初始应答者R1，被调查者挑选出参与开放式的采访，以决定初始的主位建构。然后，应答者R1需提名另一位应答者R2，他要依据R1所能鉴别的并尽可能与R1在建构上不同。应答者R1提出的中心议题、概念、观点、价值观、担心和争议经过调查者的分析形成初始的R1的建构，图中用C1标示。接着R2接受访谈并享有与R1同样的言论自由。在应答者R2尽可能自愿的情况下，邀请他对R1做出评论。结果，对R2的访谈不仅产生出了关于R2的信息，而且还产生了关于R1的投入与建构的评论。

调查者征求R2对R3的提名，同时分析完成了R2的建构C2。这一过程随着新的应答者的不断加入而重复进行，直到所获得的信息不再需要新的建构，或者可分为两种以上且在某种程度上依旧冲突的建构。（这种冲突通常是由于价值观的根本冲突所导致的不同的建构）。

随着此过程的进行，选择后续应答者的依据也在不断变化。最初是为使信息范围最大化，努力鉴别那些能为既存建构增加内容的人；随着若干建构开始成形，转为选择那些对访谈中凸显出来的重要描述、看法和问题有着深刻体验且能够清楚阐述的应答者，从而明确调查者确信已鉴别的既存的显著主题。

图2-2　解释学辩证循环圈示意图（内部循环过程）

R=应答者（Respondent）

C=建构（Construction）

资料来源：Egon G. Guba and Yvonna S. Lincoln，Fourth generation Evaluation，Newbury Park，CA：Sage，1989：152.

同样访谈的结构化程度也在改变，最初的访谈是没有规划的，只是调查者征求应答者的主位建构。然而，随着既存建构越发明晰，调查者能够提出越来越有针对性的问题。

三、第四代评价的操作流程

第四代评价的具体操作步骤是在解释学辩证循环的原则以及建构主义方法论基础上建立起来的。完整的第四代评价包括12个步骤。事实上，在实际情景下，会出现许多循环和跳跃的情况。^[19]

1.与评价资助者或评价结果使用者签订协议。

2.组织评价。

挑选和培训评价人员，组织评价者小组，使其获准进入评估现场，管理其他后勤事务，以及对当地的政治因素做出评估。

3.鉴定利益相关者。

从一开始就要鉴定出评价的代理人、受益者以及潜在的受害者，其他人可以通过持续的搜索策略陆续被找到。工作协议或意向书必须发给每一个人，并通过协商形成大家都认可的协议。各群体还需要自觉遵守评价过程中的一些活动要求，使合作协商的过程顺利开展。

4.发展利益相关群体的共同建构，具体集中在利益相关者的主张、担心和争议上。

鉴定建立起来的各个“利益相关者”圈，并开始访谈。在一系列连续对比分析之后，每一个圈会开始出现一种总看法（如果不能达成共识，也许会是几种看法）。然后检查可信度以保证评价者“得到了正确的信息”。

5.通过引入新的或者另外的信息，使组织成员增进理解，发展更高层次的应付新信息的能力，以检验和扩大群体内部的建构。

观察档案、相关文献和评价者先前已有的看法，会为每一个圈注入新信息，从而使第一轮看法得以改善、修改甚至替换。

6.查明已解决的主张、担心和争议（CC＆I），也即那些已经达成共识的CC＆I。

为每个圈提供新的信息，并提高精细程度，以使初始的描述、看法、关注和问题以合适的比例呈现出来，从而矫正描述或理解方面先前存在的错误。然后把所有已解决的问题放在一边（但不是完全置之不理，在最后的案例研究中，会对它们进行报告），集中处理没有被解决的问题。

7.确定优先协商的问题。

将那些没有被解决的问题分出主次，确定优先协商的问题，这一点非常必要。因为评价的时间、资源有限，无法把所有问题都考虑进来。这种区分主次的过程可以用参与式方法开展，并对旧圈或者新圈（如果愿意）进行可信度检验。各个利益相关群体应选出各自代表来进行协商，以使最后结果能顾及各方利益。

8.收集与尚未解决的主张、担心和争议相关的信息。

它们也许既是质性的又是量化的。通过获取现有资源（比如在别处做的类似的评价报告，）使用已有或专门开发的工具，开展专门的研究甚至是实验室研究开展新一轮循环，来获取信息。

9.准备协商方案。

由评价者确定并说明未被解决的主张、担心和争议，列出针锋相对的看法，找出收集来的信息，以阐明、支持或否定要讨论的东西；与不同的利益相关者一起检验制订出议程，使之更加明确并提高可信度。

评价者需要做好以下工作：

（1）阐明每一个需要协商的问题，使每一个利益相关者都能明白问题的涵义；

（2）阐明需要协商这些问题的理由；

（3）提供各种有助于解决问题，形成共同建构的信息资料；

（4）给参与者提供培训，做必要的技术训练；

（5）评价者与各利益相关者代表检验协商方案的可行性和可接受性。

10.实施协商。

这是整个第四代评价中最关键的一步。首先，评价者要形成一个有一定代表性的圈子，其成员从最初的利益相关者群体中选出。圈子中的成员并非要具有统计意义上的代表性，而是由某种程序筛选出来的。此程序可以依据不同的利益相关者而有所改变，挑选出来的人选被授权代表其所属的利益相关者进行协商。很明显，这是一种政治化的过程，它意在保护不同利益相关者所持的价值立场。针对第九步未解决的主张、担心和争议，该圈子经过协商，在可能的情况下达成一致。但如果仍存在某些分歧，就要指出进一步研究的必要性。在某些情况下，最后的结论可能就是允许存在分歧，至少在当时是这样的。作为协商过程的一部分，要设计出一个行动计划，以使所有的利益相关者肩负起职责。并且不能仅仅要求某个利益相关者（通常是代理人）承担责任，而是让所有的利益相关者共同分担责任。

11.通过案例研究拟定报告—以共同建构作为产品。

把评价结果——达成的共识及行动计划统合成一份个案报告。第四代评价主要采取案例报告的形式。它不仅可以表示评价本身的意义，而且为读者提供了一种身临其境的体验：评价对象是什么样的，对于一个代理者——比如教师，或者“目标群体”，比如一个学生；或者下一层的受益者，比如家长来说，它到底意味着什么。

第四代评价的案例报告至少应该遵循以下四条标准：

（1）公理性标准：如必须如实反映利益相关者各方意见等；

（2）修辞性标准：报告的内容形式和结构要组织有条例、简洁、明了、统一，有一定艺术性；

（3）行动性标准：是否能为各方采取行动提供方便，是否体现了公正性、教育性和可操作性。

（4）应用性或迁移性标准：报告的描述深度，给读者的感受，以及提供给读者再建构的可能性等。

12.再循环。

第四代评价总是会提出比所解答的问题更多的问题。因此，总是存在一些未被解决的主张、担心和问题，需要进一步地研究。当时间和资源允许时，评价循环可返回到第一步。

这一过程的详细操作流程见图2-3：