教学评价的标准之辨

时间：2023-03-08 理论教育版权反馈

【摘要】：2011年3月28日，教育部最新公布“十二五”教育改革发展主要任务，招生考试评价制度改革赫然在列，足见其一贯以来的受重视程度。这不能不说是一个吊诡的逻辑：既然反对将考试等评价手段看作“指挥棒”，为什么又试图走一条通过终点影响起点的路？这是关乎评价的根本问题。直观来看，评价在教育教学中处于指挥棒的位置：怎么考，就怎么教；考什么，就教什么……那么，评价在实践中所表现出来的唯我独尊的指挥棒角色从何而来？

第七章　当前我国基础教育课程改革的教学评价观研究

广义的教学评价包括了学业评价、课堂评价以及教师评价等多方面的内容，在下面有限的篇幅里，我们仅讨论教学意义上的学业评价，即以特定的标准对教学活动所进行的检查、分析与评定，如我们熟悉的日常考查、阶段考查、期末考查、毕业考试等。作为教育教学的必要环节之一，它是“教学意义上的概念或教学范畴，不是选拔意义上的概念”^[1]。也就是说，我们所讨论的主要是一种内部评价，不同于以选拔为目的的外部评价，更不同于以管理为主要目的的各种考核与评定。

毋庸置疑，这一领域眼下十分热门。在许多人眼中，许多教育问题或是与教育相关的问题，从学生的身体发育、心理健康到思想状况，从知识掌握、能力培养到价值观形成，似乎都可以归咎到教学评价的头上。其中比较流行的看法是，现有的评价体系阻碍了学生的健康成长和全面发展，束缚了学校教育，成为奴化教师和学生的异己力量。2001年颁布的《基础教育改革纲要（试行）》提出，要“改变课程评价过分强调甄别与选拔的功能，发挥评价促进学生发展、教师提高和改进教学实践的功能”。在许多人眼中，正是传统的评价与考试体系阻碍了课程改革的顺利进行，如“评价标准划一，平等价值失落；评价主体单一，自主价值式微；评价功能错位，发展价值缺失”^[2]等，尤其是考试的压力，极大地束缚了教师进行课程改革的积极性和创造性。“如今教学评价理论的发展水平不高，实践探索的程度不深，表现为把教学评价看作是终极的结果评价，把一个单一数学模型的数据演绎为若干具有丰富想象意义的观点、结论和最为神化的操作指南，等等。”^[3]“为了保证新课改能够顺利实施并取得满意效果，构建符合时代精神、适应新课程改革发展需要、科学合理的教学评价体系已成为课程改革成功的关键要素之一。”^[4]“就我国目前的情况来看，教学评价还存在诸多问题，如：评价观念落后；评价目标、内容、形式单一；评价指标体系不明确，等等。究其原因，主要在于支撑现有课程教学评价的理论基础已不适应现代教育的发展，因而导致现有课程教学评价扼杀了学生的创造力以及学习兴趣，同时也泯灭了教师教学的热情和动力。因此，要改变现有课程教学的不良状况，以配合基础教育课程改革的发展和深入，就必须建立新课程教学评价体系。”^[5]

2002年12月18日，由教育部制定的《关于积极推进中小学评价与考试制度改革的通知》正式下发，提出要进行中小学升学考试与招生制度的改革、普通高中会考制度的改革，并继续深化高考改革，积极探索综合评价、择优录取的高等学校的招生办法。2011年3月28日，教育部最新公布“十二五”教育改革发展主要任务，招生考试评价制度改革赫然在列，足见其一贯以来的受重视程度。一方面，人们针对评价的模式、方法等展开了全方位的探索，出现了许多新的评价模式，如“主体性素质教育评价模式”“个体发展教育评价模式”“五育并举目标模式”“层次结构目标模式”等，产生了诸如“素质教育报告单”“分数＋等级＋评语”等评价报告模式。各种新潮的名词层出不穷，各领风骚，纷纷摆出一副救世主的面目，似乎只要改变了评价方式，就可以影响和决定教育教学，解决当前学校教育中的种种问题。这不能不说是一个吊诡的逻辑：既然反对将考试等评价手段看作“指挥棒”，为什么又试图走一条通过终点影响起点的路？换言之，我们究竟应该把评价摆在一个什么样的位置上？评价的本职工作、基本功能和自身的内在要求究竟是什么？从甄别选拔转为育人为本，评价区别与其他教学环节的独特作用如何体现？更有甚者，一谈到综合素质评价，有的教师就不敢再使用纸笔测验；一谈到过程性评价，有的学校就废除期末考试；一谈到反对应试教育，干脆就全盘否定考试……诸如此类的现象，实在发人深省。另一方面，教育工作者们对评价的功能、地位以及它与教育改革之间的关系展开了大量的反思和讨论，如以“教育评价”为关键词搜索CNKI数据库，仅从2000年至今，便有近6 000篇文章；以“教学评价”为关键词的文章更是多达13 000余篇。这些论争反映了实践领域的活跃与较量，反映了人们认识上的变化和发展，为评价理论的进一步丰富和深化提供了土壤和材料，下面我们就择其一二加以讨论。

第一节　教学与评价的关系之辨

评价在教育教学中的地位究竟如何？这是关乎评价的根本问题。直观来看，评价在教育教学中处于指挥棒的位置：怎么考，就怎么教；考什么，就教什么……这似乎是不容置疑的逻辑。日常教学中，我们经常听到教师给学生说这个不考，言下之意便是不必好好教、不必认真学；那个是重点，往往指的是考试重点。基于此，有学者提出“评价中心论”自然不足为奇，更有所谓“评价万能论”，即将评价等同于教学。“评价作为对话时，在了解学生学习结果信息的同时，教师实际上在进行新的教学，学生也在进行新的学习。也就是说，评价在这里已不再是教学过程的一个环节，它就是教师的教和学生的学，或者说，它就是教学。”^[6]以上种种，都对教学评价的地位进行了错误的高估，是一种不切实际、回避主要矛盾的心态的体现。正如有学者总结：“在整个基础教育改革中，中心问题是发展问题而不是评价问题。教学评价既要适应课程与教学改革的新形势，努力自我完善，又要保持一定的独立性，发挥好对课程与教学改革的监督、检验功能，只有这样，教学评价才能真正成为课程与教学改革的促进者，也才能使基础教育改革呈现健康发展的局面。”^[7]

一般来说，在教学的各个环节和要素中，尽管有着各种统筹、渗透、融合和相互建构，教学与评价之间的关系总体可以看作一种界定相对清晰、操作程序相对分离、顺序相对明确、功能相对独立的关系。人们总是先设定目标，然后展开教学，最后进行评价。在这种惯常的操作程序中，我们看到，评价的中心地位并没有什么特别明显的征兆。那么，评价在实践中所表现出来的唯我独尊的指挥棒角色从何而来？

概括地说，是评价被有意或潜意识地越出教学自身功能范畴，人们重视“评”，却并不重视“价”，重视评出来的那个量化符号“分”，却并不深究这个“分”体现了些什么价值，至于它体现的价值的效度、信度、区分度就更少有人关心。“把测验分数本身看作目的，并且把它看得比它们所代表的知识还重要的倾向，所反映的主要是对学术成就的真正价值所持的不良的社会态度，而不是这种态度的原因，也不是测量和评定必不可少的结果。”^[8]

所谓育人为本，决定学校教育的中心工作始终是课堂教学。从这个意义上，教学问题永远是首位、基本的问题。无论何时，我们的关注点首先都应该放在解决教学问题上，如教学目标的确定与落实、教学内容的选择与组织、教学过程的优化、教学方法的综合与多样、师生关系的改善，等等，这些是学校教育中最基本的工作和任务，是课堂教学质量的核心竞争力。如果我们总是盯着教学评价问题，就会让评价淹没了课堂教学，颠倒了本末关系，使改革流于形式。更进一步来说，我国基础教育的中心问题是发展，仅仅从改进评价机制入手，将现实教育中的各种问题归之于评价、指望通过评价机制改革解决教学问题的看法和做法，无异于本末倒置，难以解决根本问题。设想一下，如果教育整体质量始终得不到提升，那么，不管使用什么样的学业评价方式来考核学生，都不可能消解眼下出现的种种问题。

那么，评价在教学环节中又处于一种怎样的地位呢？按照教学认识论的观点，教学认识是人脑对客观世界的反映，学生的主观反映是否与客观世界相一致，必须通过检验才能判断。教学认识的检验，也就是我们这里所讨论的教学评价，主要体现为教学效果与预期目标之间的不断对照。通过这种对照，人们获得学生掌握教学内容的各种反馈信息，依靠这种反馈信息，教师可以做出比较准确的教学决策，设计和控制下一步的教学认识过程。也就是说，在教学认识过程中，学生究竟掌握了哪些知识、技能，获得了哪些新能力，在品行和审美等方面又发生了哪些变化，需要进行必要的检查，并对检查结果做出评判。如果不对学生已获得的认识进行检验，下一步的教学认识活动就难以确定基点，教学设计就会缺乏针对性，就不能使教学认识过程持续、连贯、系统地进行。这说明，教学认识检验是完整的教学认识过程的一个不可少的环节，教学认识过程的不断延续和深化离不开教学认识检验。无独有偶，奥苏泊尔曾将评价的必要性归纳为三点：①必须先弄清楚学习者已经掌握了什么，才能进一步对他们进行教学；②必须对他们的学习进行监控，才能对他们的学习进行纠正、澄清和巩固；③必须对不同的教学方法、不同的教材组织和安排（课程）的效果进行监控，以及弄明白所订的目标已经实现到何等程度。从这个意义上讲，在任何教学程序的开始阶段、进行期间和结束以后做出评定都是很重要的。首先，人们必然决定想收到的是什么样的效果，从而据此组织教学过程。其次，在学习的进程中有必要决定究竟向目标进展到什么程度——这既是对学生的反馈和激励，也是监督教学效果的一种手段。最后，从学生成绩的角度和教材及教法的角度来看，对照所定的目标来评定最后的学习结果也是很重要的。有了这样的反馈信息，我们就能够修改教学计划。如果原来的目标不合实际，我们也可以重定目标。诸如此类，奥苏泊尔总结说，过去和当前对教育中测验运动的许多反对意见，乃是由于多数测验所测定的只是教材学习中的一些琐细和零星的东西，强调短期的机械的学习，并且认为测验分数本身比它们所代表的知识还重要。然而，测验的这些缺点只不过说明过去的和当今的测验程度和目标有问题，并不一定是测量本身固有的问题。也就是说，所有这些缺点都是可以补救的。^[9]换言之，我们现有的评价机制确实还不够健全，依然存在很多不合理的问题，因而需要在评价机制上有所突破。但是，作为一种整体判断，评价改革决不能成为整个改革的中心工作，而只能是其中的一个重要环节。

从这个意义上，我们说，教学评价绝非各项工作和改革的起点，它必须复位于教学环节之中。让教学评价走下“神坛”，回归原位，成为日常教学的一个基本环节，这是我们正确认识和有效开展评价的前提和基础。只有给教学评价一个合理的定位，把评价恰当、合宜、有机地融入教学之中，使其有效地发挥其特有的功能，才有助于我们对课程与教学基本问题的关注和解决，有助于教学评价和课程改革之间的良性互动。

第二节　教学评价的功能之辨

教学评价究竟应当在怎样的范畴中发挥怎样的功能，这同样是个关乎根本的问题。与之前的讨论相比，功能和地位既相互关联又有所区别。对评价功能的看法决定了其地位，而对评价不同的定位则反映了对功能的认识。从这个意义上，两者是相辅相成的。但是，地位更多地指向评价与教学、课程等范畴之间的关系，而功能则深入教学过程内部，分析其对教学活动、学生发展所起的作用。从这个意义上，分别讨论评价的地位和功能还是很有必要的。

根据国内比较通行的表述，评价的基本功能包括四个方面^[10]：①诊断：即今天人们所说的甄别，指通过评价，了解教学活动的情况，尤其是学生掌握的情况，从而判断它的质量和水平、矛盾和问题，等等。②强化：通过评价，使学生进一步巩固所学，了解不足。③调节：利用评价所获得的各种信息，师生能够自觉地调整未来的教学行为。④教学：评价本身也是教学活动，学生在这种活动中也获得知识，形成能力和品德。

新近一轮课改以来，“为了每一个学生的发展”作为一个核心理念影响了教育发展的方方面面，体现在评价上，最明显的变化就是所谓功能的转变。“每一个学生都有相对于他人的智力强项，教学评价的主要功能就是要帮助所有的学生发现和识别自己的智力强项，培养和发展学生的智力强项，从而使全体学生都能得到发展。”^[11]用一句形象的比喻来说，评价不再是分出等级的筛子，而是激励学生发展的泵。单看这句话，似乎无可厚非。评价本身若能在促进学生发展方面有所作为，自然是好事。很多老师在这方面也的确很有感触，比如考过的知识学生往往掌握得更好。但细想下来，评价的本职工作或者说基本任务到底是什么呢？是促进学生发展吗？那么还需要教学做什么？在最一般的意义上，我们说评价的作用就是要确定各种重要的教育目标实际上达到了何等程度，进行评价解释对价值和成绩做出判断，对教育结果是否实现了某些特定的教育目标做出鉴定。过去的评价或许在发展价值上有所缺失，需要我们在今后的工作中加以重视，但归根结底，评价的根本职能依旧是甄别和判断。评价的最终目的是为了改进，而不止于甄别和判断，但甄别和判断确是评价的首要和基本功能。以严肃的态度对待教学，我们就必须得有精确的方法来测定各个学生的学习结果，并且弄明白这些结果是否同我们的教学目标相符合。

在这里，我们需要把评价的功能和教学的功能加以区分。毋庸置疑，教学的根本任务和基本功能是发展，而评价作为教学的一环，固然与教学其他环节共同承担着发展的职能，但其独特功能始终是，也只能是甄别和判断。如果我们一味地强调发展功能，淡化甚至取消甄别功能，那么，评价的独特作用便会丧失殆尽，评价与教学其他环节也就没有了本质的区别。只有各司其职，才能最终完成教学的任务，否则，一窝蜂地全都去关注学生发展，反倒会使发展沦为口号和形式，失去真正的发展机会和途径。说到底，评价永远不能直接等同于学生的发展，学生是“教”出来的，而不是“评”出来的，学生的发展主要依靠的是以常规教学为主的各种教育教学活动，而不可能主要依靠评价。开头的历史回顾也已经清楚地告诉我们，教学评价自诞生之日起，所承担的主要功能就是甄别和判断。教学效果的评价从最初比较简单的考试，到追求所谓精确客观的教育测量，再到今天的教育评价，可以说是不断地走向全面和科学，然而以甄别为基本功能的特点并未发生改变。人们需要知道教学效果究竟如何，需要知道学生是否达到了教学活动的预期目标，达到的程度如何。至于评价的其他功能，如调解、改善、发展、教育等，都是建立在对上述问题具体而确定的判断的基础上。比如，准确地了解教学活动的得失，师生在进一步的活动中就可以有针对性地改善教与学的行为，这就是评价的调节功能；从评价的明确结果，可以知道自己过去所学哪里得当、哪里不当，这就是评价的强化功能；在接受评价的过程中再次认识知识，进行思维、体验情感等，这就是评价的教育功能。由此可见，甄别是其他功能的基础，失去这个基础，评价将等同于一般的教育教学活动，而一旦与一般教育教学活动没有分别，评价自身独立存在的意义也就丧失了。从这个意义而言，只有借助评价，教育者与受教育者双方才能够获得有关教学活动实际效果的各种信息，教学活动才能够自觉有效地持续进行。评价之所以不可替代，为教学活动所必须，正是因为它所具有的这种独特的甄别功能。

当然，这并不是说评价的甄别功能就没有局限。简单来说，考试本身就带有特定的局限性，任何一次考试都不可能将课程的知识和要求全部罗列出来考查学生，而总是用试题样本的组卷形式来考查，带有一定的主观性和随机性；考试时，学生将自身的心智特质转化为考试反应行为，表现在每个试题的解答上，也受多方面因素的影响；判分时，不光有判卷者个人因素的影响，合计的卷面总分亦模糊了每个学生在每道试题上的差异表现。因此，如果教师简单地运用考试分数来评价学生的学业成就，不去分析考试结果形成的内在原因，长此以往，势必会使教学评价变得盲目、缺少分析、没有诊断，最终偏离教育目的。另一方面，我们确实需要重视评价对于个体认识的动力和促进作用，通过评价所发现的现实结果与理想目标间的差距常常是推动个体认识进步的有力杠杆。与此同时，评价也为师生提供了准确的信息反馈，这些对于提高教学质量都是极为重要的。当我们完成了评价的基本任务，对学生的发展状况和学业表现有了比较清晰的鉴定和评判，便可以进一步从这些差异的分析中判断存在的问题与不足，为下一步的教学提供基础。说到底，评价的甄别、判断功能与发展功能并不是针锋相对、非此即彼的。在实际工作中，教学目标的制定、实施和评价是一个循环往复的过程。我们必须对评价的各种功能及其关系有一个正确的认识。从整个教学工作来说，促进学生发展是我们的最终目标，而判定学生的发展水平则是评价所承担的独特任务，“评价的作用是提供适合的证据，以帮助教师、学生按照目标要求的方式变化”^[12]。

总而言之，强调评价的甄别功能，并不是反对提倡和发挥评价的其他功能。从评价的根本意义上讲，包括教育功能在内的其他功能是从属的和相对次要的，发挥和突出评价的其他功能，不能否定、更不能取代评价的最根本功能——甄别。有论者认为，必须从过去的甄别选拔转向促进发展，而为了实现这一功能的转变，评价的主体、对象、内容、方法、结果都要随之作出相应的调整和转变。然而在我们看来，评价的根本功能是甄别，尽管教学实践确实存在着评价的异化现象，例如将评价的甄别功能滥用，致使评价的其他功能尤其是教育功能极度萎缩，甚至使评价沦为束缚和压抑学生的工具。然而，解决这些问题的办法是加强评价的科学性，而不是取消评价或者否定评价的甄别功能。甄别不是误区，现实当中由于各种原因而发生的对于甄别功能的滥用才是误区。更进一步地讲，学生发展水平的高低，主要是由教育活动决定，而不是由评价机制来决定的。把学生发展得不理想归罪为评价的甄别功能，这不符合最基本的逻辑。中国教育的种种弊端，绝非评价机制本身所能一手操控。分数和升学身上所附加的众多社会功利因素，更不是教学评价功能本身的特性。

第三节　教学评价的主体之辨

教学评价的主体问题是近年来比较热门的一个话题。自我评价、同伴互评、小组评价等时髦的提法，不断冲击着传统的教师单一评价主体。应该说，现代评价的一个重要趋势就是重视自我评价在评价过程中的作用，重视发挥被评对象的自觉性和积极性，承认被评对象有能力认识自己的长处与不足，承认他们在改进自己的工作或行为方面有他人不可替代的作用，而心理学的有关研究也强化了人们的这一认识。人能对自己获得的主观认识进行自我检验，这是作为主体的人的重要特点。单一的外部评价容易在评价者与评价对象之间形成紧张、对立的关系，被评价者总是担心评价结果，对评价者心存芥蒂、小心翼翼，甚至处处设防，这既影响评价工作的顺利进行，也使评价工作不够全面，反映的情况也不够深入。不难想象，如果学生在成长过程中面对的始终是单一的外部评价主体，完全处于被动地位，自主意识和主体价值势必式微。在一定范围内，让学生自主支配考查方式，给学生更多的自主权力和发展空间，有利于提高学生的自主意识，更好地发挥各自的优势和特长，培养自我控制和反思的能力，这对他们将来走向社会也是大有益处的。

但是必须指出的是，在客观地认识自己这一点上，学生个体还存在着很大的局限。事实上，成人尚且无法完全做到和做好，何况是身心发展均未成熟的学生？除此之外，自我评价往往具有偏高的倾向。美国哥伦比亚大学的霍林沃斯教授曾把自我评价和他人评价进行比较，结果表明，优良品质的自我评价经常比别人评价高，不良品质的自我评价却比别人评价低。美国心理学家沙平和日本心理学家加藤隆胜的研究也得到了同样的结果。我国华东师范大学心理系师生对小学、中学、大学五个年龄组（8、11、14、17、20岁）三百多名学生的自我评价进行了研究（采用自我评价和小组评价对比），结果表明，肯定性的自我评价高于小组评价。

毕竟，从个体发展的角度来看，自我评价能力不是天生就有的，而是逐渐发展起来的。在这一发展过程中，独立性品质由弱变强，评价的原则性也逐渐形成并不断发展。一般说来，这个过程是从检验他人的认识开始的，在检验他人认识的过程中，逐步学会用别人作为“镜子”来检验自己。就像马克思曾指出的那样：“人起初是以别人来反映自己的。名叫彼得的人把自己当做人，只是由于他把名叫保罗的人看做和自己相同的。”^[13]学生根据获得的外部评价的经验，逐渐学会了如何独立地评价自己的学习结果。

从这个意义上，自我评价绝不能作为教学评价的主要方面。它只有同外部评价相结合，方有教育意义。在实际操作中，重要的是教会学生掌握评价的方法，让学生学会依据一定的标准进行评判，提高在具体情景中的分析与判断能力，进而通过自评调动其内在动机，提高学生的自主意识，建立良好的反思与总结习惯，从而有利于其一生的发展。换句话说，评价的主要功能还是要由他评来实现，自评作为评价发展的方向和追求的目标，是一个逐步实现的过程。如果从头至尾都将自评作为教学评价的主要手段，学生自始至终都是评价的主体，既当运动员又当裁判员，其结果必定是灾难性的。现实中出现的种种问题，如自评中的被动应付、形式主义及弄虚作假现象，一定程度上皆缘于此。说到底，现代教育作为一定程度上外在于学生个体、强加于学生的有目的、有组织的社会活动，其结果的判定必须主要由外部来完成。重视自评是对的，坚持他评也是对的。我们要关注的不是主体转向的问题，而是通过自评与他评的结合，尽量减少误评等现象的发生，提高评价的准确性和自主性，避免评价的随意性和消极性，确保评价活动的积极有序和学生个体自主性的长远发展。

第四节　教学评价的标准之辨

任何评价本质上都是价值判断的过程，评价标准实际上就是价值判断的标准。没有标准，就无法评判高低和好坏。而不同的标准，会使得人们对同一个事物作出迥然不同以至截然相反的价值判断。换句话说，“应该怎样”和“是怎样”是教学评价中的一个基本矛盾，而评价标准的选择就是围绕着这一矛盾展开的。从这个意义上，标准的确立至关重要。在评价过程中，评价方法的选择，评价信息的收集，评价结论的得出都与评价标准密切相关。在开展评价的准备阶段，评价者的首要工作就是确定评价标准。辞典里通常把“标准”解释为“衡量事物的准则”。依照真理的符合论和价值论的一般观点看，标准应当是主观认识与客观事物之间的符合性，价值的标准应当是客体性能对主体满足的需要性。所以，评价标准的制定必须建立在价值主体需要的基础之上。教学作为学校教育的中心环节，其价值主体可归结为社会和人两个方面，即教学必须满足社会发展的需要和人发展的需要。其中，前者要求教学必须按照社会的要求确立教育教学任务，满足社会的教育需要；后者则对教学提出了促进人的知识、个性、情感、态度和能力等发展的要求，满足人的教育需要。由此，评价的标准自然也应该从这两方面展开。

按照教学认识论的观点，教学评价主要不是直接通过社会实践来进行的，而是主要通过社会实践的一种特殊形式——考试来进行的。也就是说，考试是教学认识检验（即教学评价）的主要标准。这里所指的考试，是一个广义的概念，包括通常所说的一切考试、考查、测验、带检查性的练习、实验作业等，是一切教学结果的检验活动方式的总称。当然，考试标准也有局限性。首先，教学内容是不断发展的，经前人实践证明为真理性的认识，不一定永远为真理。因此，教学内容的不确定性使考试也成为不确定的。例如，在教学大纲、教科书编写上有问题，特别在教师讲授中有问题的时候，学生认识的内容本来已经与客观世界不一致，但在考试中有可能被认为是正确的。其次，考试标准不能作为教学认识检验的最终标准，学生所获得的认识究竟是否与客观世界相符合，归根到底只能用社会实践来检验。第三，考试结果有时有偶然性，因为考试并不能对学生所获得的每个认识都进行检验。前面已经说到，实践作为检验标准同样有这种局限性，而考试就更是这样。例如，正确认识没有被检验到，不正确的认识却被检验了，或者是不正确的认识没有被检验到，只检验了正确的认识。尤其是当教学认识检验的目标、内容、方式、结果分析不够科学时，考试的不确定性更加突出。因此，考试作为教学认识检验的标准，既有合理性、确定性，同时又有局限性和不确定性，它是确定性和不确定性的统一体。

正是基于这种局限性和不确定性，有些学者对评价标准的客观性和统一性提出了质疑，尤其是新课改以来，评价标准出现了随意性的倾向，有些人主张评价标准的多元化和个性化，有些人甚至根本就没有标准意识。比如，有人认为“如果在教学一开始就已知一特定目标，那么教学过程与评价一样，都可能存在偏见。而为评价提供一个可供参照的标准，则将导致标准参照教学。这意味着教学可控制学生的学习活动。标准参照教学和评价是原型地客观地建构，它不适宜于建构主义环境的评价……在评价过程中，应该反思和接受这些多样化的观点和表征形式，而不应该用一套单一的结果或标准来评价学习。所以，建构主义教学评价认为，仅仅对一种类型的结果进行评价是不可取的，同样，仅用一套标准评价结果的质量也是不可取的。”^[14]

的确，教学评价作为对教学活动和现象的价值判断，必然受到教学活动本身的复杂性的影响而更加纷繁多样。评价者面对的是各具特色的主体以及主体参与其中的丰富复杂的活动。有的学者借用解释学的观点，尤其是那句“自然需要说明，而人必须理解”的著名论断，认为需要从理解的角度重新审视教学评价。在他们看来，无论是学生，还是教师，抑或是二者共同参与其中的教学活动，都不是恒定的，而是不断生成、不断变化的。因此，评价就是理解，就是使意义得以自然展现的过程，是理解者在心理上重新体验他人心理的过程。如果采用既定的统一标准，就会丢失许多有价值的信息，误解评价对象，丧失教学评价应有的功能。还有人认为，真正的教育目标是难以捉摸和无法测定的，把确定的评价标准用于学生的学习是令人厌恶的，也是同人本主义的教育精神不相容的。上述种种观点，带有明显的感情用事的色彩和神秘主义的态度，显然有失偏颇。

一般来说，评价者的主观评价之所以可以反映客观实际，其前提首先应是：在价值观的较多方面大体相近，由此才能比较容易地形成统一、比较满意、比较完备的价值规定，进而形成改善过程的依据和动力。从这个意义上讲，价值本身可以多元，但标准必须统一而确定。任何教学评价必定是依据特定的标准（依据教学目标而确定的）对教学活动所进行的检查、分析与评定。如果没有特定的标准，或标准多元、不确定，或只强调评价标准的生成性，主张评价者与被评价者共同商讨而成，最终只会使得评价无从展开。评价标准的确定并不意味着平等价值、激励价值的失落。相反，评价标准的随意性反而会让评价的激励意义大打折扣。“所谓的‘多一把尺子就多一批合格的学生’，虽有道德关怀的意义，却是对确定的教学目标的蔑视，是对严肃教学的消解，是对某些学生的歧视，也是对另一些学生的不公平。评价内容多元化、评价方法多元化的进步，并不能随之而推导出评价标准也要多元化。评价标准的统一、确定，并且根据统一而确定的教学目标对学生的学习结果进行甄别与判定，是具有明确教学目标的教学活动的特征之一。”^[15]

当然，我们在强调确定标准的同时，要避免评价标准的机械和僵化问题。评价标准一旦形成，并不是固定不变的，根据情况的变化，评价标准也可以有相应的变化，其变化的来源可能来自多个方面。这种调整既是适应教学水平变化的结果，又是促使教学不断提高的条件。奥苏泊尔曾说过：“在意义学习的过程中，学生必须把组成要素同他或她的特定的认知结构联系起来。其结果，在学习者如何内化信息和教师如何理解信息之间，几乎总是有某些微小的差异。因此在以后回忆语句或命题时，尽管学生的回答在实质上是正确的，但同教师所期望的可能多少有点不同。”^[16]在这个意义上，似乎永远没有所谓的“标准答案”。然而，这并不是使教学评价标准走入相对主义。按照奥苏泊尔的说法，虽然具体的词句或命题表述方式可以有所不同，但“学生的回答在实质上是正确的”，这既可以看作对评价标准机械和僵化的警示，更可以看作对确定标准的阐述。更进一步来说，教学评价始终是社会评价和个体评价的有机结合，在评价过程中，特别是评价标准的确定过程中，社会需要是非常重要的一极，由此而制定的标准也必然具有相对的确定性和一定时期内的稳定性。如果无视这一点，教学评价标准的确定必然会滑入相对主义、虚无主义的泥潭而不能自拔。从实践来看，只要我们不人为地去制造学生的失败，制定合理的标准，做到恰如其分、实事求是、讲究方式方法地展开评价，那么，标准的确定将有益而无害。

第五节　教学评价的方法之辨

跟随标准而来的，是我们实施评价的方法和手段。评价方法解决的是途径与方式的问题，对教育评价方法论的研究大致经历了三个时期：①教育评价方法论研究的实证化时期。其特点主要表现在泰勒的目标导向评价模式之中，体现在评价手段的客观化、精细化及可操作性方面。②教育评价方法论研究的人文化倾向时期。其特点主要表现在斯塔弗尔比姆所倡导的CIPP评价模式中，首次提出了过程评价的思想，注意到与评价对象的充分交流，强调人的思想、观点和主观经验在评价中的作用。③教育评价方法论研究的综合化时期。应该说，多样化与综合化是评价发展的正确发展方向，更是我们努力的方向。然而近年来，我们却在实际教学中走向了偏颇。严格地把握评价标准和尺度，确定合理的评价程序，最大限度地降低评价手段等主观因素，努力排除个人感情和价值观的影响，进而对学生作出尽量客观准确的评价等，这一系列做法倏忽之间成了传统评价的弊端，成了教师需要极力避免的做法。相对应的，所谓积极乐观的人文评价，只重过程不看结果，大量融入被评价者和评价者的情感因素的评价手段成为新课改极为推崇的做法。随之带来的问题便是，既然可以不定量，甚至不定性，既然可以不要结果，只看过程，那么，先前确定的标准还有什么用？评价的基本职能如何发挥？如此种种，恐怕是每一位教育评价者都不得不面对并感到困惑的问题。这里，我们主要从两个角度加以讨论：定性与定量（测量与描述），过程与终结（一次与多次），并进而归结到一个更基本的问题上加以讨论，即如何处理好评价方法的科学化方向与繁琐化倾向。

首先，定量评价与定性评价的争论在教育评价研究中由来已久。众所周知，发展是主体的积极变化过程，任何变化都不会一蹴而就，不能立即完成，所以要审慎了解，全面分析，因此，必然会有许多繁琐、反复的测量、观察要求，即使是数量的变化，也需多次同质测量，才能科学判断其变化趋势。从这个意义上看，一个真正合格的评价，必然是非常谨慎的一项工作。它对评价者的学识水平、工作方法和工作态度，都提出了很高的要求，也会有大量的工作做来不易。目前人们比较一致的观点是，在教育评价中应努力实现定量与定性结合，在实际执行的过程中，常常被具体化为量化的评价指标体系加上评语描述。应该说，这是可取的。

一般来说，定量评价以其客观化、标准化、精确化、量化、简便化等鲜明特征为世人所推崇，并在一定程度上满足了以选拔、甄别为主要目的的教育需求。但定量评价往往只关注可测性的品质与行为，强调共性、稳定性和统一性，因而忽略了那些难以量化的重要品质与行为，容易忽视个性发展，把丰富的个性心理发展和行为表现简单化为抽象的分数表征与数量计算等。相比之下，定性评价更强调观察、分析、归纳与描述的方法，强调关注现场，对学生种种表现力图做出具有教育学、心理学意义的解释与推论。尤其是近些年来，随着评价工作的广泛开展和评价理论研究的不断深入，人们开始意识到，由于教学活动的复杂性和不确定性，也由于教学评价手段与工具的局限性，完全追求资料的数量化或客观化很难，甚至根本不可能做到。因而，在评价中，人们注重多运用定性分析；在资料收集过程中，多运用自然观察；在资料整理方面，多运用模糊数学的方法。即能进行定量分析的尽量进行定量分析，不能进行定量分析的则进行定性分析，注意将各种不同的评价方法结合起来运用，使评价技术手段的使用更加灵活、精当。这种做法和思路是可取和有益的。

毋庸置疑，教学作为一种复杂的社会活动，其结果受到诸多因素的制约。由此难免引发一些人的疑惑：教学是否可测、可评？更进一步地，由于人的思维具有多维、不完整、瞬时、非连续性、跳跃性、简约、模糊等诸多特点，有学者基于此而引入了模糊测量的概念，主张根据教学本身的特点，在指标内容、表现形式、评定结果上都要考虑模糊的特性。应该说，这种提法是有理有据且有益的。然而，有些学者因此就认为教学过程不可复验，进而反对或抵制教学评价，尤其是量化评价，却是不足取的。他们忽略了这样一些基本事实，即教学总是有目的、有指向、有计划、有组织和有程序的活动。师生的课堂行为尽管变化不定，但总有其经常性的特征；教学结果的制约因素固然多种多样，但教师的教授水平和学生的接受程度终归是主要因素。因此，通过以目标（教学大纲和教科书规定的标准）为准绳对学生学习结果的测量，基本上还是可以实现并具有相当的说服力的。当然，对教学的评价不可能如物理测量那样精确、客观，但“大致如此”的测量和评价还是可以做到的。如果教学目标确定得合理、具体、清楚，如果测量手段能描绘出学生比较稳定的行为特征，对学生的学习成就作出比较客观的评价并非毫无可能。

此外，还有一些教师担心，现有的评价技术手段很难为评价人员提供有效、可靠的信息。诚然，教学评价技术手段的开发并不太早，科学性程度也较低，但这绝不应成为怀疑教学评价甚至反对教学评价的理由。自19世纪起，人们对各种教学测量技术手段的开发就已开始。而今，各种声像设备、统计技术和信息传输媒体已被广泛地运用于教学评价，使评价据以做出的各种信息有了较高的可靠性和有效性。只要我们能合理地运用现有的评价技术手段，并在运用时充分考虑教育学、心理学、测量学的有关原理，恰当地将其运用于与之相匹配的评价模式中，那么，对教学做出比较可靠、有效的测量和评价并非难事。

另一方面，教学评价存在着一定的甚至是大量的误差，并且，许多是由主观因素而产生的，这也是事实。即便是在高等学校入学考试这样极具权威性的考试中，阅卷者对同一试卷的评分也有很大的差异。至于学校中进行的日常测试，其评分的主观性就更大了。那么，这些由主观因素造成的误差是否很难消除或者没法降低呢？是否因此就怀疑教学评价的客观性或应该取消教学评价呢？答案同样是否定的。尽管主观误差大量存在于教学评价中，但科学的评价程序、精心选择的测量手段以及专门采取的控制措施等，可在一定程度上降低主观误差，或将其控制在可接受的范围之内。

总的来说，应该以实事求是的态度来看定量评价与定性评价，重视评价方法的多元，注重开放式地收集评价信息，全面了解教学效果。在我国基础教育考试评价改革中，应从实际出发，既不能片面强调单一的定量评价，也不能脱离实际，用定性评价完全取代定量评价。事实上，人们对单纯量化弊端的认识由来已久，如阿莫纳什维利的无分数尝试。但是需要明确的是，尽管阿莫纳什维利主张取消分数制，但在教学评价中并非没有量化的因素。他测验学生在学习活动中的正误程度及其速度，如学生每分钟可阅读多少个印刷符号，每堂课能做出几道算术题，对错各为多少，作文课上每小时能写多少字，等等。这种旨在了解学生学习的进展情况和掌握知识的牢固程度与熟练程度的评价，其中的量化因素更加细致而具体。另一方面，也要意识到实施定性评价是有条件的。特别是当班级越来越大，教师无法深入了解学生时，教师对学生的分析会越来越肤浅，评语会越写越简短，甚至缺乏实际内容与针对性，千篇一律、千人一面，使定性评价流于形式而不能发挥应有的作用。

接下来，再分析过程评价与终结评价。“形成性评价和总结性评价这些术语是20世纪60年代晚期才出现的”^[17]，对于学生的课业发展评价来讲，终结性评价主要是判断学生在某一时间点所取得的成就或表现，关心教学目标的达成情况，了解学生会什么和不会什么。它通常借助阶段测验或水平考试的形式。应该讲，任何有计划、有目的的教育活动，其终结性评价都是有意义的。那些“只顾耕耘，不问收获”的做法，不是终结性评价所倡导的。当然，终结性评价对不同学生个体如何取得现有的学习结果以及在学习历程中存在什么问题，不是特别关心。相比而言，过程评价是针对课程实施过程或学生学习过程所进行的评价，经常采用形成性测验和诊断性测验的评价方法。在过程评价中，更加强调评价者对师生行为的理解，师生在活动中出现某一种特定的行为，不是简单地把它与既定的标准相对照，看其有无差异或差异程度如何，更重要的是去发现外在行为背后的原因，特别是注重分析典型或异常行为背后的原因。与之类似的还有目标游离评价，即评价者寻求教育方案及教育活动等可能产生的一切扩散的、潜在的、在评价时不一定可以感觉到的效果，而不把评价局限在指标体系规定的那些内容中。支持者认为，这样一种评价方法可以确保评价更加科学合理，尽可能反映不同课型、不同学科的特点，而且可以确保课堂教学追求特色和创新，实现“以评促教”的目的。

与之前的讨论类似，二者的优劣其实早已一目了然：过程评价有很强的灵活性，不足之处是总体效益低，主体主观性强，易受干扰。终结评价准确高效、适应性强，并且具有说服力强的优势，不足之处是重结果，忽视评价者与被评价者之间的交流，缺乏灵活性。因此笼统地看，两个评价方式间是一种优势互补的关系，仅有任何一个都是不完善的。恰当处理好两者间的关系，可以充分发挥各自的长处，弥补缺陷。“教育价值有两种含义：教育中的价值和教育的价值。前者指教育中应该在学生身上培养哪一些价值；后者是指怎样的活动才具有教育上的价值，才能有效地获得那些教育中的价值。”^[18]一般来说，结果评价是以往教学评价的主要形式，在进行教学结果评价时，所收集的信息比较单一，且在大多数情况下是量化信息，依据这些信息得出的评价结论以分数为主要表现形式。新一轮课程改革强调关注学习过程，把评价贯穿在日常教育教学过程中。应该说，这种主张对实践是有建设意义的。我们都知道，简单一次期末考试确实很难反映学生在一个学期里的学习情况和多项能力的发展，同时会给学生带来较大的心理压力，产生紧张情绪和恐惧心理。将一次性的终结考试改为结合教学过程进行的多项考查，既有利于促进学生积极参与教学过程，掌握一定的知识、技能和方法，又能减轻学生的心理负担，积极参与各项考查活动。每次考查只是对学生学习过程的检查与反馈，学生能通过考查调整学习方法和学习进度，寻求成功的途径，激发内在动机，促进其主动发展。

最后，讨论一下评价方法的科学化和繁琐化倾向问题。教学评价追求的方法是尽量科学化，这一点是毋庸置疑的。由于科技的进步，新的科学评价方法和工具不断引进到评价领域，如系统科学的方法、模糊数学的方法以及计算机的运用等，使得教学评价的方法更加多样化，领域也更加宽泛。由此，在过去一般性的统计分析的基础上，如平均分、答对率等之外，我们有了更多的工具。这一点是可喜的。如对学生学习效果进行评价时，不仅可以通过班级内的课堂测试、单元结束时的阶段测验、学期末的年级考试、跨学校的统考等笔试形式，获得相对划一的信息，也可以通过对学生作文、读书报告、日记、小制作、绘画等日常作品的收集，反映学生学习个性化和多样化的信息，还可以通过教师的课堂观察和日常观察了解学生的学习方式和结果。通过多渠道、用多种方法获得的学生学习的情况，就可以形成学生学习发展的全景，依据这些评价信息也可以互相验证，防止出现漏评或错评，对学生学习评价的结论也能够更具个性化，可以有效地避免学生评价中长期出现的单一化和僵化的弊病。

但是，随着名目繁多的评价方法而来的便是另一个值得重视的问题——评价的繁琐化倾向。教学评价本来就有多种方式，新课程改革更加强调评价方式的多元化，出现了自评、互评、小组评、全班评、学生评、老师评、家长评，以及“自我评价表”“小组合作表”“创新表现表”等名目繁多的评价手段。这固然有利于活跃教学氛围、促进学生的学习积极性，发现教学的成败得失。但名目繁多的评价必然需要花费较多时间，同时这些评价的可信度、效度和区分度也是个问题。比如纸笔测试，长期以来一直是学业评定的主要方式。它有着诸多优点，如比较全面地检测书面知识、技能的掌握程度，且能大规模组织，并有很高的效益，它便于记录学生的答案以及分析研究，便于制定统一的标准，提高测验效度等。从总体上来看，以纸笔为工具的书面考试，主要适合于检测与文字符号使用相关联的认知方面素质的发展状况，比如知识掌握、语言智能和数理逻辑智能的发展等。因为这些素质主要是在符号活动中存在和表现的，或者说是以符号为对象和工具的。当然，纸笔测验也有缺点，更确切地说，它的长处也正是其短处，如多局限于认知领域的教学目标。那些主要不以文字符号作为对象或工具的素质，如动手操作技能、品德、情感、意志、价值观等，无法通过书面考试的方式得到很好的检测。也正因如此，有人便提出要转向表现性测验、推荐和面试等方法。当然，倡导在纸笔测试之外展开多种评价方法，是有益的，但切勿矫枉过正，一味地排斥纸笔测验。比如推荐与面试的长处是可以比较真实地了解被试者的综合信息和实践能力，但是必须有“时间”的成本和“社会诚信”的保障。中国历史上曾采用过这样的形式，但因跨不过这两道“成本”之坎，而只能“小本经营”，未能成为评价的主流。不仅如此，在遥远的大洋彼岸，亦有同样的例子：自20世纪50年代开始，由美国心理学会（简称APA）等制定的《教育与心理测验标准》就成为学业考试的核心质量标准，并为大规模标准化考试提供了良好的专业规范。经过四次修订，《教育与心理测验标准》已经比较成熟。但在教育评价发生范式转换之时，这一质量标准在教育中的应用受到广泛的质疑：基于心理测量学、为大规模考试设定的质量标准，能否适应作为教育过程一个不可分割的组成部分的、指向学生学习改善的教育考试？事实上，自从《教育与心理测验标准》出台以来，美国出现了众多标准，如教育测验服务机构（简称ETS）在20世纪80年代中期开发的《ETS质量和公平标准》，美国心理学会在1986年针对20世纪80年代以来计算机化考试的急速增长而开发的《基于计算机的考试和解释指南》，1988年考试实践联合委员会组织开发的《教育中的公平考试实践规范》等，都试图规范教育考试。这些标准或规范基本上都源于1985年版的《教育与心理测验标准》，其中有些达到了相当成熟的程度。但遗憾的是，这些标准甚至在大规模考试实践中都未能得到良好的运用，许多教师甚至根本不了解什么标准和规范。导致这一结果的原因很多，但最关键的一点，显然在于测验手段过于繁琐，甚至神秘化。

评价繁琐化的倾向在国内研究中同样有所表现。在1985年第6期《教育评论》上，两位研究者引荐了一种新的教学评价方法：FSP表。根据这篇文章的介绍，日本的藤田广一教授于1969年发明了S-P表作为教学评价的手段，他们则利用模糊集理论对S-P表进行改造，构造成F-S-P表（见表1）。

表1

pagenumber_ebook=168,pagenumber_book=162

如表1所示，Pj表示问题，j= 1，2，…，m，它是按问题答对人数多少而依次排列的，即题目从易到难的排列并非原试卷的题号。

Si表示学生，i=1，2，…，n，它是按得分从高到低依次排列，并非原来学生的序号。

γij表示第i个学生第j道题答对与否，即

pagenumber_ebook=169,pagenumber_book=163

xi0表示学生i答对的题数；

y0j表示第j题答对的人数。

2007年，有学者提出一种现代教学评价的新方法：“量规”。它是一种评分工具，通常给一个作品或其他成果形式（如一篇文章的观点、组织、细节、表达、布局等）列出准则，并按从优到差的级别明确描述每个准则的水平（Heidi Goodrich Andrade，1997）。一个量规是一套等级标准，每个被认为重要的评价方面／元素都有一个等级指标，每一元素的等级指标由几个等级组成，用于描述不同的绩效水平。按照研究者的说法，不同的教学目标或学习单元需要不同的评价量规。因此，教师需要根据一些基本步骤，自行设计和开发量规见表2^[19]。

表2　量规设计与开发的基本步骤

pagenumber_ebook=169,pagenumber_book=163

不仅如此，研究者还提供了一个研究型学习评价量规的范例（见表3）：

表3　研究型学习评价量规

pagenumber_ebook=170,pagenumber_book=164

在研究型学习中，根据评价内容的目标，可以确定量规的评价元素，即研究问题、信息收集、信息分类、信息分析和最终学习产品。各个评价元素等级可以划定为4、3、2、1（4代表“优”，3为“良”，2为“中”，1为“差”），对学生不同等级行为（认知或技能表现）在绩效上从好到差进行描述。如在评价“研究问题”这个元素时，绩效最高的是等级4，充分体现了学生学习的主动性、积极性和创造性。

2009年，有学者提出在教学评价中应用“逻辑特征映射人工神经网络”，这是针对非线性分类问题提出的一种全新的人工神经网络模型。将逻辑特征映射人工神经网络应用于教学评价，具有一定的科学性、合理性、智能性，可以说是教学评价的一个巨大进步。通过逻辑特征映射人工神经网络模型对学生成绩进行分类，对同一门课程成绩进行多角度分析，对教学质量给出一个客观的、科学的、全面的评价，为决策者提供了直接有效的决策依据。研究者进一步解释说：生物系统的共同特征是其对生存环境的适应能力，即在生存中寻求规律、规范行为。同样，生物系统这一特征也是自组织特征映射（Self-Organizing Feature Map，SOFM）人工神经网络所追求的目标：在无监督的情况下，从输入数据中寻找并输出有意义的规律。逻辑特征映射（Logistic Feature Map，LFM）人工神经网络，是基于SOFM的基本原理，并针对SOFM存在的问题提出的一种新型人工神经网络。LFM网络训练算法是一种后序遍历逻辑二叉树算法，具体如下：^[20]

LFM网络与SOFM网络的工作过程基本相同，其基本步骤如下：

第1步　对训练模式进行归一化处理，

第2步　逐一输入训练模式，通过竞争算法，确定竞争层获胜人工神经元。

第3步　输出竞争层获胜人工神经元的逻辑特征。

通过实证研究，他们得出结论：逻辑特征映射人工神经网络是一个新的人工神经网络模型，将该网络应用于教学评价系统中，得到了理想的应用效果。与SOFM相比，LFM更适用于海量的非线性数据的分类，收敛速度比SOFM快很多。实验表明采用SOFM对学生考试成绩（3 459位学生）的分类需要26小时才能完成，而采用LFM瞬间就可以得到结果。另外，由于学生的考试成绩的分布非常密集，采用SOFM进行分类，只能分得一类。因此，LFM更适用于学生考试成绩的分类，能更有效地应用于教学评价中。

上述种种，无需多言，相信大多数教师看上一眼，便会知难而退。很显然，教师的主要工作是教学，评价虽然包含于教学环节之中，但毕竟只是其中的一环。我们不能要求教师像专门的研究者那样，具备各种统计学知识，并且还能够腾出大量的时间专注于教学评价。

说到底，各种具体的评价方式或方法本身无所谓孰优孰劣，倘若离开了“为什么而评价”的大背景，是无从比较的。我们必须针对不同的评价目标和内容选择恰当的评价方法，针对某种特定的评价目标和内容研究如何综合运用多种评价方法手段，从而更好地达到评价的目的。对纸笔测验而言，它对基础知识的测试就具有很多好处，这是长期以来为事实所证明的。类似期末考试这样的终结性测试对一个学期以来的综合考查也有很多优越性，但仅靠期末考试无法反映学生平时发展过程的轨迹，因而非辅以日常评价和过程评价不可，这都需要我们以实事求是的态度去实践探索，切忌赶时髦和形式主义。教学活动是一个涉及面广、实践性强的过程，这就决定了从事教学评价的复杂性和艰巨性。它既要做到科学、全面、合理，又要准确、具体、易行。任何有效的评价方法，不论是客观的和标准化的，还是非正式的、教师自编的，都必须有效度、信度、代表性和可行性，并对接受评价的个人和集体有充分的辨别力。与此同时，每种方法的使用都有其前提条件，离开了前提条件谈方法的运用，是无法得出正确结论的。总而言之，学业评价的方法和手段需要不断细化，不断科学化，同时也要注意可操作性，防止繁琐哲学盛行。

第六节　教学评价的结果之辨

无论是怎样的评价，最终都有一个对结果的解释和处理问题。结果内在地包含于评价之中，“评价是指判断某一实体优劣、质量、意义或价值的过程以及过程的结果。”^[21]如何分析和利用评价结果，是保密还是开放，是横向比较还是纵向比较，是偏重激励还是偏重指出问题，这些都是值得讨论的。

评价的主要目的是监督学生的学习，对他们的进步和最后的成绩进行客观检查，从而在发现不能令人满意的情况时，采取适当的补救措施。因此，一份真正合格的评价不但要能估计学生的成绩是否实现了教学目标，同时也要能说明成绩不良的原因——不论这是由于教材或教法的不适宜、教学能力不足、学生的学习情绪或动机不充分，还是由于学习准备和努力不足。“作为一种最终成果的判定，学生的学习同社会严肃看待的任何其他的重要人类问题并无不同。”^[22]一般来说，评价结论是以充分占有有关评价真实资料为前提，为其产生的条件，并且要在作了必要的整理、处理、分析、综合之后，顺理成章地而不是勉强凑合地得出有前提的、有时间性的、相对的结论。这种结论往往不是简单的表扬或批评，也不仅是绝对的肯定或否定，而是分析可利用的条件和需避免的失误，指出需要做出什么努力，采取什么措施就可以获得什么样的结果，从而树立被评价者的信息，以改善过程，较好地达到教学的目标。事实上，教学评价同其他任何经验的和实验学科的结果检测一样，如果没有可靠的和有效的测量工具及其所提供的数据，都是绝对不可能的。要使教育成功，教师和学生都应该欢迎正确的、有系统的测验，而不应当把它看作是一种威胁、一种打扰，或是有碍于重要事务的无益活动。这就好比，要正确地处理健康问题，必须掌握各种具体的医疗数据，这种医疗上的测量并不让人反感，因为它可以对症下药；同样，教育评价也无需成为厄运的判决，相反，应是优良教学的指南，适度的评价不仅对监督和鼓励学习有帮助，而且有益于为批判性和独创性的思维树立必要而良好的标准。在一种完全不作评定的情景中，学生各种创造性的努力往往会因为缺乏指向性和纪律性而消失于无形之中。从这个意义上讲，评价总是与人为善的。当然，在这一前提下，必要的保密性是应该考虑和必须注意的，而对被评价者坦诚的公开性也是必不可少的。我们应该指导学生合理地运用评价结果，从中发现长处和不足。教师应该用科学的评价分析方法去挖掘评价结果所蕴含的教育信息，充分利用评价结果所测度的学生心智特质，发挥评价的本真价值。

近年来，教育界普遍强调对学生的尊重、赏识，倡导激励性评价，体现了良好的意愿，但要注意避免简单评判对真实问题造成的遮蔽。从实践来看，这种激励性评价其实是对真实评价结果的忽视，进而否定了整个评价过程。比如许多泛化、空洞、盲目的激励性评价，以为赞扬和奖励越多越好，有为激励而激励的倾向。如有学者提出，“课堂评价虽然也注意到学生答案的正确度，但更重视学生在回答过程中发展、推理与创新能力的显现。只要学生的回答富有个性色彩且能够自圆其说，那么，不管他的回答与教师预设的答案有多大的距离，教师同样要给予肯定和鼓励；即使其回答具有明显的错误，教师也要肯定其在思考过程中的正确的一面。”^[23]有些教师为了保护学生的积极性，一味以鼓励为主，在课堂上，只要学生回答问题，不论回答正确与否，教师一概以“好”“很好”“你真棒”“你真聪明”等赞赏性语言进行评价。更多的教师为了激励学生，更为了不戴上打击、不尊重学生的帽子，抛弃了必要的批评和处罚，哪怕学生出现比较严重的纪律问题时，也不敢批评。这显然有悖于教学评价的基本原则。不仅如此，“让学生知道他们的能力和成绩不如他们的同伴所产生的那种消极影响，无疑被夸大了”^[24]。事实上，规定成绩的绝对标准和按照学生在班级中所处的相对位置而定的等级，可能会挫伤学生的自尊心，妨碍他们做出最大的努力，但这种不利影响在很大程度上可以通过对他们的能力水平或对他们从最初到后来的进步所作的附加评定而减轻。并且，切合实际地认识到自身在同伴中智力和成就的相对位置，是每个人最终都应顺应的生活事实，且越早顺应越好，而为这种事实隐瞒真相或自我欺骗，都是无益的。

说到底，当下教学评价中出现的把赞赏、奖励当作激励的代名词，对批评、处罚讳莫如深等现象，是对激励的一种误解。激励只是评价的原则，而达到这个原则的手段则是多种多样的，不仅可采用赞赏、奖励、成功体验等手段，还可采用批评、惩罚、挫折体验等手段。激励性评价是通过赞赏、奖励、成功体验以及批评、惩罚、挫折体验等手段来激发学生的内在需要和动机，以鼓励学生自觉主动提高自身素质为目的的一种价值判断活动。一些教师由于对激励和批评等的误解，导致了必要的批评和处罚的缺失，学生不了解挫折的滋味以及错误的代价，长此以往，赞扬和奖励对学生来说也并不总是有效。比如，当学生自己设定的目标很高时，无论是否给予赞赏和奖励，他都会努力学习；而当学生认为教师的赞赏和奖励是虚假的、不真实的，反而会起到消极作用。另一方面，当学生意识到教师的批评是为了真心帮助他，那么这种批评就能起积极作用。因此，赞扬和奖励并非多多益善，它的使用频率和时机都是有讲究的。一味地对学生进行赞赏和奖励，未必使学生的需要得到满足和产生愉快的情感体验，也未必能促进学生的发展。

更令人遗憾的是，在这种为激励而激励的倾向中，学生回答的正误已不重要，重要的是教师能否找个理由让学生都高兴。它很容易抛弃科学客观的态度，模糊学生的视线，掩盖问题的真相。长此以往，不仅不利于培养学生内在的、持久的学习动力，而且会带给他们更多的迷失。学生搞不清楚自己或他人的回答好在何处，差在何方。前面在讨论评价功能时已经提到，评价对于教学工作的效果提供了必要的反馈，它能指明教师呈现和组织材料的效果如何，对观念的解释是否清楚，某种特定的教学技术或教材的效果如何。评价的反馈能指明哪些方面还有待进一步解释、澄清和复习，并且在诊断个人和集体的学习困难方面也是很有价值的。此外，客观考试也能对各种非正式的评定方法的主观性和印象主义做出必要的纠正。毋庸置疑，如果我们对学生在学习过程中出现的错误不加以纠正，对学生的模糊概念不加以澄清，对教师在教学中的过失不加以修正，不仅失去了教师对学生的指导作用，也会让评价结果的指导作用丧失殆尽。

这里，有两种评价功能观念可以供给我们一些启示：①苏霍姆林斯基主张教学中尽量不给学生评不及格的分数。遇到本该评作不及格分数的情况，他通常运用不给评分的办法，鼓励引导学生进一步积极探索，一直到学生实际达到及格的程度之后才给评定及格的分数。这种教学评价办法的功能，是在增进学生发展并使发展达到目标，评分是实现教学价值的手段，而不是测量教学价值的“工具”。②布鲁姆主张教学评价功能是帮助学生如何达到目标，而不是测量评定学生是否达到了目标。他很重视目标测量，但绝不以目标测量为宗旨，而是以精确测量为依据反馈调节教和学，即被称为“再射第二箭”的功能。他重视的是教学有价值而不是价值符号。这两种基本一致的评价观念，大不同于我们总要评出“不及格”才以为科学的评价观念。其实“不及格”是一种硬把淘汰机制塞进教学范畴的观念，这像是责成生产部门必须出一定比例废品一样，是不合理的，教学不应当有这种“废品”观念，至少应当改造为“再加工”观念。这即是说，教学评价在任何情况下出现了“不及格”的“结果”或符号，都应当被理解为我们工作的某种开始而不是结束。

总而言之，在面对评价结果时，需要贯彻激励性原则，通过评价促进学生的发展。但这并不意味着必须对学生进行无根由的夸赞，给学生戴高帽子，或者贬抑自己、抬高学生。如果那样，结果只能是违反实事求是的原则，既可能遮蔽学生存在的真实问题，也起不到激励学生的作用。所以应把评价的激励性原则和实事求是原则结合起来，只有合理、客观、有效地分析和对待评价结果，对不同层次的学生的各项能力有一个科学的评价，才能够正确激发学生的积极性，让他们显示各自的能力，使之各有所长、各有所取。对学生而言，只有对自己的学习结果有了正确的评价，才能从中及时获得矫正的信息，了解自己的学习现状和目标间的差距，进一步调整努力的方向，从而有利于促进教师教学水平的提高。

第七节　要正确看待教学评价

教学评价就是对教学质量的测量、分析和评定。测量和分析要有测试、考核、质量描述，评定要进行价值判断。仅从教学评价活动的特定意义来看，起码要考虑两个方面：一是评价的技术方法指标，即怎样或如何评价的问题，其中必然涉及技术手段、操作方法、辅助工具或仪器等。二是评价的思想观念指标，即为什么评价或评价什么的问题，也就是评价功能和价值取向问题，其中必然涉及价值观念和价值思想等。后者是根本性和实质性的问题，是一切教育和教学改革的核心，前者则是实现后者的必不可少的保障。教育是人们有目的的社会活动，是教育者根据一定社会的要求，有目的、有计划、有组织地对受教育者的身心施加影响，把他们培养成为一定社会所需要的人的活动。而教学作为教育的基本途径，也具有目的性，它是指向教学目标的；是教师的教和学生的学的共同活动，学生在教师有目的、有计划的指导下，积极、主动地掌握系统文化科学基础知识，发展认知能力，增强体质，并形成一定的思想品德。其中，教学目标既是出发点，又是落脚点，贯穿教学全过程。事实上，如果教学不是指向某些指定目标的实现，就不能有效进行。只有在明确地说明通过教学的努力所希望达到哪些目标后，才能合理地确定教学内容和方法，并评定教学的效果，所以，教学评价应以教学目标为根据、为导向。一般来说，实事求是的教学评价可以帮助师生判断教学目标的实现程度，通过评价结果的信息反馈，不断调整、改进自己的教学行为，从而促使教学质量的提高。而空洞笼统的评价指标，很容易造成评价中的随意性和模糊性，难以正确反映教师的教学成绩，最终使评价如同虚设或收效甚微。在具体的教学评价活动中，会遇到许多复杂的问题，这不仅是目前教学评价制度或指标等方面还存在的一些缺陷所致，更直接的原因在于教学活动本身的实践特性。因此，即便是建立较为完整的评价体系，也不可能包容实践中不断涌现的新问题。这就需要在实际评价过程中坚持从实际出发，根据不同情况采取灵活的方法。

说到底，评价在本质上是一种主观认识，一种基于事实性认识基础之上的认识。学生的学习不是简单外部行为的变化，是内在能力和倾向的变化。由此便决定了评价工作的核心问题和基本矛盾：如何通过外在行为的抽样来推断学生内在的心理结构和机能？事实上，几乎所有的心理和教育测量都是以取样的原理为依据的。我们不可能测验出学生对某一门课程的所有事实、概念、原理掌握的情况。并且，由于学生的内部变化与外部反应并不完全一致，而我们又只能根据外部行为来推测，因此，多次测量、全程测量、多角度测量、内容全面、方法多样、评价主体多元等方法和建议才应运而生。至于评价对于学生发展的促进导向功能，不用新课程理念的倡导，广大教育工作者其实也都是深有体会的。问题在于，学校教育以教学为主，教学工作是整个教育工作的核心，它所产生的教育作用最全面、最深刻、最系统，占用的时间也最多。在此情况下，教师是否有必要花费大量时间和精力考虑借助考试等手段来促进学生发展？以更积极的、欣赏的眼光来看待学生的成长，是否意味着取消容忍、无视学生的错误？至于选拔性评价，也是同样的道理。选拔本身作为一种促进竞争与发展的有效机制，有其存在的必要性，当然，这需以选拔依据的合理性为前提。而人们论争中出现的许多问题，归根结底还是与社会发展水平相关。优质教育资源以及社会发展资源的欠缺，制约着社会的整体结构，而这必然意味着竞争，意味着选拔与淘汰。显然，这些离教学研究视野中的评价问题已是越来越远了。

【注释】

[1]王策三．教学论稿［M］．北京：人民教育出版社，2005：298．

[2]周建平．对话式教学评价初探［J］．现代教育科学，2004（2）．

[3]葛军．对教学评价的若干思考［J］．教育理论与实践，2010（3）．

[4]李子华．和谐发展取向的教学评价［J］．课程·教材·教法，2007（5）．

[5]陈亮，朱德全．多元智力理论与新课程教学评价［J］．外国教育研究，2003（5）．

[6]周建平．对话式教学评价初探［J］．现代教育科学，2004（2）．

[7]王本陆，骆寒波．教学评价：课程与教学改革的促进者［J］．课程·教材·教法，2006（1）．

[8]奥苏泊尔．教育心理学——认知观点［M］．邵瑞珍，等，译．北京：人民教育出版社，1994：733．

[9]奥苏泊尔．教育心理学——认知观点［M］．邵瑞珍，等，译．北京：人民教育出版社，1994：723．

[10]参见：王策三．教学论稿（15章）［M］．北京：人民教育出版社，2005．
王策三，裴娣娜，丛立新．教学认识论［M］．北京：北京师范大学出版社，2002．

[11]陈亮，朱德全．多元智力理论与新课程教学评价［J］．外国教育研究，2003（5）．