考试评价活动的价值属性

时间：2023-03-03 理论教育版权反馈

【摘要】：有的教师因为学科考试评价活动的存在，其学科地位得到巩固与提高；有的教师因为学科考试评价活动的缺位，其学科地位被忽视与压制。从考试评价活动的特性来看，准公共物品、非营利性和专业导向是考试评价活动最重要的政策属性。虽然考试评价活动被定位为准公共物品，但通过比较其消费的排他性与非排他性、竞争性与非竞争性，会发现考试评价活动的公共性远甚于其私人性。

第一节　考试评价活动的价值属性

不同的个体对考试评价活动的定位是不一样的；事实上，具体的考试评价活动对不同个体实际产生的影响也的确不一样。有的教师因为学科考试评价活动的存在，其学科地位得到巩固与提高；有的教师因为学科考试评价活动的缺位，其学科地位被忽视与压制。有的学生通过考试评价得以进入重点大学学习，有的学生因为在考试评价活动中表现不佳而失去继续学习的机会。要使考试评价活动平稳推进，考试评价活动就必须具有一个超越具体个人的价值定位，以更好地满足更多具体个人的考试期待，而考试评价本身的性质和价值定位不会因为具体个人不同的考试评价定位而改变。从考试评价活动的特性来看，准公共物品、非营利性和专业导向是考试评价活动最重要的政策属性。

一、准公共物品

人类社会需要各式各样的商品和服务，比如穿的衣服、吃的食物、阅读的书、接受的教育等等，这些商品和服务有的可以直接用货币在市场上购买，有的商品和服务无法在市场上用货币购买，或者购买的代价非常大，比如国防的需要、治安的需要、公共道路等。经济学中把前者称为私人物品，把后者称为公共物品。“由市场供给用来满足个别人需要的商品和服务称之为私人物品；由以政府为代表的国家机构——公共部门供给用来满足社会公共需要的商品和服务称之为公共物品。”^[1]“公共物品（public goods）是这样一些产品，不论每个人是否愿意购买它们，它们带来的好处不可分开地散布到整个社区里。相比之下，私人物品（private goods）是这样一些产品，它们能分割开并可分别地提供给不同的个人，也不带给他人外部的收益或成本。公共物品的有效率的供给通常需要政府行动，而私人物品则可以通过市场有效率地加以分配。”^[2]

在经济学中，往往把物品在消费上的排他性和竞争性作为判断物品是私人物品还是公共物品的基本标准。消费上的排他性，是指当消费者享用该物品或者服务时，其他消费者就不能再享用该物品或者服务，这是私人物品的一个基本特征；与之相对，消费上的非排他性，是指当消费者享用该物品或者服务时，并不能排除其他消费者对该物品或者服务的分享，或者排除其他消费者分享该物品或者服务的成本过大，这是公共物品的一个基本特征。消费上的竞争性，是指消费者的增加必将增加物品或者服务的边际成本，这是私人物品的另一个基本特征；与之相对，消费上的非竞争性，是指当多一个消费者时，并不会增加物品或者服务的边际成本，或者增加的边际成本很小，这是公共物品的另一个基本特征。这样的分类标准非常清楚，但完全与这两个基本特征保持一致的公共物品或私人物品都较少，不管是具有完全的排他性和竞争性的物品，还是具有完全的非排他性和非竞争性的物品，都只是一种理想模型，大部分物品都只是哪一种属性更多一点，或者哪一种属性更少一点。

考试评价活动肯定不具有消费上的排他性。如果考试评价活动只有一个人参加，不但参加这项活动的人会觉得没意思，就连这次考试评价活动本身也没有意义。哪怕是最具个人色彩的诊断性评价，如果只有一个人参加，也很难就这个人的测试结果诊断出什么结论；对于具有竞争性的考试评价活动，就必须以人与人之间的相互比较为前提，这时的考试评价活动更不可能具有排他性。但考试评价活动也不是完全具有非排他性，当参加某项考试评价活动的人数特别多时，就会稀释参加者在考试评价活动中的意义。以高考为例，当参加高考者过多时，录取率自然就会降低，于是那些认为自己没有多大希望的考生就会放弃参考。不过，两相比较，考试评价活动的非排他性还是远大于排他性，正是基于此，我们认为考试评价活动属于准公共物品。

考试评价活动的竞争性也不明显。当完成一项考试评价活动的组织时，多一个考生少一个考生，对整个考试评价活动的组织成本并没有多大影响。从某种程度上说，在同一项考试评价活动中，会出现参加考试评价的考生越多，整个考试评价活动会因具有规模优势而降低每个考生的生均成本。当然，也并不是说考试评价活动具有完全的非竞争性，只是当考生增加后，每个考生的生均成本就降低了。也就是说，每增加一个考生形成的边际成本降低了，但边际成本仍然存在。对比考试评价活动的竞争性与非竞争性，非竞争性更加明显。正是因为考试评价活动的非竞争性很明显，各种各样的联合考试更容易形成，而学校的自主考试相对较难形成。比如在教育部授予部分高校自主招生考试权利之后，高校之间的联合考试仍然很快形成，这虽然不单纯是考虑考试成本的影响，但也恰好符合考试评价活动的非竞争性特征。

虽然考试评价活动被定位为准公共物品，但通过比较其消费的排他性与非排他性、竞争性与非竞争性，会发现考试评价活动的公共性远甚于其私人性。根据萨缪尔森（Paul A.Samuelson）的理论，作为具有公共性的考试评价活动，其“有效率的供给通常需要政府行动”。另外，比较考试评价活动的非排他性和非竞争性，会发现非排他性具有局限性，也就是说当考生达到一定规模时，考试评价对其他考生的吸引力就大打折扣；而非竞争性并没有局限性，反倒是考生越多，规模优势越明显，考试的边际成本因为考生的增加而越低。这就意味着虽然通过考试的联合可以降低生均考试成本，但随着考试规模的增大，也会将更多的考生排斥在考试之外。

二、非营利性

对于经济活动，做与不做的根本标准就是看这项经济活动的成本有多高，通过这项经济活动能够获得的收益有多大：当成本大于收益时，这项经济活动就很难被推行；而当收益大于成本时，这项经济活动就很容易被执行。因此，判断经济活动存亡的根本标准就是这项经济活动的获利能力，获利性越大，被保留的概率就越大；获利性越小，被保留的概率也就越小。然而，对于考试评价活动而言，如果也参照经济活动的准则，就意味着某考试评价活动自身的营利能力越强，该考试评价活动就越可能被推行；如果这项考试评价活动没有什么营利能力就因此而被取消，那么考试评价就会成为一种谋利的工具，从而失去其本身的科学性与规范性。

如果把考试评价活动完全纳入政治领域，就不必考虑经济活动所需要的营利能力，哪怕考试评价活动本身没有丝毫的赢利，但基于政治利益的考虑，也会由行政部门强势推行。然而，如此并不意味着考试评价活动就获得了独立。虽然将考试评价活动纳入政治领域可以让其摆脱经济利益的束缚，却因此不得不受到政治利益的牵制。科举考试历来就不是经济活动，它的目的很明确，就是服务于政治上的取仕要求，更好地服务于政治利益。在科举考试初期，科举考试不但发挥了取仕功能，还带动了民众对文化知识的学习；但是，科举考试长期只重视服务于政治的取仕功能，忽略了对民众文化知识学习的教育功能，对自身的科学化进程也没有足够的考虑，最终走向了消亡。

考试评价既不能被视为纯粹的经济活动，也不能被视为纯粹的政治活动，那么它究竟应该有一个什么样的定位呢？传统的认识总是把经济活动与市场联系起来，把政治活动与政府联系起来，于是，几乎所有的活动要么由市场规律掌控，要么由行政规律掌控。但是，这种二元对立的认识观无法涵盖所有的活动，如果不是用市场规律就是用行政规律来管理所有的活动，就会经常出现“一放就乱、一管就死”的局面。“一放就乱”是指由市场规律来统领所有活动，经济学中称之为“市场失灵”；“一管就死”是指用行政规律来统领所有活动，经济学中称之为“行政失灵”。于是，在市场失灵与行政失灵都不可避免的情况下，第三部门应运而生。第三部门的功能就是弥补政府功能的局限性，提供政府和市场都无法有效提供的物品、活动或服务。作为准公共物品，考试评价活动似乎只能被置于第三部门来认识，才可能获得准确的定位。

“公共选择理论认为，公共物品不能通过私人交易即通过市场提供，而必须通过集体选择提供。政府组织和非营利组织的功能就是为社会提供公共物品。其中纯公共物品必须是由政府组织来提供的物品，因此又称为垄断性公共物品；准公共物品则是由非营利组织提供的物品，由于非营利组织可以由多个主体组成，因此准公共物品又可称为非垄断性公共物品。”^[3]考试评价活动作为准公共物品，肯定不能只通过私人交易来进行，也不可能只通过集体选择来提供。前者容易让考试评价活动服务于私人利益而失去公益性，后者容易因为集体选择而失去专业性。因此，对考试评价活动的规范可以借鉴行政部门的规范性，也可以借鉴经济部门的灵活性，但不能完全把考试评价活动交由市场法则来运营，也不能完全交由行政法则来规范。只有正确认识考试评价活动的非营利性，并将其置于第三部门的视域中，才可能准确定位考试评价活动。

将考试评价活动确定为非营利活动，并不等同于考试评价活动就不能营利，而是说考试评价活动不能以营利为目的。如果考试评价活动完全以营利为目的，而营利总是以追求超额利润为目的，就难免将考试评价活动作为谋取超额利润的手段，从而牺牲考试评价本身的科学性和规范性，而不被大众和市场所接受，也就失去了市场价值。如果考试评价活动完全不营利，那么其运营成本就需要依赖财政拨款，当考试评价活动完全依赖于财政拨款时，一方面容易被行政的政治利益牵着鼻子走，从而在维护政治利益的同时牺牲考试评价的科学性和规范性；另一方面，如果行政部门并不出于政治利益而干涉考试评价活动，考试评价活动中没有政治利益诉求，自然就会降低考试评价活动的运营成本，这种情况下，行政部门虽然不会出于自己的政治利益来歪曲考试评价活动的科学性，却可以通过减少考试评价活动的运营成本而使考试评价的科学性难以深化，也就是说，只能维护考试评价活动的运营，却无法保证考试评价活动的研究与深化。

三、专业导向

秤有什么价值？不是因为被用来称重它就重了一两或轻了一两；尺有什么价值？不是因为被用来丈量它就长了一寸或短了一寸。秤的价值在于不多不少地称出物体的重量，尺的价值在于它不长不短地丈量出物体的长度。如果秤不能做到准确地称出物体的重量，秤就毫无价值；如果尺不能做到准确地量出物体的长度，尺就毫无价值。同样的道理，考试评价活动最核心的价值不在于影响学生对知识的掌握，而在于尽可能科学地、公正地量度学生掌握知识的状况。如果考试评价活动不能做到这一点，人们就会对它失去信任，考试评价活动也就毫无价值了。

考试评价活动最原初的价值既不是增进社会的经济利益和政治利益，也不是促进学生的学习，而是真实地量度学生对知识的掌握程度，以及学生的各种能力与素养的发展状况。最真实的教育与帮助，应该起步于对学生学习状态最为真实的描述，只有把学生最真实的学习状态描述出来，学生才可能真正意识到自己的优点何在，需要克服的缺点何在。要使考试评价活动准确地反映学生的知识积累和能力培养情况，一方面需要量度者有公心，另一方面是考试评价活动本身的科学性。

学生掌握和积累的知识多种多样，不同的学生对知识种类的掌握和积累程度不一，同一个学生对不同种类知识的掌握和积累程度也不一样；学生能力培养的状况更复杂，知识的掌握与否以及掌握程度可以通过学生熟悉和应用知识的程度来界定，而能力涉及的范围更加宽泛，不但能力的种类多样，而且各种能力相互交织在一起，这就为考试评价活动如何真实地反映学生的知识积累和能力培养状况增加了难度。

如果考试评价只是想方设法再现学生知识掌握和能力培养的状况，必定会加大考试评价的技术难度，但这有一个好处，那就是考试评价并不能影响学生掌握什么知识和培养什么能力。也就是说，学生不会根据考试评价的内容，而是根据自己的兴趣和需要来决定自己应该掌握什么知识以及掌握到什么程度，应该培养什么能力以及培养到什么境界。可惜的是，我们并不是通过对考试评价技术的研究来提高对学生知识掌握和能力培养状况的量度能力，而是通过对学生的知识和能力的量度进行划定。在划定学生知识和能力的标准上，首要的标准是能否被考试评价量度。其次才是这些知识和能力的重要程度。道理也很简单，再重要的知识和能力，如果无法量度，对考试评价来讲就是一项无法完成的任务。如此一来，这样的考试评价模式容易出现两个问题：一是在考试评价技术水平不够高的情况下，通过考试评价量度的学生的知识与能力难免流于形式或止于肤浅；二是学生对知识与能力的选择将不再以自己的兴趣为标准，也不再以知识与能力的重要性为标准，而是以考试评价界定的知识与能力为标准，这就难免会导致应试教育。

考试评价承载着各种使命，比如通过考试评价选拔优秀学生；通过考试评价筛选学生，使一部分人得到继续教育的机会，另一部分人则丧失继续教育的机会；通过考试评价引领基础教育的方向，等等。然而，如果离开对考试评价自身专业程度的考虑来讨论完成这些使命，实在是缘木求鱼。要更好地完成考试评价所担负的这些使命，最核心的工作就是提高考试评价的专业水准，增加考试评价的技术含量，使考试评价所量度的知识与能力更加宽泛和深刻，超越对知识的考核而深入到对能力的考查，从而使学生的学习不再停留于知识的表面，而是深入到能力层次；使学生的学习不再局限于狭小的范围，因为考试评价技术能够量度的知识与能力的范围越大，学生学习的选择性也就越大。

就我国的考试评价现状而言，的确存在大量问题，比如因为考试评价而导致的应试教育、招生乱象等。目前对于这些问题的解决之道，并不是考虑如何让高考、中考变得更加科学和专业，而只是对这些症状的消解，通过实施素质教育来消解应试教育，通过“减负”政策来消解考试评价造成的学生负担过重，通过对考试过程的规范来消解招生乱象，而对于高考与中考本身的科学性和专业性却很少考虑和研究。高考试卷和中考试卷的编制时间有多长？是否经历科学的编卷检测？更重要的是，今年的高考试卷和中考试卷对往年的高考试卷和中考试卷有多少借鉴，超越了多少？对于高考与中考这种大型而重要的考试而言，不仅需要过程的规范，更需要内容的科学与专业，而这些问题往往被忽视，更难以解决。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈