说到测评(assessment),首先要说一下测量(measurement)和评价(evaluation)。在著名测量专家史蒂文斯(S.S.Stevens)看来,测量是根据法则给事物赋予数量,即“用一定规则给事物指派数值或符号的过程”。[7]教育测量,从广义上而言,是依据一定的法则(标准),用数值来描述教育领域内事物的属性,是事实判断的过程。[8]数学教育测量,是依据一定的原理和法则,用数值来描述数学教育领域内的事物属性(数学教学效果和学生的数学知识、数学能力),并进行实施判断的过程。它是用一定的量尺来提供量化资料,从数量上来表现数学教育现象,具体来讲可以涉及学业、兴趣、适应性、智能等数学教育和心理方面的现象。[9]
评价“是一种价值判断的活动,是对客体满足主体需要程度的判断。”[10]评价的本质是价值判断,并借此收集信息,提供决策,完善工作,以此实现相应价值的过程。教育评价的概念是由美国教育家泰勒(R.Tyler)在其主持的“八年研究”中正式提出的,他认为评价在本质上是一个确定课程与教学计划实际达到教育目标程度的过程。而统计专家克隆巴赫(L.J.Cronbach)则把教育评价广义地定义为,为获取教育活动的决策资料,对参与教育活动的各个部分的状态、技能、成果等情报进行收集、整理和提供的过程。评价专家斯塔弗尔比姆(D.L.Stufflebeam)在1969年就直接提出评价是为决策提供有用信息的过程的看法。这也对评价实践产生了深远的影响。结合学科特点,数学教育评价可以界定为“全面收集和处理数学课程与教学的设计与实施过程中的信息,从而作出价值判断、改进教育决策的过程。”[11]
从上述表述分析可知,测量以评价为目的,评价以测量为手段,教育测量为教育评价提供依据,是教育评价信息的主要来源。同时,教育测量结果只有通过教育评价才能获得实际意义,为改进教育的过程提供有价值的信息,否则就是简单、枯燥的数值而已。
本书中的测评,即基于证据的推断过程。 [12]测评是用来观察学生行为并产生相关数据或信息的过程,而这些数据或信息有助于对学生所知和所能形成合理推断。基于证据的推断过程,也就是收集事实及证据来支持所要做的各种推断。测评在测量和评价内涵上互有重叠。在实际运用中,往往与测量、测验、评价互为混用[13]
教育测评表示通过专门编制或已有的工具获取学生的反应,并以此对学生的知识技能等掌握情况进行推断。在教育领域的大规模测评,也称作大规模教育测评,或大规模教育考试、大规模教育比较等,在英文名称上,常常存在“Large-Scale Educational Assessment”“ Large-Scale Educational Test ”“Large-Scale Survey”“Large-Scale Comparative Study”等表述。虽然“assessment”“test”“survey”“study”在使用上存在一些差异,但都指的是“对大范围(某个国家甚至几十个国家)的学生进行抽样,同时对考查内容也进行抽样的极其复杂的考试设计”。[14]在中国,大规模测评往往是指由国家或地区的专门考试机构或行政单位(如考试院、教研室等)统一组织,在省市等级别进行的,以甄别、检测、评价等为目的的考试。大规模测评项目,简单来说就是对大量学生或者教师进行测评的项目。[15] NRC指出,虽然大规模测评(large-scale assessments)的表达有争议,并且容易误用,但是它们在获取学生特别有价值的信息上是一个很重要的途径。大规模测评,即那些设计用来获取大量学生证据的测评,是在美国获取问责证据的基本手段。[16]显然这个大规模,针对的是测评对象的数量,但是具体要达到多少并没有明确指标或数字。
目前,大规模教育测评是由专业考试机构统一设计组织,在较大范围内进行实施的,它对公平性、信度、效度等测量学特征有更为专业的要求。[17]大规模测评所用工具如试卷与评分标准都是统一的,测评过程实施要求是一致的,有严密的防止舞弊的措施,有各种控制误差的技术处理,因此测评的结果是可信、可比的,特别在中国进行人才选拔时有很大的参考价值。
在教育领域,国际大规模测评,往往指的是跨多个国家(或地区)、文化的大规模教育测评。NRC指出,对于国际大规模测评,作为较大范围内跨国家的研究而言,有一个目的,就是要让我们理解在世界各地的教育中各种各样的设置意味着什么。[18]国际大规模数学测评是指在数学教育领域内进行的国际大规模测评。
数学测评,不可视作由“数学”和“测评”两部分单独“拼成”的,必须在评价过程中考虑数学自身的特点及教学方法的实际应用。如考虑到数学的演绎证明或推理、数学在情境抽象概括中的使用和体现、数学动态变化,以及相关工具如计算机(器)等在操作使用过程中对于数学概念模型建立的影响等。数学特点和测评的有效整合,将学生作为个体来了解其学习状况,提供信息帮助教师指导、诊断学生,促进学习,直到构思或形成地区乃至国家的策略或政策,对改进地区或国家的数学教育具有重大意义,并产生深远的影响。
就数学测评而言,在具有跨多个国家(或地区)、文化的国际大规模测评中,影响最为广泛的两个分别是由OECD负责开发的PISA测评,以及由国际教育成就评价协会(International Association for the Evaluation of Educational Achievement,简称IEA)开发的TIMSS测评。这两大测评都是在国际数学教育比较研究的大背景下产生和发展起来的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。