两个测评中的建构性试题都被分成两类试题,这两类试题的最大区别在于编码难度。对于短回答题或手册型建构试题,只需直接将学生的实际回答对应编码手册上的类别赋予码值即可。对于拓展回答题或专家型建构试题,则需要编码人员通过自己对学生实际回答的理解转换成答案中的某一类进行编码。两个测评都对建构性试题建立了双位编码系统。TIMSS数学测评专门成立了相关编码机构研究编码技术,在两个国际测评都使用的双位编码技术及系统方面起到奠基性的作用。所谓双位编码,就是用两位数值对学生的实际回答进行编码。两位数值中,第一位代表学生回答的正确情况,不仅仅体现正确或错误,甚至包含部分正确;第二位代表学生回答所用的策略或方法,或是按照阻碍学生得出正确解决方案的错误概念给出特定代码。这样做,不仅能够了解学生回答正确与否,还能知道学生在解决问题过程中的相关有用信息,如采用的策略或方法等。这种评分方式有利于后期对数据的分析,以及最终评价结果报告的生成。举例如下。
例1南极洲的面积。
图5-11 南极洲地图
请你根据图5-11的地图上的比例尺,估计南极洲的实际面积。要求:显示你的工作痕迹,并解释你是如何估计的(如果你认为对你的估计有帮助,可以在地图上画)。[18]
这是一道PISA试题,考核的是联系能力群,内容领域为空间和图形,情境属于个人范畴。此题属于建构性试题,其评分采用双位编码形式,为了更加明确这种双位编码的特点,即首位和末位对应不同的对象,这里用表格的形式展现整个评分情况,具体如表5-8。
表5-8[19]
例2某个计算机俱乐部有40个成员,其中60%的成员是女性。最近,有10位男性加入该俱乐部。现在女性在该俱乐部中所占比例多少?请显示你的计算过程。[20]
该题的测评内容领域是数,具体内容主题是比、比例和百分比,认知领域是推理。
相应的编码如表5-9所示。
表5-9
整个编码系统制定的一般过程如下。
首先,在试测之前,特别是在试题设计和开发阶段,对每道试题都赋予所测试的内容领域和认知过程维度,并将学生的可能回答进行收集、归类,对不同种类进行描述,形成编码指导手册。
其次,当试测结束后,结合数据分析,得到每一个不同回答种类的大概分数的信息,如难度。难度的形成,两个测评都采用IRT统计模型通过非线性转换获得。选择题只有对和错之分,所以该类试题只有一个难度;建构性试题往往存在多级情况,则会出现一个或多个难度值。这些难度值与学生在框架中的不同内容领域、认知过程的不同维度或能力水平层次相联系。结合上述信息,同时利用专家对不同领域及认知能力层级的体现进行仔细分析、描述,有助于形成框架中不同内容领域或认知过程量尺上对不同水平层次量尺(TIMSS数学测评中称为基准,PISA数学测评中称为精熟度水平)的描述。审视试题的原始设计,如在内容领域和认知过程维度上的契合度,并基于此判断和重新调整试题编码。
最后,在正式测试完成后,利用所得数据,分析审核并修改试题的编码,并最终确定每道试题的实际编码要求及相应表现特征。
从上述编码形成过程可知,为了保证编码过程中不同评分中人员之间的一致性,编码数值与回答类型之间,以及不同回答类型之间的清晰程度非常重要。为此,PISA数学测评和TIMSS数学测评都专门编辑了编码指导手册。还值得注意的是,在编码过程中,并不是简单根据专家主观的认识经验进行编辑,而是有一个修正阶段。两个测评都通过试测阶段所获取的学生的实际回答,以及通过IRT统计模型,来获取学生每道试题上不同编码计分的难度,并结合学生实际回答中相应测评领域或水平层次的要求,重新修订编码计分及相关赋分类别。
在编码阶段,通过IRT模型,将编码与学生的实际回答和相应的测评领域或水平层次特征初步建立联系。编码关注试题所要测评的认知要求。从测量的角度来看,在编码阶段,某一维度上的试题,学生群体在其上所得的编码构成一个变量,该维度是学生认知结构模型中的某一潜质,该变量通过IRT模型与学生某一潜质建立对应关系。这个关系的建立,使得测评工具真正产生了。
从编码形成的角度来看,这个过程意味着,无论TIMSS数学测评还是PISA数学测评,在正式测评之前,学生实际回答与测评目标不同维度之间的对应关系已基本建立完毕。无论从定性角度——学生实际回答表现,还是量化角度——编码值,都形成了学生在不同领域维度上学业成就的证据。
测评的试题设计,无论是蓝图设计,还是不同题型功能的使用及分布,以及编码系统的构建,皆围绕着测评的目标展开,同时将试题与认知要求联系起来(试题与认知要求之间的联系往往不是直接的)。试题的使用不仅是想让测试得以进行,而且想通过测试反映出针对学生原先设定的认知过程,并反映出学生在某些认知结构上的特征及强弱。这点在PISA测评和TIMSS测评的试题设计中都得到了充分展现。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。