尽管人类的评判有时会让我们陷入困境,但它毕竟是一种有显著效用的工具。基于评判的测验完善模式可以使我们十分系统化地或非正式化地完成任务。评判性评价完善策略因其评价主体而有很大的不同。您必须了解三种类型的评判,它们分别由您自己、您的同事和您的学生作出。我们将分别对这些潜在的评判来源进行分析。
让我们假设您在“美国政府课(government class)”上设计了70道简答和多项选择题,并且已经实施了,为了下一年的课程,您希望进一步完善测验。我们假设在开发这些题目的过程中,您已经付出了非常多的努力和智慧,并且达到了您的最高水平。然而,现在您仍需要再检查一下,看看这70道题目是否适宜。这是一件值得去做的事。
让我们考虑一下另一种评价方式。假设在学生建立档案袋或回答表现性测试任务时,您为他们设计了相当合适的指导语。即使您认为那些指导语已经相当合适,但是在一段时间后对那些材料进行检查,看看能否发现一些您起初在设计时没有注意到的缺点也是很有必要的。
在写作中也经常发现这样的情况,当您冷静下来再去检查您写的东西时,您会发现一些漏洞,因为刚开始的激情写作掩盖了那些漏洞,这也是常常会出现的事情。然而,超越那种随意性的反观,您能够更好地完善您的评价方法,甚至使测试完善任务(test improvement task)更加系统化。当您在对自己早期的评价努力进行评判时,为了加以说明,您可以使用特定的评判标准。如果一道测试题或者一系列教学没有达到标准,您就应该作一些较大的修改。如果您想系统地完善您的课堂评价方法的话,那么下面将要展示希望您考虑的五条检查标准:
■ 遵循特定题目编写指南和一般性题目编写要求。当您在对自己的评价方法进行估价时,简单地检查一下一般性题目编写要求(第6章)和为特定题目准备的特定题目编写指南是很有用的。如果您发现有题目违背了上述两种标准,那么您就必须弥补缺陷。
■ 对分数推论有所贡献。回忆一下教师对学生进行评价的真正原因是为了得出关于学生状况的分数结论。因此,重新考虑一下已设计开发的评价方法,看看它是否真的是为了达到上述目的、为得出那种类型的结论而服务的。这种方法将对您很有帮助。
■ 内容要准确。以前的精确内容被新近内容所取代,或与新近内容发生矛盾的情况是可能存在的。因此,您要确定评价工具所包含的内容是否仍然是精确的,以及您的答案是否仍然正确。
■ 内容没有遗漏。这种检查标准为我提供了一个机会,使我可以使用自己最喜欢的一个单词,即遗漏,意思是指缺隙。在某种意义上,缺隙就是遗漏的意思。尽管使用缺隙一词看起来要简单一些,但您必须承认与遗漏一词比起来,缺隙一词总显得有些华而不实。(当然,这只是一种常模参照性质的比较。)
事后的聪明是一种极好的形式。因此,当您检查评价工具内容的覆盖范围时,您可能发现以前忽视了一些重要的内容。这种检查标准是与前面的第二条标准联系在一起的。一些有意义的内容的缺失会明显地降低结论的精确性。
■ 公正。当您最初在设计评价工具时,尽管您清楚地想要完全排除偏差,但还是常常会忽视一些东西。在进行偏差检查时,一定要确保您已经尽了最大的努力去注意排除偏见。
我可以举一个关于偏见的个人案例,这件事发生在20世纪70年代,我编写了一本教育评价的教材。那时,很多妇女对作者针对一些没有指名的个人使用男性代词(如使用“学生没吃他的早餐”这样的话语)的行为进行了挑战。认识到这一点后,我在专心致志的写作过程中尽量用复数形式的人称代词。我再不用他或她,而是用他们。当我艰苦地写完最后一章之后,我为自己使用复数形式的高超技能而颇感自豪。然而,我仍发现一些话语问题可能对妇女造成伤害。我曾经漫不经心地在书中加了一幅卡通插图,这幅图画显示的是在学校董事会上,女性成员在男性成员面前跳来跳去。真是十分丢人!如果在这本书成为新闻之前,我再认真地检查一遍,我就会发现差错。由于在第1版(不是第2版!)的所有书上都出现了那幅插图,所以我遭到了应得的包括男性读者和女性读者在内的愤怒投诉。
我并不是建议您分别为上述每条检查标准编制一个详细的评估表。在一定程度上,我建议您在应对已开发的评价工具的评判检查之前,认真考虑一下上述五条标准。
如果您相信同事的评判,那么请他帮忙检查您的评价方法往往是有用的。为了能取得最好的效果,您有必要向同事提供至少关于检查标准的描述,就像前面提到的五条标准那样——它们是①遵循特定题目编写指南和一般性题目编写要求,②对分数推论有所贡献,③内容要准确,④内容没有遗漏,⑤公正。您需要向同事描述您打算通过评价方法获得的关键性结论。对您的同事,您最好能让他认识到自己关于学生的结论会影响到后续的决策,这是很必要的。
我发现同事的评判对于那些需要进行大量表现性测试或使用档案袋评价的教师而言,是有特定帮助的。在后面的章节中,您将学到的大多数经验性的以完善为基础的方法,都将与像多项选择测试那样的传统类题目一起被使用。评判可以使档案袋评价和表现性测试得到更好的改善。
记住,如果您是档案袋评价的设计者或者您是正着手完善表现性测试的设计者,您会偏向于自己所喜爱的东西。毕竟,父母通常是喜欢他们的孩子的。您所需要的是良好的、冷酷无情的、客观(nonpartisan)的检查,只有这样才能够胜任评价工作。
当然,要想帮助您做好这一工作,您的同事需要花一些时间。为公正起见,您要有往有来,也帮助他改进他的评价工具(或者通过解决您同事自身的关键性个人问题)。如果您所在的学区够大的话,您可以与中心办公处懂得评价的专业人士接触一下。这里有一个使他们获得薪水的简便的途径——让他们检查您的评价方法。一般说来,另一双眼睛可以帮助改善几乎所有的书写文件。这并不意味着其他人能够看得更精确,而是说为您提供了一个参照。您应该倾听别的检查者说了些什么,但是最后还是需要您自己去评判他们建议的优点所在。
当教师着手完善评价方法时,一个数据的丰富来源往往被忽视,因为教师一般不会想到从学生那里获得信息。然而,由于学生在一个有意义的语境中经验了测试题目,作为一个被测试者,或多或少有了不少见解,学生的评判能够提供有用的见识。学生的反应能够帮助您认识特定题目的缺点和诸如测试说明或者您所规定的完成测试的时间的不足。
从学生那里获得的数据将会发生变化,这是由所应用的评价方法的类型造成的。但是图11.1题目完善问卷中的问题,在学生完成评价过程之后,提供给他们是非常有益的。尽管图11.1的解说性问卷是为使用选择性反应测试而准备的,但是仅仅需要作较小的修改就可以使其适用于建构性反应测试,表现性测试或者档案袋评价系统。
图11.1 学生用题目完善问卷示例
让学生在进行评判练习之前完成测试是很重要的。(请再一次注意,修改动名词engaging的话语所有权。很明显,您现在读到的是一些语法材料。)如果让学生同时扮演测试者和测试完善者的角色,他们将可能弄糟这两个任务。至少在同一时间里,没有学生能够为这两个任务负责。
让学生在一般情况下进行测试,收集他们的答题纸或测试册,并给他们提供新的、空白的纸张。然后给他们分配像前面那样的问卷。换句话说,就是让学生连续扮演被测试者和题目检查者的角色,而不是同时扮演。
现在,您如何对待学生对测试题目的反应呢?假设您是一位教师,少数学生对一道您最喜欢的题目提出了强烈的苛责。您是否就因为不满或对题目的抱怨而自动软下去呢?当然不是,教师应该是刚性的。可能学生会因为不知道怎么回答题目而感到愤怒。对学生来说,逃避令人忧郁的测试,最佳的途径便是猛烈批判测试本身。教师应预见一定数额的吹毛求疵的低分数学生。
然而,经过允许的合理程度的抱怨,学生的反应有时能为教师提供有用的见解。事实上,学生斥责太多的题目很有可能就该批评。忽视学生作为评判测试工具的信息来源,对于选择性反应或建构性反应题目来说,都是明显的错误。
根据测试完善方法进行评判性检查,可以依靠您自己、您的同事、您的学生所提供的判决。归根结底,您将是是否修改您的评价工具的决策者。虽然如此,对您的测试来说,别人的反应是很有用的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。