如果您能够记住以后几章中要讨论的内容(当然,记忆在布卢姆的认知水平分类中属于最低水平),比如我们将在第8章中学习如何对学生的表现性反应进行评价,在第9章中将要学习如何评价学生的档案袋。那么,您就会发现,您将学习到很多关于如何评价学生在建构反应评价中的表现的知识。为了简化这部分内容,在本章中我们将仅仅学习如何评判学生对主观题的反应(包括学生的作文技能的测验)。当您尝试着对学生的主观题进行评价时,您会发现,我们在接下来的两章里所学到的有关对学生的建构反应进行评分的建议同样也适用于本章的主观题评分。为了使问题理解起来更加简单清晰,现在让我们学习对学生的主观题进行评分的指导方针。
在过去一二十年里,教师考查学生的写作技能主要是以让学生写作文的方式来进行的。随着对学生写作的关注,教育专家也发展了很多关于评价学生作文的技术。他们通过对全州范围内的大量学生试卷的评分,从中总结、提炼出评价技术(在德克萨斯州,每年有超过一百万学生的论文被专家评分)。令人高兴的是,相当数量的评价技术都可以供教师直接拿来使用。
对学生的作文进行评分的过程中,相当多的经验都可以很好地应用到对任何一种主观题的评分中去。通过学习如何对自由度很大的作文评分,可以帮助您掌握对各种各样的建构反应题目评分的关键。评分过程既可以选择使用整体评分法(Holistic scoring),也可以选择使用分项评分法(Analytic scoring),或者把两者结合起来使用。因此,正如评分指导方针中的第一条所述,首先您需要在评分之前作出一个决定,即您将采用什么样的方法来对学生的回答进行评分。下面让我们分别来看一下这两种评分的方法。
整体评分法,正如它的名字所暗示的,即从整体的角度关注主观题(或者是书面作文)的答案。夸张点说,整体评分策略就是教师可以毫无系统地凭着“整体印象”对所有学生的回答进行评分。不过,较系统的整体评分策略指的是,教师在评分之前,首先要确定一些独立的评价标准,然后教师按照这些独立的标准对每篇文章进行整体评分。通常,每个标准的得分控制在4到6分之间(有些评分标准要求给予更多的分数,而有些要求给予更少的分数)。教师首先需要仔细考虑题目的答案中应该包含哪些要素,然后才可以对每个学生的回答进行评分。下面就是在使用整体评分法对学生作文展开评分的过程中,教师可以使用的评分标准。
对一篇作文进行评分,以此来反映学生的写作才能:
■ 语言组织能力
■ 表达流畅性
■ 适应读者的需要
■ 单词的选择
■ 写作基本技能(拼写、大小写、标点)
下面提供的这四条评价标准适用于教师在口语辩论课中对学生的主观题进行整体性评分。
对学生辩论进行整体评分的标准
■ 预测对手的正面观点
■ 支持自己受到对方指责的观点
■ 选择合适的有说服力的例证
■ 对现场总结的能力
当教师对学生的反应进行整体性评分的时候,他们并不需要针对每个标准对学生的回答一一评分。相反,教师只需要对上述表格中的评分标准有个整体印象就好。例如在学生的演讲中,教师在对学生的辩论进行评分时,需要考虑的是学生的辩论语言是否能有效地驳斥他人的观点,不必斤斤计较学生是否一板一眼地执行了上述每一条标准。反过来说,也有可能存在这样一种情况,即学生的辩论从某一个方面来看也许很精彩,但是作为一个整体来说却稍有欠缺,因此,也会被教师扣掉一些分数。
与整体评分法相对,分项评分策略要求尽可能注意到各个细节。举例而言,假设一个教师对学生作文进行评分时,没有使用整体评分法,而选择了分项评分法。这时,评分指导就应该像图7.1中描述的那样。注意,对于评分指导中的每个要点,教师必须给出0分、1分或者2分的具体分值。因此,理论上学生的最低得分可能为0分,最高得分为10分(也就是在5个标准上都得到2分)。
图7.1 针对学生的书面作文进行分项评分的示例
分项评分法的优点在于,它能帮助您辨认学生表现中存在的优势和不足,而且可以依据评分给予学生更多细节上的反馈。而分项评分法的缺点在于,教师有时候可能过于注意评分中的一分、两分,计较一字一句,这样就容易陷入只见树木(每一个评分标准)不见森林(整体质量)的误区。就根本而言,可以这样说,教师可能因为过分地注意每一个单项的评分标准,而忽视了对学生回答的整体判断。
除了上述这两种评分方法,教师还可以使用一个比较折中的评分方法,也就是教师一开始先用整体性评分方法来对所有学生的反应进行评分,然后回过头来针对那些被评定为不合格的反应再使用分项评分方法进行评价。通过对这些不合格的反应进行分项评分之后,教师就可以得到更多关于学生的不合格反应的细节性信息。这种混合评分方式,可以给予那些在整体评分中表现较差的学生更详细的反馈信息。既发挥了分项评分的优势,又通过整体评分弥补了分项评分的不足。
对学生主观题的反应进行评分的第一个指导方针适用于各种不同种类的主观题评分,通常测验结果的用途决定评分方法的选取,即决定您使用的是整体评分法还是分项评分法。也可以说,您选择的评分方法取决于和测验结果相联系的教育决策的性质。(这点是不是听起来不觉得陌生呢?)
不管您采取哪种评分方法对学生的主观题反应进行评分,如果在对学生的反应进行实际的评分之前,先为每个试题的反应设计一个评分要点,您将会发现这一做法对您非常有帮助。试行的评分要点在正式对学生的反应进行评判的过程中,仍需要进一步修改和完善,但这正是我们所期待的。如果您直到对学生的主观题反应开始评分才来制订评分要点的话,首先被评分的那一部分学生的反应很可能会对您的工作产生一定的影响。如果这些学生的答卷不具有广泛的代表性,那么评分的结果就可能出现偏差。所以在评分之前,最好事先考虑一下,您希望看到的满意回答是怎样的。在随后的评分中,如果没有出现自己所预期的答案,应该及时修改最初的评分要点。
如果您事先没有制订一个试行的评分要点的话,很有可能受到一些对评分原本不重要的因素的影响。比如学生回答中的用词习惯和写作风格,虽然实际上这些变量对您来说一点都不重要,但它们却具有潜在影响。事先确定您将要使用的评分要点,不管是使用整体性评分法还是分项评分法,都可以非常有效地帮助您顺利完成对学生主观题的评分。
下面让我们来看一下,一位美国历史课教师所使用的试行的评分点是什么。我们从这些试行的评分点和下面的课程目标中可以看出,这个教师所要提高的技能是一个真正高水平的技能:
在描述一个当前美国的现实问题时,学生应该做到:①从美国历史上,引用一个或多个与这个问题的解决方法非常相关的重要事件;②为自己所引用的事件作相关性辩护;③为这个问题提出解决的方法;④从自己所引用的事件中,使用历史相似性来支持自己提议的解决方法。
正如我刚才所讲到的,这可不是无用的低水平的认知技能,相反,这正是对学生认知技能的提高。现在让我们设想一下,我们这位假定的历史教师有规律地通过要求学生以口头形式或书面形式对类似问题进行作答,来检查学生的这种技能是否有所进步。教师呈现的是现实世界的问题,而学生则试着以口头或论文的方式来作出合适的四段反应。
在图7.2中,您将会看到一个试行的评分要点的例子,以此来评价学生对建构性反应测验题的口头或书面的反应,从而测量他们对这种课程目标的掌握程度。正如我们可以看到的是,在这个试行的评分点中,第四个分任务被给予了较大的比重,也就是要求学生从自己所引用的事件中,使用历史相似性来支持自己提议的解决教师所提出的现实问题的方法。第一个分任务——引用相关的历史事件的重要性则被赋予了很小的比重。请记住,这只是一个试行的评分要点,很有可能当历史教师开始真正为学生的反应评分时,将会发现第一个分任务比老师一开始所认为的要难以应付得多,而学生解决第四个分任务则似乎并没有遇到多大的困难。在这种情况下,考虑到学生的实际反应,这位假定的历史教师就应该对试行的评分点进行修改,而不是把它作为对学生的反应进行鉴定的最终形式。
图7.2 历史课中高水平认知技能的试行评分要点示例
主观题回答中写作的基本技能是影响教师对学生进行评分的一个重要因素。如果学生回答中出现一些拼写错误、大小写混乱、错用标点符号等书写上的错误,那么教师在评分时很难排除这些错误的负面影响。当然,从某种意义上说,写作基本技能不会歪曲我们对学生的评价。例如,假设您将要对学生的应用文写作进行评分,题目任务是要求学生完成一篇能够在当地报纸上发表的报道。很明显,在这种情况下,写作基本技能就是评判学生成绩的一个重要因素。然而,如果是在一个化学测验中,当学生的回答是如何解决某个化学问题时,教师的评分就不会考虑他的写作基本技能究竟如何了。因此,第三个指导方针就是建议您在评分之前确定写作基本技能对于评分是不是一个重要的因素。如果写作基本技能对于您的评分并不重要的话,您就应该尽量避免学生的写作基本技能影响您的评分过程。
如果您采用的主观测验题包含两个或两个以上的题目,那么您要确保同时对所有学生的同一个题目的反应进行评分,然后再对他们的下一个题目的反应进行评分,以此类推。不要完成对一个学生的所有题目的反应的评分之后,再接着对下一个学生所有的反应进行评分。这样很危险,因为先进行评分的那个题目的回答情况,极有可能影响到您对这个学生下一个题目的评分。如果您先评定了所有学生的一个问题的反应之后,再对所有学生的下一个问题的反应进行评分的话,这样就可以避免诸如此类的不良影响产生。此外,评分过程也可以进展得更快一点,因为您不需要在评判的题目和题目之间更换评分标准。遵循第四个指导方针必然会使您的评分具有更高的一致性,从而得到更准确的基于学生答题情况的判断。虽然这样做您不得不更多地翻动试卷,但是为了增加评分的准确性还是很值得的。(这样,您还将得到更多的“运动”的机会呢!)
吉尔·詹金斯(Jill Jenkins)是您的一个学生的母亲,两年前被选为您所在学区的学校董事会成员。因此,当詹金斯女土希望和您讨论她的孩子吉尔(Jill)的学习情况时,您会非常愿意和她交流。
最近詹金斯女士到您的班级中找您谈话,她说学校董事会中有三个成员都抱怨这个学区中的主观题测验太多了。这三个成员认为这样的测验既没有信度也没有效度,因为它是由教师进行“主观”评分的。
由于您在班级中对吉尔和其他同学的测试中使用了大量的主观题,所以詹金斯女士想问您,这三个校董事会成员的观点是不是正确的。
➡ 如果我是您,我将这样回答吉尔的母亲:(哦,当然因为詹金斯女士是校董事会的成员,我会尽量用礼貌的口气,用比较专业的知识来回答她。)
詹金斯女士,很高兴能够有机会和您来谈论这个问题。就像您提到的,我和您一样站在支持主观题的立场上。主观题的真正优点就是它们要求学生来建构自己的反应,而不仅仅是认出正确答案,这是其他类型的测验题所不具备的。比如多项选择题,就不会提供建构的机会。
正如那三位校董事会成员所说的,对建构性反应测验题进行评分比对选择性反应测验题评分更加困难,这种现点是正确的,这确实是主观题的一个缺点:但是瑕不掩瑜,所有的建构性反应测验题向学生呈现的任务都是非常真实的任务,贴近学生的实际生活。要求吉尔在测验中完成一篇论文写作的任务,要比仅仅从四个选项中选择最佳答案,更加接近她在将来生活中会遇到的问题。在现实生活中遇到困难时,没有人会给出四个可以选择的选项。我们必须学会表达自己的观点和看法,主观题测验正好给吉尔和她的同学们提供了这样的机会。
现在,我们简单地谈论一下有关一致性和效度的问题。詹金斯女士,实际上,对于一个测验来说,进行一致性的评分是非常重要的,我们把对测试进行评分的一致性称为信度,如果一个测验题的信度不高,那么我们教育测验得分对学生作出的推论将是不正确的、无效的。詹金斯女士,测验的一致性是一个技术性的指标,但是它并不能直接说明一个测验题本身有效还是无效。效度实际上指的是基于分数的推论是有效的还是无效的,正如您的同事所指出的,一些主观题测验的评分并不是十分可靠的,但是事实上经过我们的努力,主观题测验是可以保证其评分的信度的,并能据此得出对学生的有效推论。
我希望我的这些解释对您很有帮助,我还很愿意给您看一些我在吉尔所在的班级中使用过的主观题测验。如果您仍有疑问的话,我相信学区主管——斯坦利(Stanley)博士,可以为您提供更多的相关信息:很高兴为您展示一些我在吉尔班级使用的主观题,而且我相信区城监督员会为您提供更多有用信息。
➡ 现在说一说,您将怎样回答詹金斯女士的问题?
因为我也是一名教师,所以我很清楚教师可以很迅速地从答卷的笔记中判断出这是哪一个学生的试卷,尤其是那些在书写上很有特点的学生,比如写的字“骨瘦如柴”、“细小孱弱”,或者有一些其他书写特点,比如习惯用“'s”来代替“is”,或者总是很迅速地写下字母t。所以您应该尽量避免猜测答卷是由哪个学生完成的。有一个简单实用的方法可以帮助您做到这一点,就是要求学生把他们的名字写在答题纸最后一页的反面,尽量在对所有的试卷完成评分之前不要查看学生的姓名。
在UCLA(美国加利福尼亚大学洛杉矶分校)教书的三十多年里,我一直在使用这种方法对研究生的主观题进行评分,实践证明,这个方法的效果相当不错。评分结果有时候会让我感到惊奇,因为有的在课堂讨论中表现很好的学生在考试中的表现却很不理想。然而一些安静的、不爱说话的学生却能在考试中取得优异的成绩。我相信,如果在评分之前我就知道答卷是谁的,评分结果很可能受到他们平时课堂表现的影响。所以,您应该尽量保证评分时试卷的匿名性。
让我们来回顾一下,我们已经学习了对学生的主观题反应进行评分的五个指导方针,如果您的课堂评价策略中使用任何一种主观题,您都将会发现这五个具有操作性的指导方针可以在很大程度上帮助您,使得您对学生的反应作出一致性很高的评分。要知道,就像您在第2章中学到的,一致性高是一个心理测量学家非常愿意看到的结果。
在您完成了这一章的学习之后,在接下来的两章里我们将学习另外两种类型的不是很常用的建构性反应测验题,具体地说,您将学习如何编制表现性测验、如何对表现性测验评分以及在课堂评价中如何创建和使用档案袋评价。同时,您还将发现我们在这一章中所讨论的内容,对于下面两章内容的学习是有很大帮助的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。