首页 理论教育 如何开展评价

如何开展评价

时间:2023-02-27 理论教育 版权反馈
【摘要】:在以下的部分,我们将共同探讨如何评价的问题。简而言之,常模参照评价是对学生成绩的相对性解释,这种解释是将个体学生的成绩与常模进行比较而得来的。如果被评价的课程目标能够得到恰当的呈现,学生的测验成绩就可以说明其在何种程度上掌握了该项目标。

让我们假设您已经确定了课堂评价的内容。现在,要解决的任务是采用什么样的方式去评价它们。在以下的部分,我们将共同探讨如何评价的问题。具体来说,我们必须在以下几方面作出选择:

 

 

如今,我们常常为教育工作者提供两条截然不同的评价策略:一条是常模参照评价(Norm-Referenced measurement),另一条是标准参照评价(Criterion-Referenced measurement)。这两条教育评价策略之间最根本的区别在于:它们是从完全不同的视角去解释学生的测验成绩的。

常模参照评价解释的是:某个学生的表现与先前参加过相同测验的其他学生的表现之间存在什么样的差别。那些先前参加过测验的考生被称为常模。换句话说,教育工作者试图通过“参考”常模的成绩,来判断并解释个体学生在考试中的表现。显然,这也就是为什么这种类型的评价被定义为常模参照评价的原因。

以下是常模参照评价的一个具体例子:教师说某个学生“在一个能力倾向测验中的得分是90百分位”,那么教师指的就是该名学生的考试成绩已经超过了常模当中90%的学生。在教育领域当中,常模参照评价常常被用来解释学生在能力倾向测验中的结果,像SAT和ACT,也大量用于解释某些使用广泛的标准化成就测验,如:爱荷华基本技能测验、都市成就测验、加州成绩测验等。简而言之,常模参照评价是对学生成绩的相对性解释,这种解释是将个体学生的成绩与常模进行比较而得来的。

相反,标准参照评价是一个绝对性评价,因为它取决于测试集中体现的标准(即课程目标)在何种程度上为学生所掌握。如果被评价的课程目标能够得到恰当的呈现,学生的测验成绩就可以说明其在何种程度上掌握了该项目标。例如,对于学生的分数,常模参照测验可以这样解释“该生考分超过了常模中85%的学生”;与此相反,对于同样的分数,标准参照测验则可以解释为“该生掌握了85%的测验内容,由此可以推断,该生掌握了课程目标所要求的85%的知识和技能”。请注意,标准参照评价的解释不依赖于其他学生的表现,而仅仅依赖于学生对所测内容的实际掌握情况。

您可以看到,标准参照评价能否对测验分数作出有意义的解释,直接取决于代表测验内容的测验目标能否被清晰描述。如果课程目标能够被清晰描述,则能产生简明扼要、容易理解的标准参照解释;如果课程目标只是被含糊不清地界定,将可能导致模棱两可、没有用处的标准参照解释。

从技术层面来看,尽管教师经常会提及“标准参照测验”和“常模参照测验”,但实际上并没有这样的说法,正确的表述应该是“对学生的测验成绩进行标准参照解释或常模参照解释”。例如,某个学区的教育工作者最初设计了一个测验,当时对测验成绩采用的是标准参照解释。之后好多年间这个测验被频繁使用,于是教育工作者收集到了大量的本学区学生的成绩数据。在这样的基础之上,该学区的教育工作者建立了常模表,进而就能够进行常模参照解释了,而且这种常模参照解释同最初的标准参照解释一样是有价值的。

大多数教师都需要作一些重要的教学决策,这一过程要求教师深入了解学生能做什么和不能做什么,而不仅仅是获得学生和其他人进行比较之后的简单结论。所以,教师们更愿意采用标准参照解释,而不是常模参照解释。例如,要证明一位教师的教学选择是否正确,最有力的证据是学生究竟掌握了哪些具体的知识和技能,而不是学生和别人存在哪些差异。

在有固定名额限制的情形下,教师必须采用常模参照解释。也就是说,当没有足够的名额让教师所教的学生都有同等的机会参与一个指定的活动时,教师就需要依靠常模参照评价来帮助自己作决策了。举例来说,假设有一个项目可以在课堂之外进一步帮助学生提升数学能力,但是只有5个名额,教师按照学校的要求必须为该项目选择数学成绩“最好”的学生。在这种情况下,所谓的“最好”就是一个相对性的描述符,所以我们只能采用常模参照解释。教师需要通过实施一个测验,根据测验中学生所反映出来的数学技能的优劣,筛选出最好的学生。然而,这毕竟只是特殊的情况,大多数时候教师都更倾向于使用标准参照解释。标准参照解释可以帮助我们清晰地识别学生能做什么和不能做什么,这将有助于教师作出明确的判断和可靠的决策。

在第12章里,您将进一步接触到运用常模参照解释的一些标准化成就测验。与此同时,您还将了解如何判断具有商业性质的评价工具对于结果的解释是否合理。但是,对很多课堂评价而言,采用的策略几乎主要是标准参照,而不是常模参照。

假设一名教师能够为自己选择的评价内容提供合理的解释,那么接下来需要解决的就是“如何评价”的问题了。这时,教师必须进行决断——究竟是要学生作出选择性反应,还是建构性反应。如果您仔细思考过教师评价学生的方式,那么您会意识到学生能真正作出的不外乎只有两种反应:一种是从教师提供的答案中选出正确的答案,例如,当我们用多项选择题测试学生的时候,他们的反应一定是选出可能正确的每一项答案;再以正误判断题为例,对于测验中的每一道题目,学生必须作出“对”或“错”的选择。

第二种反应是建构性反应,与选择性反应恰好相反,建构性反应指的是学生必须独立解决问题。例如,在英语课上,用英语写一篇作文;在木工课上,设计制作一张桌子;在口语课上,发表5分钟口头演讲;在戏剧课上,即兴扮演某一个角色;在家政课上,学习制作酥饼和蛋糕,诸如此类。在建构性反应测验中,学生要么作出一定的产品,如桌子和酥饼;要么采取了一定的行动,如口头演讲和戏剧表演。当学生的建构性反应以有形产品的形式呈现时,教师就可以在任何时候对产品的质量进行鉴定。例如,一旦学生写完了作文,教师就可以在周末的时候将其带回家中,在休息放松的时候随时进行阅读和批改。

但是,当学生的建构性反应以行为的方式呈现时,例如体育教师要求学生在不到12分钟的时间里跑完一英里,那么教师就必须对该种行为进行即时记录,否则这种行为很快就会消失。教师既可以采用书面记录的方式,也可以采用电子记录的方式,如通过运用录像机等。教师还需要通过秒表来记下学生跑完一英里的时间,并将其整理在一个记录簿上。与此类似,在一节演讲课上,学生们发表了一系列的即兴演讲,教师通常需要运用不同形式的表格来为每一个演讲作出评价。

我们曾经一度认为,选择性反应的测验在设计上难度较大,但在评分上却比较容易;而建构性反应的测验正好相反,设计难度较小,但评分相对不好把握。然而,如今的教育工作者已经能够非常熟练地编制建构性反应测验了,并且相应创造出了很多类型的评价方法,不再局限于论述题或是简答题了。在实际中,选择性测验也好,建构性测验也罢,都需要教育工作者付出相当大的努力;不过,我们也必须承认,选择性测验的评分确实比建构性测验要容易。

作为一名教师,当需要在两个评价程序中作出选择的时候,那么您应该较多地关注基于分数的推论会不会产生您最终想要的结果,而不应该计较是否容易评分。通常情况下,为获得一定的推论,我们采用选择性反应评价程序。例如,如果您想要判断学生掌握了多少历史知识,选择性反应程序就能满足您这方面的需要,而且评分也非常容易。此外,其他一些基于分数的推论可能需要学生作出复杂的行为,而不仅仅是在您提供的选项中选出答案。例如,如果您想判断学生创作的诗歌如何,那么采用选择性反应评价程序就不适合了。因为考查学生的写诗能力,您需要让他们实际去思考、组织并成文。在这种情况下,从心理测量学的角度来看,依靠选择性反应评价是一种愚蠢的行为。简而言之,如果教师要作出某个基于分数的推论,就必须在选择性反应策略和建构性反应策略之间作出选择。

当然,教师在课堂中完全可以同时使用两种评估策略。例如,您想得到一个结论,那么在要求学生作出选择性反应的同时,又可以要求他们作出建构性反应。总而言之,评价程序应该就是为了帮助教师掌握他所关注的学生学习的情况,并对学生进行尽可能全面和客观地评价。

除了上述我们讨论过的建构性反应和选择性反应以外,在课堂评价程序中还存在着大量形式各异的题目类型。有些题目类型已经被使用了很多年,算是比较古老的类型了。例如,主观题在苏格拉底时代就已经出现,一直沿用至今;多项选择题历史也很悠久,大约已有一个多世纪了;正误判断题也绝不是一个新生事物,它最初是以口头形式出现的,也许史前教师在教学生学习物种时就已经采用这种方式了,比如:“今天的恐龙不是一只以人类为食的暴龙,而是一只以植物为食的雷龙,这种说法是对还是错呢?”

假设柯林斯太太(Collins)是您班上一名学生的母亲,她近来有些闲惑,想在您下班之后占用一些时间进行咨询。她想了解所有人都在谈论的“新的、具有挑战性的标准”究竞是指什么?因为她阅读了一篇发表在当地报纸上的关于教育标准的文章,所以非常想知道所谓的“新”标准是不是真的足够新。她的问题是:“为什么最近几年到处都在谈论教育新标准,但是这似乎对学校里的教师影响不大,他们教授和测查的仍然是和先前一样的内容,这究竟是怎么回事呢?”

➡ 如果我是您,我会这样回答柯林斯太太的提问:

柯林斯太太,我真的非常理解您对教育标准的忧虑近些年来,教育标准的问题的确受到了教育界的广泛关注。但是很遗憾,目前关于教育标准的认识还是有些模糊和混乱,即使是教育工作者也很难给出一个清晰的界定。

实际上,我们需要了解的主要有两种类型的教育标准。一种是“内容标准”,指的是我们希望学生在学校获得的知识和技能。例如,最近您的女儿大大提高了她的写作技能,她现在可以写出叙事完整、论据充分的文章了。在这里,内容标准指的就是写作技巧。

另一个是“表现性标准”,即揭示掌握内容标准的程度。我们使用一个四点量表给学生的作文打分,教师们普遍认为,一篇好的学生习作至少应该在量表的三个方面都能够达到令人满意的程度。

现在所谓的“内容标准”就是我们用来描述目标、目的或结果的话语,而所谓的“表现性标准”就是我们用来描述掌握程度的话语。虽然一些具体的表述可能发生变化,但是教孩子们最重要的技能和知识,这一点将不会改变。

至少就个人而言,我需要更多地关注内容标准和表现性标准的可行性。如今,整个国家的教师都不得不面对更加富有挑战性的标准——这些标准对学生们提出了更高的要求。而且,我们学校也已经采用了一些这样的标准。如果您仔细了解一下我们正在教授和测验的内容,您不难发现我们课上传授的知识和技能已经有了重大的变化,我们确实希望学生能达到最佳水平。

➡ 现在想一想,您将如何回答柯林斯太太的提问呢?

最近几年里,教育测量领域取得了一些重大的研究进展,例如,许多教育测量专家现在广泛提倡使用的档案袋评价和表现性评价,这两种形式就是新近出现的。如今,这些重要的新题目类型已经被添加到教育评价的备选“菜单”当中去了,为教师们提供了更大的选择空间。在之后的几章里,我将详细介绍教师评价数据库当中各种主要的题目类型。

我们将从学习各种传统类型的选择性反应和建构性反应测验入手,之所以这样安排,是因为您越熟悉这些题目类型,您在使用方面遇到的困难将会越少。以简答题为例,因为您非常熟悉,所以您使用起来也就可以做到驾轻就熟。在接下来的几章里,我们将首先向您介绍档案袋评价及其在课堂评价中的运用,然后是表现性评价及其运用。之后,我们将共同来探讨一些特殊的题目类型,这些题目将对您测量学生的情感有所裨益。

下面,我们把后面几章要呈现的内容先在这里总体作一概括,让您有所了解。在接下来的几章里,您将学习课堂评价中的以下几种题型:

 

■ 判断题(Binary-choice items)(第6章)

■ 多重判断题(Multiple binary-choice items)(第6章)

■ 多项选择题(Multiple-choice items)(第6章)

■ 匹配题(Matching items)(第6章)

■ 简答题(Short—answer items)(第7章)

■ 主观题(Essay items)(第7章)

■ 观察方法(Observational approaches)(第8章)

■ 表现性测验(Performance tests)(第8章)

■ 档案袋评价(Portfolios)(第9章)

■ 情感测评程序(Affective assessment procedures)(第10章)

 

正如以上您所看到的,当教师需要确定题目类型的时候,其实可以有很多选择。20世纪50年代的时候,我还是一名准教师,我的导师要求我熟练掌握很多不同的题目类型(所有题型都是传统的),而且还鼓励我针对不同的评价目的,尝试运用各种题型来进行设计练习。坦率地说,现在看来这条建议不够明智。毕竟课堂评价与时装展示完全不同,它不是为了迎合学生的兴趣,而是为了帮助教师作出合理判断,因而绝不能不加斟酌地随意去使用题目类型。

在可供选择的众多题型中,您应该选择最适合的那种。所谓“最适合”是指这种题型有助于您获得自己感兴趣的问题结论,并能协助您制定合理的决策。当然,有的时候,您选择哪种题型,似乎对结论的影响都不大。例如:我并不认为采用多项选择题进行的测试会大大优于采用匹配题进行的测试。然而,在有些情况下,采用不同类型的题目进行测试,其结论之间会存在非常明显的差异。在作出选择的时候,我建议您应该问问自己:“学生对这种类型题目的反应能帮助我作出一个合理的推论,并帮助我制定适当的决策吗?”

在以后的5章内容中,我们将陆续学习不同的题型。您将逐渐熟悉每一种题型的具体特点,从而能够在您的课堂评价活动中游刃有余地使用它们。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈