第二节 科学测评的要求和步骤
要想使测评达到预期的结果,保证测评的科学性是基本前提。因此,掌握科学测评的质量指标和技术是每一个称职的中小学教育工作者都应该达到的基本要求。
一、科学测评的质量指标
科学测评最主要的条件是要有一个或一套高质量的测验。决定测验质量的因素主要是组成测验的每道试题的质量和整个试卷的质量。这种质量主要取决于试题的难度、区分度以及试卷的效度、信度和标准化等几方面的情况。
(一)难度
难度是指题目的难易程度。通常用学生对该题的通过率或答对率来表示。一般情况下,不同类型的题目其难度计算的方法也不同。客观性试题的正确答案常常是唯一的。学生的答案不是对就是错,答对记分,答错或不答记零分。这类题目的难度是直接计算答对该题目的人数与学生总人数的比率,即以答对率来表示该题目的难度。主观性题目的满分一般都大于1分,通常采用计算学生对某题的平均得分与该题满分之比来表示题目的难度。
(二)区分度
题目的区分度又叫题目的鉴别度或鉴别力。这是指试题是否具有将学生的水平区分开的能力。区分度对目标参照测验或掌握测验意义不是很大,因为这些测验的目的是测量学生是否完成学业,并不是想区分他们的能力,从而作出选拔。
(三)效度
测验的效度指整个测验的有效性。具体指测验是否具有测量出人们所要测量的东西的属性之作用。它主要回答测验究竟测量什么特性,测验对所要测量的特性测得有多么准确等问题。
(四)信度
测验的信度指整个测验的可靠性。具体指对同一组对象进行两次同样的测验,所得结果的一致性和稳定性程度,因而又称为一致性、精确性、稳定性。如果一个测验在不同时间、不同地点多次测量的结果是一致的,那么就可断定它是可信的,否则便不可信。
效度关心的是测验打算测量的东西是否能测量到以及测量到何种程度。它是对测量准确性程度的估计。信度关心的是多次测量的结果是否一致,是对测量的一致性和稳定性程度的估计。一个测验,对于某种目的具有一定的信度,但不一定是有效的;而一个测验如果对于某种目的是有效的,那么,它—定是可信的。对于一个测验来讲,效度是最为重要的因素,其次才是信度。
(五)标准化
测验的标准化是指在测验的编制、组织实施、评卷记分、分数合成与解释等整个过程的各个环节当中,人们按照系统的科学程序和统一公开的标准,对误差进行严格控制的全过程。测验经过标准化之后,称为标准化测验。
标准化是相对的。作为使测评科学化的手段之一,它使考试内容的取样具有代表性,重点、难点掌握适当,题目数量多,能更准确、更全面地反映教学大纲的教学要求。具体讲标准化有四点好处:
(1)减少无关因素对测验目的的影响,使测量准确可靠。
(2)使不同的测验分数具有可比性。
(3)同一测验可以有许多平行测验反复使用,比较经济实用。
(4)经过标准化的测量可用来校准其他测验。
上述指标是从不同角度对教育测评的科学性进行的衡量。它们是科学测量和优秀测验必须具备的特征,也是教育测量活动科学化的基本条件。
二、教师自编测验应注意的问题
标准化的测验在高考、会考、中考等大型考试中广泛使用。但在日常教学当中,大量使用的仍然是教师自编测验。这种测验是一种非标准化测验,它是由任课教师根据教学大纲和教学计划自己编制的适用于学校日常教学需要的学业成就测验。这类测验的特点是:①测验目的和时间灵活多变。可用于平时摸底、单元小结,了解学生的学习进度和对知识的掌握程度,调整教学方式等。常用的测验形式有小测验、单元测验、期中考试、期末考试等。②计分灵活,测验分数一般不需要转化为标准分数。③测验规模和适用范围小。某一特定的测验只能用于某个班级或某个学校。测验虽可用于进行校际间的交流,但适用性相对较低。④测验的质量决定于编制试卷的老师的经验。一般缺乏对信度、效度等有关测验质量指标的确定。鉴于这些特点,教师在自编测验时应注意下面一些问题。
(一)设计测验的基本原则
1.科学性原则
教师在自编测验时,应重视把握测验的质量,依照科学测验的质量要求来设计测验,使测验既可靠又有效。如果测验的质量能够得到保证,测验的科学性也就有了保证。
2.目的性原则
明确测验的目的。是测能力还是测知识?是测新生还是老生?是考查学生对讲授内容掌握的程度?还是想寻找教学中的薄弱环节?是摸底测试准备分班?还是水平或等级测试用来筛选?目的不同,测验的类型,测题的内容、形式,以及对难度、区分度的要求也就不同。如果不分青红皂白,在任何时候都采用千篇一律的测验,其结果和据此做出的结论、决定和决策,也就不可能尽如人意。
3.多样性原则
测题的形式要力求多样化。在一个测验中应尽可能包含多种类型的试题,使整个测验既要有深度,又要有广度。最恰当的是根据不同的考查内容,设计相应的比较合适的试题形式。
4.实用性原则
测验的组织实施要简单易行,节省时间,易于评分,得分易于解释和理解,试卷制作费用尽可能低。在保证科学性、目的性的前提下,这些问题都应仔细全面地考虑,以确保测验方便实用。
(二)试题的基本类型
从中国古代的文官考试制度到今天的高考,乃至美国的TOFEL和GRE考试,人们发展积累了多种多样的测题类型。根据评分的客观性,可将这众多形式的试题分为客观性试题和主观性试题两大类。
1.客观性试题
主要指选择题、填空题、配对题、是非题、判断题、排列题等,是能够进行客观评分的题目。此类题目又称为固定答案型题目,因为它要求学生从事先编制好的答案中辨认出正确答案。它们在标准化测验当中使用得比较多。
选择题是标准化测验当中最常用的试题类型。这种试题在题目结构上包括两个部分:一为题干,由疑问句或陈述句组成;另一部分为选项或备选答案,包含一个正确答案和若干个错误答案。如例1所示。
例1 用直尺把两点连接起来,就得到一条( )
①直线 ②射线 ③线段
选择题适用于考察记忆、分析、鉴别、推理、理解和应用知识的能力。选择题有多种变式,如最佳选择题、配对选择题、比较选择题,多项选择题、组合选择题、单项选择题等。
填空题是提出一个不完整的陈述,要求学生填写所缺少字词的试题类型。可空一处,也可空几处。题目中空出的大多是关键字词,而且和上下文有着密切的关系。它要求学生能够回忆出正确答案。如例2所示。
例2 古诗填空
月落( )霜满天,
夜半( )到( )。
是非题是提出一个论点,让学生判断是否正确或从两个相反的答案中做出选择的试题类型,又叫判断正误题。它适于考查学生对简单概念和知识的了解,以及对一些容易混淆的概念的掌握情况。
2.主观性试题
主要指简答题、论述题、应用题等论文式题目,又叫自由回答性试题。这类题目的答案形式变化多,不容易控制,评分主观性较强。它适合考查学生对知识的综合应用和推理能力、理解能力、创造能力及对问题的洞察力和领悟力等,如本教材每章后面的复习思考题都属于这类题目。
简答题要求学生提供简单明确的答案,不需做过多的论述。它适于考核基本原理、基本概念等比较小的理论问题。
论述题要求学生以论述形式根据自己的想法和认识回答题目。这类题目出题容易,考查范围广泛,便于考查学生分析问题,组织材料,表达思想,评论鉴赏等高层次能力。其最大的缺点是题目数量少,重点容易失控,评分不容易把握。
应用题叙述一个具体的情境并提出一些有关数据,让学生解决提出的问题。它适合测验计算技能、数学和科学推理,以及在新情况中运用知识的能力。如例3所示。
例3 根据国家统计局公报,1994年我国国内生产总值52 389亿元,1995年比前一年又增长了10.2%。1995年我国国内生产总值是多少亿元?(得数保留整亿数)
测验试题的种类远不止这些,不同的题目也各有利弊。在实际测评中,应根据不同情况,将各种题型互相配合,灵活使用。
(三)测验的编制步骤
1.拟订测验编制计划
计划中至少要包括这些问题:测验的性质是什么?准备测查哪些知识或能力?测验包括几部分?各部分比例如何?重点是什么?采用哪几种类型试题?各种类型的题目数量各多少?采用哪种记分方法?测验用多少时间等等。编制测验计划越完整,将来出现的问题也会越少。这种计划是一个纲要,它是命题的准则与依据。
2.制定双向细目表
这种双向细目表要确定测验所学的知识和能力,以及对每一知识、能力的相对重视程度,它是编制试题的最直接的依据,也是测查评估教学过程是否完成了预期计划教学目标的细目。
目前,在教育实践领域,教育工作人员通常依据美国心理学家布鲁姆的教育目标分类体系,来编制试题的双向细目表。布鲁姆等人把认知领域分为记忆、理解、应用、分析、综合、评价六个层次,根据这六个层次的认知行为目标可以编拟学科试题计划。有时也根据不同的教材和学科内容采用不同的知识层次,不一定每门课程、每题内容都要按六个认知层次命题。
双向细目表有两个用途:一是指应该出多少和出哪些种类的题目,二是可按表中的比例来确定每种题目应占多少分数。
3.编审题目
依据双向细目表搜集有关资料,作为命题取材的依据。资料要丰富全面,还要有普遍性。在编写题目时,除了遵守各种类型题目的基本规定之外,还要注意不能超出教学计划的范围。题目的数量一定要比最后确定要用的题目数多,以备择优录用和编制平行测验。题目的难度必须从属于考试的目的,答题说明与试题用词必须清楚明白,易于理解,一定要避免歧义。
编写的题目最好写在卡片上。题卡的内容应包括题目、答案,以及所要考查的知识和能力范畴。这样做有利于后面编排试卷时灵活组合变化。同时,积累下来之后,可汇聚成一个题库资料。最好在平时教学中养成填写题卡的习惯,把教学中学生最容易出现的问题和一些好题目记录下来,避免在临近考试时手忙脚乱。
题目编好之后,要按一定的质量要求对每道题目进行审查,确定题目是否需要增删或修改。必要时还要对初次选中的题目进行测试。
4.合成试卷
把经过反复筛选保留下来的题目,按一定的原则和排列技巧加以合理安排,组成一个完整的试卷(如果采用的是题卡,则只是将题卡按要求进行不同的排列组合)。由于人们答题时习惯于按照题目排列顺序从前往后,因而在试卷开头,应该放置一些比较简单易答的题目,促使学生迅速进入考试情境,消除紧张情绪,建立信心,以利于发挥出学生的真实水平。这类试题被称为热身题。
试卷总的编排原则是由易到难,形成梯度。这样可以避免学生在难题上耽误时间,影响对后面问题的解答。试卷最后可排一些难度较大的题目,用于拉开学生之间的距离,测出学生的最高水平。在同一份试卷中,如包含多种类型的题目,应根据题目的形式和内容分门别类,以方便答题和记分。
注意编排平行测验。平行测验越多,使用起来越便利。在教学实践中,通常要有两套测验。一份用于正式考试,一份用于补考。把从题卡上选中的不同类型的试题,分别按照难易程度顺序排列。然后按奇偶把各类试题分成两份组合起来,就成为包含多种类型题目的等质的两份平行测验。这种方法使两份测验的难度水平基本相当,将来测验分数的总体分布也会大体相同。
5.制定标准答案
标准答案用于阅卷评分。有了标准答案,教师可以依此评阅试卷,学生也可据此进行自评。试题标准答案应详细地规定评分细则和题目的正确答案及总分数的合成规则。应该注意答案不能是错误的或者是有歧义的。尤其是开放性题目和主观性题目,应对答案的范围、方向、内容和要点有一个大致的规定。同时,应对不同类型的答案和所允许的变化划分一个评定等级,否则评分的伸缩性会很大,将很难把握。
经过以上几个步骤之后,试卷便可正式打印使用。
小卡片
教师专业发展评估实施办法
为了深化素质教育改革,促进中小学教师专业发展,现制定《教师专业发展评估实施办法》。
一、评估目的:通过科研性教师专业发展评估,全面促进教师专业发展,提高教师整体素质。
二、评价原则:1.自主性:尊重教师主体性,突出教师自我评价的作用,允许教师在评价过程中有对话的权力,调动教师参与评价的积极性,强调对教师专业自主发展能力的评价。2.发展性:注重教师评价的过程性,重视教师平时教学、工作的积累。不仅关注教师发展的现在,还要关注教师的过去,以及发展趋势。强调对教师专业发展过程的形成性评价。3.个性化:科研性评估利用最新教育理念来引导教师的专业发展,寻找特色,挖掘潜力,鼓励个性,充分发挥自己的优势。在评估过程中,培养教师的教学个性和独特风格,塑造智慧性、研究性、学习型教师。4.科研性:在科研性评估过程中,要引进教育科研的先进方法和技术,认真分析和研究教师专业发展中存在的问题,科学预测教师专业发展的趋势。要用多元的视角、多元的标准、多元的目标、多元的方法来满足教师专业发展的需要。5.综合性:在科研性评估的视野中,教师是一个完整的人,我们不仅要关注教师专业发展,还要关注教师的心理、情感、态度、价值观等方面的发展需要。
三、评估主体:科研性教师评估作为第三方评估,提倡评估主体多元化,要突出教师的自我评价,把学生、家长、社区成员吸收到评估活动中,从多元主体获取评估信息和资料,要把专家评价意见作为重要的评估依据。教师专业发展评估是一种以教师自我评价为主,专家、学生、家长、社区共同参与的评估体系。不同评估主体在评估过程中,将发挥不同的作用;不同评估主体将采用不同的评估工具和方法,体现评估方法的灵活性、多元性,满足教师专业发展的需要。
表12-1 教师专业发展评估实施办法
四、评估实施步骤:教师专业发展评估实施步骤与《科研性教育评估实施方案》中规定的要求一致,在教师专业发展评估过程中参照执行。
资料来源:中央教育科学研究所培训中心,2006年。
三、测验的实施和评分问题
(一)正确对待测验
要有效地实施测验,除了需要做一些准备工作和协调组织工作之外,最主要的一项工作是如何调整学生的心态,稳定学生的情绪。学生接受测验时,会出现忧虑、紧张、惧怕情绪,心理学家把它称为“测验焦虑”。测验焦虑是由于担心考试失败或渴望获得好成绩而产生的。这种心理状态在考试前数天就会表现出来,随着测验日期的临近,将日益严重,从而影响到测验结果的真实性。
教师如何帮助学生调适这种情绪呢?
第一,让学生正确认识测验,对测验保持一种正确的态度。测验是一种教学评估工具。虽然测验分数把学生区分为不同的等级,但这并不是它的最终目的。通过测验,教师可以掌握学生的不足,进一步改进和提高教学。学生也可以看到自己的差距,做到查漏补缺。因此,应该让学生以一种良好的心境来面对它、正视它、接受它。
第二,给学生创造一个轻松的氛围。面临考试,教师、家长等关心学生的人都会以关怀的心态询问有关情况。然而,过分的关怀往往使学生心理负担更加沉重。学生周围的人应体谅他们,想方设法为参加考试的学生制造一个轻松愉快的心理环境。
第三,提高和锻炼学生心理承受力。学生害怕考试,产生焦虑情绪与学生的认识水平和个性特点有关。个性内向的学生,会因此而影响上进。教师在实施考试时,要考虑学生的个性特点,创造条件锻炼这些学生的自控能力,教给他们自我控制的成功做法,使他们胜不骄,败不馁。
(二)正确对待分数
客观地讲,用分数来表示测验的结果,是反映学生学习情况的最简便的形式和最有效的工具,但过分看重或轻视分数都是错误的。教师、家长、学生应对考试分数有一个正确的态度。
要突出测验的实际作用。除用于选择目的的测验之外,其他学业成就测验的分数都应看成是学习过程中的暂时性评定指标。重要的是总结分析测验分数所提供的信息,进一步改进教学,而不是谈论具体分数应该是多少。
要认识到分数是可变的。从统计学角度讲,测验的分数表示的是一个范围,是一段距离。测验分数会随着学习态度、学习方法、学习内容和考试情境的改变而发生改变。
要明确分数并不是无所谓的。在选拔性测验中,差1分就可能名落孙山。在平时考试中,分数的起伏变化是学生学习最灵敏的指针。密切注意分数的变化,探索它提供的反馈信息中的意义,可以有效地发挥它的积极作用。
(三)正确对待测量和评定
对学生做出中肯的评定,是对他们负责任的一种表现。最终的目的依然是为了进一步实施教育,为了造就社会有用之才,也是为了孩子的未来。每个看到学生评语的人,对此都应有一个正确的态度。好的评语不仅仅中听也表明学生的品行是优良的,人人高兴,理所当然。不好的评语虽然不中听也不中看,但它指出了学生的缺点,对学生的成长是有利的。如果看的人能够意识到不中看也不中听,表明他有是非之心,也有是非观念,因此更应该正确对待这种评语。最关键和最要紧的是如何根据评语中指出的问题,促使学生向努力的方向快速转变。
如果教师、学生和家长都能够正确对待测量和评定的结果,学生必定会进步。
●反思与总结
1.教学和教育效果的测量与评定,是学校教学和教育过程的一个重要环节,是教育心理学不可缺少的一个组成部分。
2.科学测评最主要的条件是要有一个或一套高质量的测验。决定测验质量的因素主要是组成测验的每道试题的质量和整个试卷的质量。这种质量主要取决于试题的难度、区分度以及试卷的效度、信度和标准化等几方面。
3.要正确对待测验,正确对待分数,突出测评的教育作用,老师要当医生而不能当裁判。
4.对学生做出中肯的评定,是对他们负责任的一种表现。最终的目的依然是为了进一步实施教育,为了造就社会有用之才,也是为了孩子的未来。
●思考与练习
1.试述测评在教育中的功能。
2.编制测验应考虑哪些技术指标?
3.编制测验应注意什么问题?
4.如何正确对待测量和评定?
●网络资源索引
http://www.tandf.co.uk/journals/onlinesamples.asp
http://www.bps.org.uk/careers/areas/educational.cfm
http://www.mhhe.com/socscience/education/edpsych/edpsytop.html
http://chiron.valdosta.edu/whuitt/materials/elecfile.html
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。