在处理教育测验时,第二种常见的效度形式是效标关联效度(criterion-related evidence of validity)。与内容相关效度类似,效标关联效度能帮教育者决定他们可以在多大程度上信任基于测验分数对学生在一个或几个课程目标上的掌握情况所作的推论。然而,当我们搜集效标关联效度的证据时,我们会采用一种与内容相关效度截然不同的搜集方式。此外,效标关联效度有一定的适用范围,即当教育者运用某一评价程序来预测学生在某一后续标准变量上(criterion variable)的表现情况时,我们才会用到它。
理解效标关联效度最容易的方式,就是计算学生在能力倾向测验上的分数和后来学业成绩之间的相关,这也正是效标关联效度在教育领域中最普遍的一种应用形式。正如我们在第一章中讲到的,能力倾向测验是用来预测学生今后学业成就的一种评价手段。例如,许多学生在高中阶段时会接受一种学术能力倾向测验(SAT)。这些测验旨在预测学生在大学阶段的成就。更具体地说,学生在能力倾向测验中的成绩被用来预测学生在大学期间的平均分数(GPAs)。人们假设,在能力倾向测验中成绩较好的学生在大学中的平均成绩会高于那些在能力倾向测验中成绩较差的学生。
图3.3是一个典型的预测测验(predictor test)与被预测的效标的关系图。正如您所看到的,测验是用于预测学生在后续某一效标上的成绩的,这一效标可以是平均成绩、工作熟练程度、年收入或者是一些我们感兴趣的其他变量。在教育领域中,大多数情况下,我们更多地关注那些直接与教育问题有关的效标。因此,学业成绩也就成了常用的效标之一。此外,教师通常还对学生的“公民道德”效标感兴趣,如学生高中毕业后参与投票的次数(这是积极的效标)或者违法的次数(这是消极的效标)。
图3.3 效标关联效度的典型图示
如果我们能肯定某一预测测验非常有效,那么就可以运用该测验的结果帮助教育者作出有关学生的教育决策了。例如,如果您发现C.卡福(Cliff Carver)高中时在某一学业能力测验中的成绩非常糟糕,但是他又铁了心要上大学,那么您就可以给他设计一系列补充性的教学活动。通过这些教学活动,保证他在高中毕业前获得上大学所需要的技能和知识。可见,不论是预测测验,还是一般的教育评价,其结果都应用于更好地进行教育决策。
比林斯(Bilings)夫人是一位学生的母亲,今年她担任学校“家长—教师”协会(PTO)的主席。出于职务所需,她阅读了大量关于教育问题的期刊论文。在每次的“家长—教师”协会会议后,比林斯夫人都会要求您评论一篇她曾读过的论文。今天晚上,她请您解释一下“内容标准”(contentstandards)一词是什么意思,它与课堂测验又有什么关系。比林斯夫人指出有一篇文章的作者认为:“如果教师编制的测验不能测量出国家统一规定的内容标准,那么该测验就是无效的。”
➡ 如果我是您,我会这样回答比林斯夫人:
比林斯夫人,今晚您提出了一个非常重要的问题。在我们组织教育工作时,许多教育者都把“内容标准”看成最关键的因素。简单地说,内容标准描述了我们期望学生能掌握的知识或技能。您也可以认为内容标准此是过去所说的教育目标。当然,最恰当的说法是教师根据适当的内容标准来确定他们的教学目标。
如您所知,我们州已经为所有年级建立了语言艺术、数学、社会研究和科学等一系列课程的内容标准。每一科目的内容标准的编制都或多或少参照了全国学科事务联合会先前编制的内容标准。从某种意义上讲,我们学校的教师既可以参考州制订的内容标准,也可以参照全国学科事务联合会制订的标准。事实上,多教学校的教师都参照了这两套内容标准。
在我们称之为“测验共享”的活动中,教师会翻阅这些内容标准。每位教师至少要找一位同事帮助检查所有重要的课堂测验,确保内容标准中大多数重要的知识点都包含在内。为教师自编的课堂测验搜集内容相关效度证据,这还是一种尝试。
如果教师的测验不能很好地反映内容标准,我们会帮助教师修改自己的测验,确保测验较好地涵盖内容标准。这种方法可谓屡试不爽,如今我们已经使用两年了,大家普遍认为我们自己编制的测验在关键知识和技能的覆盖上更加完善了。
➡ 现在,您知道该如何回答比林斯夫人的问题了吗?
然而,在某些情况下,由于预测测验和效标数据的搜集之间需要较长的时间,心理测量学家们经不起如此漫长地等待。例如,如果某商业测验公司编制了一套新的学业能力测验,用于预测高中生在大学毕业时的平均分数。那么该公司就可能在大四学生毕业前的一个月给他们实施这一测验,然后再计算他们在这个测验上的成绩与四年成绩的平均分之间的相关。这种方法得到的相关被称为协同效标关联效度(concurrent criterion-related evidence of validity)。显然,这类证据远比搜集到的预测效标关联效度(predictive criterion-related evidence of validity)更令人信服。
对于学业预测测验而言(诸如我们上面所讨论的测验),教师需要意识到这些测验并不完美。有时,被预测的效标本身就缺乏信度(比如您大学时成绩的准确性如何),学生在学业能力测验中的得分与之后的测验得分之间的相关系数很少会超过0.5。一个0.5的相关系数表明,尽管预测测验在一定程度上预测到学生后来的成就,但是还有其他因素也在一定程度上对学生的学业成绩构成影响。这些因素包括:学习动机、学习习惯以及人际交往技巧等。事实上,对学生未来成绩最有预测力的不是能力倾向测验的分数,而是学生以前的考试成绩。学生以前的成绩更准确地反映出全部的影响因素,而其中的一些变量是学业能力倾向测验无法直接测得的,比如毅力。
从统计意义上讲,如果您想确定某一预测测验(诸如ACT或SAT)影响学生效标变量(诸如大学成绩)的比例,您必须求得预测测验与效标变量间的相关系数的平方。因此,如果相关系数是0.5,简单的求其平方,即0.52,您将得到0.5×0.5=0.25。这表明在学生的成绩中,能力倾向测验的因素只占25%,而像动机、学习习惯等因素则占到剩余的75%。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。