一、常模与标准分
在大多数临床心理学评估的场合,测验原始分没有实际应用价值,因为它不具有可比性。比如一名受试者在算术测验中获得15分(最高分为20分),而在词汇中获得40分(最高分为80分),我们无法判断该受试者哪方面的成绩更好,因为这两个测验分数的全距不同,互相没有可比性。在另一种情况下,受试者甲为16岁青年,在词汇测验中获得40分,受试者乙为40岁中年人,在同一测验中获得50分,我们也无法判断两名受试者谁的词汇水平更高,因为不同年龄的人其语言发展水平不同,他们也不具备可比性。一般而言,临床心理评估的目的有两个方面:一是确定受试者某方面心理特征在其相对应的正常人群中所处的相对位置或水平;二是比较受试者本人各方面心理特征之间的差异(也是相对于正常人群而言)。要实现这两个目的,必须运用标准分来解释测验的结果。
心理测验的标准分是参照常模—即标准化样本在测验中的操作数量化结果。因此,常模是通过一个具有代表性的样本在该测验中实际操作而建立的。
标准分的形式有很多,其共同点都是基于统计学的正态分布理论衍化而来的。
1.2分 是最基本的标准分,其他形式的标准分均是在Z分基础上转化而成。其公式是:
上式中:X为某受试在测验中所获得的原始分
为标准化样本在该测验的平均原始分
SD为标准化样本在该测验中所获原始分之标准差
从图48-1及公式1中可以知道,Z分实际上是某一受试者在测验中的操作与标准化样本平均操作水平的离散程度。它不但可以说明受试者的操作水平在平均水平之上(Z分为正)还是之下(Z分为负),也能表明他与平均水平的相差程度(以相差多少个标准差来表示)。但Z分的缺点是因为存在负分,这在某些测验(如能力测验、成就测验)中使用起来不方便,经过改良后的常用标准分计算公式是:
上式中:M为设计量表分的平均值
S为设计量表分的标准差
Z为Z分
图48-1 正态分布与标准化的关系
在智力测验中常用的离差智商是由公式2衍变而来。一般人们将智商的平均值定在100,标准差定在15(韦氏智力量表等)或16(斯坦福-比内量表等)。如韦氏智力量表的智商公式为:
2.T分 由Z分衍化而来的一种标准分。
T分是一种使用非常广泛的标准分,许多心理测验如MMPI、EPQ等都用T分来表示结果。
3.标准10和标准20 也是由Z分衍化而来的一种标准分,在韦氏智力量表用标准20来表示各分测验的成绩。
4.百分位 是临床心理评估中常用的一种非标准分表示结果的方法,它比标准分更容易理解,即使没有统计学基础的人也很容易理解它的含义,许多测验特别是成就测验经常用百分位来表示受试者的操作成绩。另外,临床心理学家在一些用标准分表示操作水平的测验报告中,也常用百分位来解释受试者的操作水平,如:“某某在韦氏成人智力量表中国修订本(WAIS-RC)获得全量表智商(FIQ)为117,相当于85%的百分位……”说明该受试的智力水平比85%的同龄的人好。
二、信度
信度(reliability)即可靠性,是对测验分数测量误差的估计。通俗地讲,测验的信度指施测分数能在多大程度上反映个体的“真实分数”。其专业的定义是:测验信度的测量即评价误差(error variance)在测验分数总方差中所占的比例。
(一)抽样误差的来源
在编制心理测验时,抽样误差的来源可分为以下几个方面。
1.内容抽样误差 在编制一个测验时,测量同一功能的测验条目往往有很多,人们不可能全用,只能在其中抽取具有代表性的少数条目来构成测验,这样产生的误差称为内容抽样误差。
2.时间抽样误差 同一名主试者给同一名被试者在不同时间分别实施测验,也会产生误差,这就是时间抽样误差。
3.评分者误差 同一份测验结果让不同的人评分,由于个人掌握的标准有差异而产生的误差。
(二)评价测量误差的方法
对各种误差进行测量一般采用相关的方法来考验,并用信度系数来表示误差的大小,信度系数在-1至+1之间,绝对值越大(接近1.0),表明误差越小;绝对值越小(接近0),表明误差越大。不同的测量误差可采用以下相应的方法来评价。
1.分半相关 用来测量条目按难易度排列测验的内容抽样误差。将单号条目得分分为一组,双号条目得分为另一组,计算单双号得分间的相关系数。
2.重测相关 用来测量时间抽样误差。由于内容抽样误差也同时存在于两次测验之中,因此重测信度实际上会受到时间和内容两种抽样误差的影响。
3.α 系数 由Kuder 和Richardson提出的一种计算信度的方法,主要用于计算内容抽样误差和条目内容的异质性。
4.评分者之间一致性检验 用于测量不同评分者之间所产生的误差。
5.测量标准误(standard error of measurement,SEM)又称为分数的标准误,也可以表示测验的信度,其公式为:
上式中:SDt为测验量表分的标准差
rtt 为该测验的信度
例如,某一智力测验离差智商的标准差为15,信度系数为0.95,那么该智商的测量标准误为
三、效度
效度(Validity)即有效性,用于检验所编制的测验测量了什么内容?在多大程度上达到了测验的编制目的?
检验效度的方法很多,由美国心理学会等三单位联合颁布的《教育心理测验的标准》将效度测量分为四类:内容关联效度、效标关联效度、结构关联效度和增强效度。
1.内容关联效度(content-related validity) 用于系统评估测验的内容是否涵盖了有代表性样本的行为范围,它主要用于设计测验条目,一般采用分析推理的方法挑选合适的条目。例如,编制一种人格测验时可以查找资料、书籍上有关人格特征的描述,编成相应的条目,然后请有关专家对这些条目的恰当性作出评价和筛选。
2.效标关联效度(criterion-related validity) 用来检验所编制测验是否能有效预测受试在特定活动中的操作情况,它包括现时效度(concurrent validity)和预测效度(predictive validity),两者的差异在于测验的对象不同。现时效度用于对目前所处状态的诊断,如“王某某患有精神分裂症状吗?”预测效度用于对未来的状态进行评估,如“王某某将患精神分裂症状吗?”计算效标关联效度首先要选择效标,学业成绩常用来作为智力测验的效标,有经验的精神科医师的诊断和评定可作为人格问卷或精神科症状评定量表的效标。
3.结构关联效度(construct-related validity) 用于检验所编制的测验是否达到了设计目的。测量结构效度有许多方法,例如与同类测验进行比较(进行相关)、因素分析等。为了较全面地评价测验的结构效度,D.T.Campbell曾建议,在研究结构关联效度时不仅应将新测验与同类测验的结果进行相关,也要与功能不同的测验进行比较,前者称为趋同效度(convergent validity),后者称为鉴别效度(discriminate validity)。
以上所提到的内容效度、效标效度和结构效度是评估心理测验有效性最常用的三种方法。在临床应用测验时,还应注意测验的增强效度。
4.增强效度(incremental validity) 是指某些测验与其他测验或检查方法联合应用时,其准确性会大大提高。研究发现,将精神病人的临床资料和病史与MMPI结果结合考虑时,能提高判断的准确性,这就说明MMPI在这种场合有较好的增强效度。
四、标准化心理测验
前面曾提到,心理测验可分为标准化和非标准化测验。在临床心理学实践中,标准化测验的使用范围更加广泛,而非标准化测验多用在科研以及部分有经验的心理治疗与咨询工作者的临床实践中。标准化心理测验具有下面三方面的特征。
1.常模样本的标准化 常模作为供心理测验结果进行比较的量度,其标准化程度是很重要的。标准化的测验要求常模样本具有很好的代表性,能充分反映测验所测量范围内人群的构成情况,对于明显影响所测量的心理特质的各种人口学变量均要进行适当的处理。例如,不同年龄的人群其能力发展水平不同,人格特征也存在明显差异,因此能力和人格测验在标准化过程中一般都会按年龄范畴分设年龄常模;又如,受教育情况、职业背景等因素与智力有明显的关系,因此在构成智力测验的常模样本时必须使其能代表这些因素在自然人群中的分布情况。标准化的心理测验均有常模,但有常模的心理测验不一定是标准化测验。
2.实施和记分方法的标准化 标准化心理测验的手册中应包含一套详细的实施程序,向使用者清楚地介绍指导语、实施步骤、时限(如果有时间限制的要求)、起止点、提问的变通方式、如何处理测验时出现的问题和注意事项等。应当包括简明清晰的记分原则、详细的记分标准和有代表性的范例,以及加减分的原则与标准。最后还要包括原始分转换标准分的方法和一套方便实用的转换表,有的标准化测验为了使用者分析解释结果时的方便,还附加了许多有用的统计表。
3.测量学分析资料 测量学资料主要包括测验的信度和效度,是标准化心理测验不可缺少的技术参数。测验使用者通过研究这些资料可以了解该测验的可靠性和有效性程度与范围,又可以借助这些资料来分析测验的结果,以便对受试的操作水平作出准确和恰如其分的判断。
(戴晓阳)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。