第一节 心理测量的原理
测量是按照某种规律,用数据来描述观察到的现象,即对事物做出量化描述。测量是对非量化事物的量化过程。
一、心理测量的基本原理
心理测量具有客观性。人的心理过程是在大脑中进行的,智力、人格、兴趣、情绪、自我等都是难以用形象直观呈现的心理活动,以今日的科学发展水平,人们还不能对心理现象进行直接的测量。然而,根据心理学的特质(trait)理论,某种内在的不可直接测量的心理特质,可以表现为一系列具有内在联系的外显行为,每个人的心理活动和特质必定会反映在行为中。心理决定行为。有什么样的心理特质,就会有什么样的行为表现。比如,性格外向的人在大多数场合都会表现出善于交往,很容易交朋友,不惧生人和陌生环境,做事比较冲动,喜动不喜静,喜欢与其他人一起工作,不喜欢单独工作,喜欢与人打交道。因此,心理学家可以根据对外显行为的评定间接地测量人的心理特质。心理测量的基本原理是,测量被测试者对测验项目所表现的行为反应,将测量结果与一般人在同样情境下的行为反应进行比较和分析,从而推测被测试者的心理特质。
心理测量具有间接性。心理测量是一种间接测量,所以有精确的测量工具还不够,还要有规范的测量程序和施测条件,否则测量结果就会受到各种因素的影响而产生严重误差。
心理测量是通过对人的行为进行比较来实现的。因此,心理测量没有绝对的标准,也就是说没有绝对的零点。所谓心理测量,就是分析一个人处于人群行为的什么位置上。由于人群的行为是经常变化的,一个人的行为在人群平均行为的位置也是变化的。所以,心理测量的结果具有相对性。比如,智力测验所测得的一个人智力的高低,是与他所在人群总体的行为表现或某种人为的标准相比较而言的,而且智力标准也不是一成不变的。
图7-1 知觉测验图片材料
由于心理测量的间接性和相对性,所以心理测量可信,但不能全信;有用,但不能完全依靠它。心理测量要在专业人员的指导下正确使用测验材料,不要滥用心理测验,以免产生不良后果。
二、心理测量的基本概念
(一)项目分析
1.项目的难度
难度是指项目的难易程度。在能力测验中通常需要一个反映难度水平的指标,在非能力测验(如人格测验)中,类似的指标是“通俗性”,即取自相同总体的样本中能够回答该题的人数,其计算方法与难度相同。
难度的指标通常以通过率表示,即答对或通过该题的人数百分比,公式如下:
式中:P代表项目的难度,N为全体被试者人数,R为答对或通过该项目的人数。
以通过率表示难度时,通过人数越多(即P值越大),难度越低;P值越小,难度越高。因为P值大小与难度高低成反比,所以也有人将其称作易度。还有人将被试未通过每个项目的人数百分比作为难度的指标。
进行难度分析的主要目的是为了筛选项目,项目的难度多高合适,取决于测验的目的、性质以及项目的形式。大多数心理测验,都希望能准确测量个体的差异。如果在某题上,被试全部答对或答错,则该题无法提供个别差异的信息,也不会影响测验分数的分布,该题对测验没有作用。因此,为了使测验具有较大的区别力,应选择平均难度在0. 50左右的试题比较合适,也就是测试题的难度应当在0. 50±0. 20之间。
2.项目的区分度
项目的区分度也叫鉴别力,是指测验项目对被测验者的心理特性的区分能力。如果一个项目,水平高的被试能顺利通过,水平低的被试不能通过,那么就可以认为该项目有较高的区分度。
在理论上,项目区分度是以项目得分高低与实际能力水平高低之间的相关来表示的。但是,被试的实际能力水平很难直接测量。所以,在具体估计项目区分度时,常使用“鉴别指数”来替代,公式如下:
D=PH-PL
式中:D为鉴别指数,PH为高分组的被测验者在该项目上的通过率或得分率,PL为低分组的被测验者在该项目上的通过率或得分率。
表7-1 项目鉴别指数与评价标准(1)
以上公式以高分组与低分组的得分率的差为鉴别指数的指标,其理由是高分组若在该测验上的得分率高于低分组,则D>0,D越大,说明该项目区分两种不同水平的程度越高。若D<0,则反映高水平组在该项目上的得分率反而低于低水平组,说明项目有问题。因此,D可以反映项目得分与测验总分之间的关系,将它作为区分度的指标是合理的。项目鉴别指数与评价标准见表7-1所示。
项目区分度是评价项目质量和筛选项目的主要指标。通常区分度取值范围介于-1至+1之间。假如项目得分与实际能力水平之间呈负相关,则区分度为负值;若呈正相关,则区分度为正值;相关系数越大,区分度越高。当区分度为负值时,意味着被试实际能力越高,该项目的得分反而越低,这种情况一般很少发生,如果出现,该项目应该淘汰。
表7-2 D的最大值与项目难度的关系
3.项目区分度与难度的关系
区分度与难度之间有密切的关系。以鉴别指数(D)为例,假如样本中通过某一项目的人数比率为1. 00或0,则说明高分组与低分组在通过率上不存在差异,因此D为0;假如项目的通过率为0. 50,则可能是高分组的所有人都通过了,而低分组却无人通过,这样D的最大值可能达到1. 00。用同样方法可指出不同难度项目可能的最大D值。D的最大值与项目难度的关系如表7-2所示。
然而,难度和区分度都是相对的,绝对的难度和区分度是不存在的。一般来说,较难的项目对高水平的被试区分度高,较易的项目对水平低的被试区分度高,中等难度的项目对中等水平的被试区分度高。
不过,由于人群的大多数心理特性呈常态分布,所以项目难度的分布也以常态分布为好,即特别难与特别容易的项目少些,接近中等难度的项目多些,而所有项目的平均难度为0. 50。这样不仅能保证多数项目具有较高的区分度,而且可以保证整个测验对大多数被试具有较高的区分能力。
(二)信度和效度
1.信度
心理测量中所说的信度,是指测量结果的可靠性或一致性。信度概念中比较常用的是重测信度。重测信度是指用同一测验,在不同时间对同一群体施测两次,这两次测验分数的一致性(通常用相关系数来表示)。重测信度是衡量一个测验的结果是否可靠的标准之一。比如,我们用A测验测查某一被试的智商,第一次结果智商是100。一个星期以后,我们用同样的测验对他进行第二次测验,结果发现他的智商变成了140。若没有特殊的原因,一个人的智商是不可能在一周之内发生如此大的变化的。所以,在一般情况下,我们会认为这个测验的重测信度很低,测验结果是不可信的。
信度是衡量任何测验质量的基本指标,一个测验的信度较高,则说明它的分数是稳定的、一致的,它的测量结果是可靠的。信度的数值在0~1之间,数值越高,信度越高。一般来说,当信度大于0. 7时,可以将测验结果进行不同团体间的比较;当信度大于0. 85时,测验结果才能应用于个人之间的比较和评价。
信度只受随机误差的影响。随机误差是指与测量目的无关的因素,其存在会影响测量结果的可靠性和准确性。随机误差越大,信度越低。因此,信度也可看作测验结果受机遇影响的程度。而系统误差产生恒定效应,不影响信度。
每一个测验的实得分数(X)总是由真实分数(T)和误差(E)两部分构成,用公式表示如下:
X=T+E
当讨论一组测验分数的特性时,可用方差代表具体分数:
式中:
在测量理论中,信度被定义为:一组测验真实分数方差与总方差(实得分数的方差)的比率,即由于真实分数的方差是无法统计的,因此计算信度的公式可转化为:
因此,信度也可以看作在总的方差中非测量误差的方差所占的比例。以图示方法可以更清楚地理解信度(图7-2)。
图7-2
及信度的关系
2.效度
一个测验光有信度还不够,测验分数是稳定的,并不能说明它就能够准确地测量想要测量的特质。比如一台磅秤,长期使用,弹簧早已疲劳,一个100斤的人站上去,显示的却是110斤,一天称10次,显示的都是110斤,“信度”足够好,但测得的结果却一点都不准。由此,效度的概念应运而生。通俗地说,测量的效度就是指测量的有效性。一个测验的效度越高,表明它所测得的结果越能代表所要测量特质的真正水平。
在心理测验中,效度是指所测量结果与所要测量的心理特点符合的程度,简单地说,就是心理测验的准确性。因此,心理测验无论是选用标准化测验或自行设计编制测量工具,必须首先鉴定其效度,没有效度资料的测验是不能使用的。
效度的定义也可以通过真分数的概念和方差分析方法加以说明。一组测验分数的总方差等于真实方差与误差方差之和,而真实方差又可分为两部分,即有关的方差和无关但稳定的方差,后者也就是所谓系统误差带来的方差,可用公式表示为:
在测验理论中,效度被定义为在一组测量中,与测量目标有关的真实方差(或有效方差)与总方差的比率,即:
分析一个测验是否有效度通常可以从三个方面来加以判断:一是效标效度。所谓效标是指那种已知能表现某种心理特征的标准。效标效度就是求取测验结果与效标之间的相关,比如在职业岗位中的实际工作成效可以作为一个职业选拔测验的效标,如果两者的相关高就说明职业选拔测验有很高的效度,这样测验的结果以后还能够预测在职业中的成就,所以效标效度也是一种预测性的指标。二是内容效度,也就是从内容上来分析测验能否测量要测量的特征。智力测验需要能测量智力的题目,人格测验也需要能测量人格特征的题目,由此可从内容上去判断这个测验是否有效。对内容的判断可以让专家来进行,也可通过一些统计方法来确认。三是结构效度。在心理测量中每一种测验的编制都需要依据理论,结构效度就是分析测量结果与理论中重要思想或观点是否一致。(2)
3.信度和效度的关系
根据定义,可以知道信度和效度的差别在于所涉及的误差不同。信度考虑的是随机误差的影响,而效度还包括与测验无关但稳定的测量误差。信度不考虑与目的有关还是无关,只要是稳定的其信度就高,但效度还要考虑这一问题,所以如果与测量目的无关,那么哪怕它再稳定也不会使测验的效度提高。
由此可以看出效度与信度既有关又有不同:信度是效度的一个必要条件,一个测验的信度不高,效度也难以达到很高的程度,因为信度低也就是真实分数在测验分数中的比率小,而这也同样会影响效度。但是,如果一个测验的信度高其效度却未必高,因为如果真实分数中与测量目的无关的部分占很大比率,那么信度再高也不会使效度提高。所以,信度不是效度的充分条件,但信度是效度的必要条件。也就是说,可信的测验未必有效,但有效的测验必定可信。总之,信度是效度的必要而非充分条件,而效度受到信度的制约。
(三)测验的标准化和常模
1.测验的标准化
一个人在心理测验中的表现,不仅决定于自身的素质,有时还会受到许多与测验无关的因素的影响,比如考场环境、主考官的指导语、评分者的水平等。为了使测验的结果更加准确、可靠,减少误差,我们就要在测验实施过程中尽量控制无关因素对测验的影响,使测验分数能够真正反映一个人真实的心理水平。这个控制测验的过程,称作测验的标准化。测验的标准化包括以下几个方面:
(1)内容标准化,即对所有被试施测相同的内容。测验的内容不同,所得的测验分数是无法相互比较的。
(2)施测过程标准化。首先,无论在何时何地给何人施测,主持测验者宣读的测验指导语必须完全一致。第二,测验的时间长短要统一,这一点对能力测验尤为重要。
(3)评分标准化,即客观评分。对于那些需要主观评分的测验,要求至少有两个以上受过专业训练的评分者同时评分,而且他们的分数必须具有一致性。
2.常模
一个标准化的测验,不但内容、施测和评分要标准化,对分数的解释也必须标准化。在心理测验中,把一个人所得的分数与一般人同类行为的分数分布情况相比较,可以判别其所得分数的高低。这里的“一般人同类行为的分数分布情况”,就是心理测验的“常模”。
建立常模的方法是,在将来要进行心理测验的对象中,选择有代表性的一部分人(称为标准化样本),对这些人进行测验,并将所得的分数加以统计整理,得出一个具有代表性的分数分布,这个分布就被称为常模。常模可因进行标准化处理时选取样本的不同而有不同的类别,形成不同的亚常模。常见的亚常模有年龄常模、年级常模、性别常模、地域常模、民族常模、职业常模等。
常模团体是具有某种共同特征的人所组成的一个群体,或者是该群体的一个样本。它用一个标准、规范的分数表示出来,以提供比较的基础。任何一个测验都有许多可能的常模团体。由于个人的相对等级随着比较的常模团体的不同而有很大的变化,所以在制定常模时,首先要确定常模团体,在对常模参考分数作解释时,也必须考虑常模团体的组成。
常模团体的确定离不开取样,也就是从目标人群中选择有代表性的样本。从统计学角度看,取样的方法有随机抽样和非随机抽样两种。前者根据随机原则进行,而后者则没有随机性。
常模有一般常模与特殊常模两种类型。测验手册上所列的常模通常为一般常模,不一定适合使用者的具体情况。特殊常模是为非典型团体建立的,一般比为小团体建立的常模范围更窄。其优点是,可使被试的结果与最接近的人进行比较;但这同时也是它的缺点,不容许分数在较广的范围内作解释。不过,测验使用者可将特殊常模与一般常模结合起来,从而获得更广泛的信息,效果也更佳。(3)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。