学习测评概述

时间：2023-02-20 理论教育版权反馈

【摘要】：测验一词的含义有狭义与广义之分。狭义的测验是名词，指的是在心理与教育测量中使用的量具，包括测验的文本和测验指导书，指导书包括编制原理、记分方法及解释标准等。狭义的测验本质上是一种观察工具，例如“这是一份数学测验”。当作动词用的“测验”与测量常常被混用。

第一节　学习测评概述

一、基本概念

(一)测量

测量(measurement)就是依据一定的法则使用量具对事物的特征进行定量描述的过程。在教育与心理领域，测量就是依据一定的心理学和教育学理论(法则)，使用能引起受试者行为反应的心理作业(量具，通常指试题)，并依据其反应，对个体的心理特质和教育成就进行定量描述。

参照点是度量的起点，是测量的基本要素之一。测量的参照点不同，则测量的结果就不能相互比较。长度、质量、时间等的测量以自然的零点(也称为绝对零点)为参照点，若无自然的零点，就以一个共同约定的参照点为零点(也称为相对零点)。例如，摄氏温度以水结冰的温度为零点(0℃)。测量的另一基本要素是单位，如长度是15米，其中“米”就是单位。没有单位的数量含义是不明确的，一个好的单位应具备确定的意义和恒定的价值(即相邻两个单位点的差别相等)。

教育与心理测量一般没有绝对零点，也难以共同决定一个人为零点，因此只好各自采用不同的人为参照点(两份试卷的试题不同，零分的意义也就不同)；另外，教育与心理测量的单位常常不具备恒定的价值和确定的意义，因此教育与心理测量结果也就不可直接相比。

(二)测验

测验一词的含义有狭义与广义之分。狭义的测验(Test)是名词，指的是在心理与教育测量中使用的量具，包括测验的文本和测验指导书，指导书包括编制原理、记分方法及解释标准等。狭义的测验本质上是一种观察工具，例如“这是一份数学测验”。广义的测验(Testing)是动词，指的是对行为样本的客观和标准化的测量过程。行为样本指的是从“行为总体”中抽取出来的一个代表性样本，“行为总体”指的是所有的能反映我们欲测量的心理品质的行为。因此，有人(郑日昌)认为，心理测验就是通过观察人的少数有代表性的行为，对于贯穿在人的全部行为活动中的心理特点作出推论和数量化分析的一种科学手段。

当作动词用的“测验”与测量常常被混用。虽然二者都是要对事物的特征进行量化，但测验的要求要严格得多，测验是一种标准化的测量，这种标准化体现在测验内容的标准化、施测条件的标准化、评分细则的标准化和分数解释的标准化等等。

(三)评价

在教育领域，评价(Assessment)是指从多种角度以多种方法去评估一个人的知识或能力，以作为作业教学或辅导效果的证明或依据。评价是一个更为一般化的术语，它包括获取与学生学业有关信息的所有方法(观察、表现或项目评价、纸笔测验)，也包括对学生学业进行的价值判断过程。

评价与测量和测验的不同之处在于，测量或测验只是将测量对象的某一属性加以数量化，并不涉及比较和判断，但评价除了对学生进行定量描述(测量)和定性描述(非测量)资料的汇集外，还包括了解释资料、综合各种资料，最后根据教学目标来作比较和判断，包含了对结果的价值判断。图10-1表现了评价的全面性以及测量(或测验)和非测量手段在评价过程中的作用。

图10-1　评价过程

通过上述可见，学习测评是指采用测量手段收集对学生某种属性的定量描述资料，并作出评价的过程。

二、测量与评价的功能

(一)促进教师的教学

1.了解学生的起点行为

摸清学生的学习和发展状况，是因材施教的前提。任何一次成功的教育活动，如果不是建立在尊重学生已有的学习和发展状况的基础上是不可思议的。因此，在教学或教育前，教师可以先针对学生实施一次测量，用来评价学生在学习之前已具有的背景知识，以作为决定有效教学的起点。

2.作为改进教学的参考

根据教学测量与评价的结果，教师可以明了自己在教学上的缺失。例如，教学过程中，有哪些教学方法或教材的选择、组织或联系不当，是否需要调整或改变教学策略等。测量与评价的结果，为教师改进教学提供了十分有用的参考信息。

3.确保教学目标的达到

教学测量与评价的最终目的在于确保教学目标的达到。根据测量与评价结果，教师可以知道目前的教学情况离目标有多远，是否需要修正目标或改变教学策略，是否需要改换教材及教法等。比如，在单元、期中、期末学习后，为了检验教育工作的好坏，便少不了全面了解学生对学习内容的掌握情况。这是检查前一段工作的效果，也是进一步进行教育工作的基础。

4.评定学生的学习成果

教学测量与评价除了具有上述功能外，其最初的用途即在于针对学生的学习成就进行等级评定，以作为其学业成就的代表，同时又可以提供作为其他教育研究用途的指标。比如，进行不同教学方法的比较研究，究竟哪种教学方法效果好，其经常采用的指标就是学生的学业成就。

(二)促进学生的学习

1.诊断学习的作用

(1)诊断学生的学习。对测量结果的分析，可以让教师了解学生的学习类型。如果该测量过程是经过特殊设计，含有诊断不寻常反应、错误概念和反应心向等不正确选项的话，在对测量结果分析之后，更能进一步提供给教师诊断学生在认知结构的哪些地方有缺失信息，这些信息可以作为教师实施补救教学的参考。

(2)作为补救教学的依据。由诊断学习获得的信息，可以作为教师实施补救教学的依据。教师可以针对不同学习类型的学习行为特性，以及不同认知结构缺陷的所在，有针对性地提出符合个别需要的补救教学的策略与措施，以达到因材施教的目的。

(3)改进命题的技巧。测量后的试题分析信息，可以提供给教师关于所编制测验的统计特征(如难度、区分度等等)，根据这些信息，教师能够进一步找出不良试题所在，以确保教师所编制的试题均属于性能优良的试题，并且可以被保留在题库内，供日后编制新测验或复本测验时使用。

2.帮助学习的作用

(1)激励学生的学习动机。一份有效的成就测验，可以通过以下几个方面直接影响学生的学习：①为学生提供了短期的学习目标；②明确了所要学习的内容；③提供了有关学习进步的反馈信息。因此，对教育测量与评价的正确使用，不仅可以引导学习目标，提供学习成果的反馈，还能激励学生进行学习的动机。

(2)帮助学生的记忆和促进迁移。因为教育测量与评价可以引导学生朝教学目标努力，因此，教育测量与评价可以促进学生的学习记忆和学习迁移。尤其是较高层次的学习目标，教育测量更可以引导学生关注这些较复杂、较深奥的学习，弥补教学期望的效果。

(3)促进学生自我评价。教育测量与评价可以提供反馈信息，让学生了解自己在学习上的优缺点，有哪些错误的概念需要更正以及有哪些技能已达到熟练程度等，以促进自我了解、自我认可，帮助学生自己作出最佳的学习决策或制定出最佳的学习计划等。

(三)促进管理水平的提高

1.对教师的管理

测量与评价在对教师的管理中所起的作用具体体现在这几个方面：一是教师的资格评定，即教师的专业知识水平是否达到基本要求，专业知识包括文化知识和教育心理学方面的知识；二是教师的教学艺术水平的评定，即对教师的教学能力进行评定；三是教师的管理水平的评定，即对教师在学生班级管理方面的能力进行评定；四是教师的个性评定。其中教师的资格和教学艺术水平的评定是其核心内容。充分发挥教育测量与评价在教师管理中的作用，可以提高教师管理工作的科学性。

2.对管理工作的促进

教育测量与评价对管理工作的促进主要体现在这几个方面：一是导向功能。教育测量与评价是根据教育目标进行的，它通过对现状与目标之间的差距进行判断，能有效地促进被测量与评价的对象不断接近预定的目标。因此，通过评价目标与指标体系的引导，可以为学校指明办学的方向，为教师与学生指明教与学的目标。二是监督检查功能。利用教育测量与评价，我们可以全面地掌握教育的各种情况，及时地发现问题解决问题，对教学任务完成的数量与质量进行控制，为促进、提高教育活动的有效性提供科学的依据。

三、测量与评价的主要类型

(一)按测量与评价的时机所作的分类

1.形成性测量与评价

形成性测量与评价是在教学过程中途实施的，在性质上大致相当于现在的中小学单元测验。形成性测量与评价的目的，对教师而言是借此获得教学过程中连续性的反馈，随时知道学生们的学习成败情形，作为随时修正自己教学的参考。同时，形成性测量与评价对学生的学习，也可提供反馈信息。学生根据反馈的结果获知自己学习后的表现情况，从而肯定或修正自己以后的学习方式。因此，在教学过程中，形成性测量与评价是不可缺少的。根据预订的教学目标，然后核对形成性测量与评价的结果，教师才能针对全班或个别学生的学习成败情形，分别给予辅导。

2.总结性测量与评价

总结性测量与评价是用于教学结束后，在性质上相当于现在中小学所举行的期末考试。其目的有两个：其一是在教学目标之下，检查学生一学期来的学习达到了什么程度，从而判断教学效果的优劣。其二是根据总结性测量与评价的结果，评定学生的学习成果，并将评定结果通知学生家长。

(二)按评价所参照的标准分类

1.常模参照测量与评价

常模参照测量与评价是将被试者水平与常模相比较，以评价被试者在团体中的相对地位的一种测量与评价类型。也就是说，常模参照测量与评价对学生学习成就的解释，是采用了相对的观点，学生在试卷上得到分数的高低，只能看他在团体中与常模比较后所显示的位置，而不能凭测得的分数本身而评定其成就的高低。例如，一次数学测试结果，某生得85分。只看其分数并不能确定其水平的高低，必须结合全班学生分数的情形才能确定。如全班平均分为65分，标准差为10分，那么该生的成绩就位居前列。如全班平均分为85，该生的成绩刚好中等。如全班平均分为90分，标准差为5分，那该生的成绩就属于较差的成绩了。

2.标准参照测量与评价

标准参照测量与评价，是将被试者水平与一绝对标准相比较，以评价被试者有无达到该标准为目的，也称为目标参照测量与评价。例如，如果规定掌握所学内容的80％为掌握，那么被试者在该测验上的得分超过80即可认为其已掌握所学内容。在学校的教学测量与评价上，主要目的在于考查学生对知识技能的掌握程度，因此一般都应采用标准参照测量与评价。

(三)以测量与评价对被试行为表现的要求分类

1.最佳行为测量与评价

最佳行为测量与评价是以测量被试者的最佳行为表现为目的的。凡是以能力的高低作为评价基础者，都属于最佳行为测量。学校教学后的考试与升学考试，在性质上都属于最佳行为测量。此种测量与评价之所以称为“最佳行为”，是因为在这种以能力为基础的评价情境下，被试者都将有强烈的求胜动机，对面对的问题全力以赴，希望自己有着最佳的表现。在一般情形下，学生参加竞争性的考试都会如此。因此，学生们在学科成就测验上得到的分数，均可视为他们的最佳行为表现。教师对学生成就高低的评定，自然也是根据他的最佳行为表现。

2.典型行为测量与评价

典型行为测量与评价的目的不在测量与评价被试者能力的高低，而是测量与评价其是否具备某种(或某些)典型行为。换言之，典型行为测量与评价所关心的不是被试者能不能尽其所能地表现出其最佳水平，而是要求被试者按通常的习惯方式作出反应(即典型行为)。如态度、情感、人格、兴趣测量等等，都属于典型行为测量。这些测量过程，希望被试者以其平常的典型状况来回答，无所谓正确与错误之分。

(四)以测量与评价本身的功能分类

1.描述性测量与评价和诊断性测量与评价

描述性测量与评价是指通过测量来评价某一特定群体或个体在某一心理特质上的一般状况。教师在教授新内容之前，常关心两个问题：一是学生是否具备了学习新知识的基本知识或技能。二是在新学习的内容中，有哪些知识与技能是学生们已经熟悉的。教师为了解这两点，通过一测验来达到了解的目的，这一测验就属于描述性测量与评价，因为它是对学生在掌握学科知识的一般状况的描述。

诊断性测量与评价是对经常表现出学习困难的学生所做的测量与评价，它的目的是对个人的问题行为及其原因进行诊断。诊断性测量与评价多半是在形成性测量与评价之后实施。形成性测量与评价是在教学过程中实施的，实施之后如发现学生有学习困难的情形，即随时给予个别辅导，在辅导中帮助学生改善方法或习惯，从而克服学习困难，并跟上班级教学的进度。如果辅导之后学生学习困难情形依旧，甚至日益严重，那可能就不是单纯的学习方法或学习习惯的问题。长期表现学习困难的学生，很可能在心理上另有原因。在这种情形下就需要对他实施诊断性测量与评价。实施诊断性测量与评价时，除需要特别设计诊断测验外，还须有心理学家甚至精神科医师的协助，才能诊断出真正的原因，而后再进一步予以化解。

2.成就测验与预测测验

成就测验的目的是测量并评价个人在某一领域已经达到的实际成就。预测测验的目的在于测量并评价个人在未来某一方面获得成功的可能性大小。比如，学校的期末考试、现行的高中会考等，都属于成就测验，它们都在于测量与评价学生现已达到的水平。会考合格说明已符合高中毕业的标准。而高考则属于预测测验，它的目的不在于检验学生对教学内容掌握程度的差异，而在于通过高考筛选出通过大学学习可能获得成功的学生进行大学学习。

3.难度测验与速度测验

难度测验的功能在于测量并评价个人能够达到的最高水平。这类测验常包含各种不同难度的题目，由易到难排列，其中有一些极难的题目，几乎所有被试者都回答不了。但作答时间较为充裕，使每个被试者都有机会做所有的题目，并在规定时间内做完所有会做的题目，因此能测量到被试者的最高能力。速度测验的功能在于测量并评价个人解决问题的最快速度。这类测验的题目较为容易，一般没有超出被试者能力水平范围的题，但数量较多，且时限较短，几乎每个被试者都不能做完所有题目。在纯粹的速度测验中，分数完全依赖于被试者的反应速度。

(五)按测量与评价的对象分类

1.智力测量与评价

智力测量与评价目的在于测量并评价个人智力水平的高低。国内外用于智力测量与评价比较著名的智力测验有“斯坦福-比纳量表”、“韦克斯勒智力量表”、“瑞文推理测验”等。

2.能力倾向测量与评价

能力倾向测量与评价目的在于测量并评价个人潜在的才能，预测个人的能力发展倾向。能力倾向测量与评价一般可分为两种：一种是一般能力倾向测量与评价，测量个人多方面的潜能。另一种是特殊能力倾向测量与评价，测量个人的特殊潜在能力，如音乐能力倾向测验、机械能力倾向测验等。

3.成就测量与评价

成就测量与评价目的在于测量并评价个人在接受教育后的学业成就，因此也常称为学业成就测量与评价。它有两种类型：一是学科成就测量与评价，测量受教育者在某一科目上的学习成就；二是综合成就测量与评价，测量受教育者在各学科上的综合学业成就。

4.人格测量与评价

人格测量与评价也称为个性测量与评价，其目的在于测量个性中诸如兴趣、态度、动机、气质、性格等方面的心理特征。由于人格的概念十分的宽泛，因此这类测量与评价工作涉及面也十分宽，而一次具体的测量与评价工作不可能涵盖如此广泛的内容，所以常常有所偏重。人格测量与评价主要有两类：一是自陈人格问卷，比较著名的有“明尼苏达多相人格调查表(MMPI)”、“卡特尔16PF测验”、“艾森克人格问卷(EPQ)”等。另一类是投射测验，如“罗夏克墨迹测验”、“主题统觉测验”等。

四、有效测评的必要条件

(一)效度

效度(Validity)是指当测验用于某一特定目的时，对于支持测验分数解释的那些事实和理论凭证的有效程度。不能离开测量目的来谈效度，例如，通过一个数学测验的得分来推测学生的数学能力可能是比较有效的，而通过该测验来推测学生的语言能力可能是无效的。

效度验证(Validation)指的是为了评价一个测验分数解释是否有效，而多方面多角度地收集证据的过程。究竟应该收集哪些证据，要依据测验分数将作何种用途而定。所以，要进行效度验证，首先，要有对测量目的的详细描述，包括测验要测什么，测验分数如何解释，依据测验分数可作出哪些推论或决策，以及这些推论或决策与测验分数之间的相关等。其次，对测验目的进行分析，设定一套前提来确定哪样证据在效度验证中是重要的。

效度凭证的来源主要有三个方面：

1.来自测验内容的证据。测验最早的用途之一，就是评定个体在指定的内容领域已经学会了什么。学科的期终考试，以及各种职业资格考试，都体现了这种用途。这类测验通常有较明确的内容范畴(Content domain)，测验编制时需要根据测验目标从内容范畴中进行内容抽样。内容抽样可依据事先制订的内容双向细目表(Content specifications)来进行，最终评价测验效度时，也要对照内容双向细目表，考察测验内容抽样的代表性。

考察测验的内容抽样的代表性的方法，主要是逻辑分析法。具体做法是请学科或测验专家，针对编制测验的双向细目表，仔细判断每个试题是否与测量目标相符，如果测验试题是用来测量测验目标内容和预期行为改变的代表性样本，且不受其他无关因素(例如，阅读能力、指导语不清楚)影响的话，则从测验内容的角度证明测验是有效的。

除了采用专家的判断之外，也有学者提出了采用实证的方法来探讨测验的内容抽样代表性。例如，(1)前后测试差异法。在传授某种知识之前与之后，对学习者分别测试，依据两次测试成绩间的相关来分析效度的高低。(2)克龙巴赫独立抽样相关法。从同一教学内容总体中抽取两套独立的测验项目，用这两套试题分别对同一批被试者施测，依据两次测验得分之间的相关来分析测验效度的高低。

另一个容易和测验内容代表性产生混淆的概念是表面效度(Face validity)。表面效度是指测验给被试者或一般人的印象“好像”是在测量某种特质，而不是指测验事实上能测量到什么特质。表面效度的存在，有时可以激励学生认真作答，表现接受测验的合作意愿，因为它“看起来”像是在测量某种特质，比较容易吸引人注意。但是，表面效度并不是真正的效度，它不可以用来从内容代表性的角度来检验测验效度。

2.来自预测行为的证据。测验的另一个重要用途是“预测”。预测现在或将来，不同个体在一定的情境中会怎样反应?同一个体在不同指定情境中会怎样反应?所要预测的行为在情境中的表现被称为效标。出于这种目的，通常以测验分数与该效标的直接的、独立的测量之间的相关系数作为测验效度的凭证。因此，从测验预测的行为角度收集效度证据，首先要确定能代表预测行为的指标，即效标测量。

所要预测的行为在情境中的表现，往往是一个观念上的东西(观念效标)，它必须用一个数字或等级来进行表达(效标测量)。例如，大学入学考试的观念效标通常是“大学学习成功”，它的一种常用的效标测量便是大学头两年或一年相关学科的平均成绩。

一个测验有多少种具体用途，就可以根据多少种效标进行效度分析。评定任何情境中行为的任何方法，为某种特定目的提供一种效标测量，即同一观念效标可能有多个效标测量。例如，对智力测验进行效度分析时最常用的一种效标是学业成就，而作为学业成就的效标测量可能包括在校成绩、成就测验分数、升级或毕业记录、某种荣誉或奖励，以及教师对学生的“智力”评定等等。所以，选择一个好的效标和一个好的效标测量，对于效度分析来说十分重要。在心理与教育测量工作中，常用的效标主要有：学业成就、等级评定、临床诊断、专门的训练成绩、实际的工作表现、对团体的区分能力以及其他现成的有效测验。

具体的估计方法，除了相关法之外，还有：①区分法。根据效标将被试者分为两个极端组，然后检验这两组人测验分数的差异显著性。②命中率。正命中率：取舍测验中，录取人员中合格的人数比率。负命中率：取舍测验中，未录取人员中不合格的人数比率。总命中率：正、负命中率的加权平均。

选择效标和效标测量时，要注意防止效标污染(Criterion contamination)，即效标评定受到评定者知道测验分数的“污染”。例如，一位老师知道某学生在一个能力倾向测验上得分很低，这类消息可能会影响他对该学生的成绩评定。出于这种原因，对测验分数进行检验时，使用的测验分数必须严格保密。

3.来自内部结构的证据。结构是一种广泛的范畴，源自直接可观察的行为变量共同具有的一般特性。结构又是一种理论实体，本身无法直接观察。而测验内部结构的分析，可以表明试题和试卷各部分与所测构念的关系的密切程度。测验分数的建议解释，便是建立在这些构念的基础上。一个测验的概念架构可能是某种行为的某一方面，也可能是由几个部分组成。每个组成部分本身是单一的，但互相之间又截然不同。例如，一个健康问卷可能测量生理健康和情绪健康方面的不适状况。因此，试题之间的关系证明结构假设程度是与效度有关的，并且是基本的效度分析。

来自内部结构证据的分析方法有很多，但当前主要使用的方法是结构方程建模法。结构方程建模的第一步是根据理论提出一个待检验的、假设的结构关系模型，然后考察实测的数据是否与预设的模型关系相吻合。结构方程建模一个突出的特点是，计算结构之间典型的因素关系，而不是孤立地测量变量之间的因素关系。例如，要评价一个学生的数学态度，可以采用若干指标，诸如兴趣、目标定向、数学能力倾向的自我概念，以及其他有关的情感变量等度量。这些指标之间的共同方差就界定该学生数学态度的一种结构，它本身与随后的数学成绩有关。这样使用结构，各个指标的误差方差和特定方差相互抵消，因而提供更为稳定和可靠的估计值。

(二)信度

信度(Reliability)是指在不同时间，使用同一测验，或者使用两个不同项目的等值测验，抑或在其他不同的测试条件下，对同一组被试者实施两次或多次测试所得分数的一致性。测验信度表示测验分数中个体差异可归因于所测特质中“真实”差异的程度，以及随机误差的程度。

经典测验理论的信度系数主要有三类：(1)重测信度(Test-retest coefficients)，是指用同一个量表对同一组被试者施测两次所得结果的一致性程度，其大小等于同一组被试者在两次测验上所得分数的相关系数；(2)复本信度(Alternative-form coefficients)，是指两个平行的测验测量同一批被试者所得结果的一致性程度，其大小等于同一批被试者在两个复本测验上所得分数的相关系数；(3)内部一致性系数(Internal consistency coefficients)也叫同质性信度(Homogeneity reliability)，是指测验内部所有题目间的一致性程度，主要的计算方法有KR20公式、KR21公式、克龙巴赫α系数，以及荷伊特信度等。

另外，分半信度(Split-half reliability)指的是将一个测验分成对等的两半后，所有被试者在这两半上所得分数的一致性程度。分半信度可以和复本信度一样解释，即可以把对等的两半测验看成是在最短时距内施测的两个平行测验。由于分半信度描述的是两半题目间的一致性，所以它有时也被看作是内部一致性系数。

一般而言，测验信度越高越好。表10-1给出了一些标准化测验的信度系数，教师自编测验一般来说信度低一些，但信度系数至少应在0.60以上。

表10-1　信度系数的一般标准

(三)辨别力

辨别力是测验对在所测的特质或能力方面有所不同的那些人作出分辨的能力。一个测验是否能有较高的辨别力，取决于各组成项目的特性，主要指项目的难度和区分度。

1.难度

难度一般是指测验项目的难度，当然也可以指一个测验的难度，后者是测验包含的所有测题难度的综合指标。测验项目的难度，就是被试者完成项目作答任务所遇到的困难程度，一般以全体被试者在该题上的得分率为指标：

式中，P代表项目难度，X-为被试者在某项目上的平均得分，X_max为该项目的满分。

试题难度影响到测验的辨别力。例如，如果一份测验试题过分容易，使得参加测验的成员分数都集中在高分端，它就不可能把知识多和知识少的学生区别开来。一般的标准化常模参照测验，目的是要尽可能地区分被试者的个别差异，因此希望测验后所有被试者的分数“尽可能拉开距离”。这样，测验项目的恰当难度，就应该是P值尽量接近0.50。研究表明，整个测验的测题难度指数分布在0.30至0.70之间，而整个测验的难度指数最好在0.50左右，这样不仅使测验对被试者有较大的鉴别力，而且可以使测验分数接近正态分布。对于具有特殊目的的测验来说，大多数测题的难度不一定要集中在0.50左右。如果测验的目的在于选拔人才，那么测题的难度指数，应由录取率而定。例如，要从高中生中选拔15％的人参加全市的数学竞赛，则就应提高项目的难度，使P值接近0.15。

一般来说，标准参照测验的难度分析是没有必要进行的，因为标准参照测验的目的是在检验学生是否已达到教学目标规定的掌握程度，不论试题的难易程度，关键看该题是否属于教学目标规定要掌握的内容。

2.区分度

项目区分度就是项目区别被试者水平能力的量度。区分度的估计，可通过计算全体被试者的试题得分与总分之间的相关系数。依据题分与总分的数据形式，可计算积差相关系数、点二列相关系数等。

另一种估计区分度的方法是，用高分组在特定题目上的得分率和低分组在相同题目上的得分率之差作为题目区分度的指标(高分组、低分组人数比例各占总人数的27％，高分与低分指总分的高低)，被称为鉴别度指数，记为D。计算公式为：

D=P_H-P_L

式中，D代表项目鉴别度指数；P_H、P_L分别表示高分组和低分组在该项目上的得分率。

D值是鉴别项目测量有效性的指标，D值越高，项目越是有效。而且，它适用于各种题分情况，不像相关法那样每一种方法都有各自的适用条件，而各种方法之间又不能直接比较(前面的例子已经显示出，同样的数据不同方法计算的结果不同)，因此在实际应用当中，人们常常采用高低分组法来计算项目的区分度。1965年，美国测验专家R.L.Ebel根据长期经验提出用鉴别指数评价题目性能的标准如表10-2所示：

表10-2　项目区分度评价标准