首页 理论教育 研究资料的审核与编码

研究资料的审核与编码

时间:2023-03-03 理论教育 版权反馈
【摘要】:当研究资料收集起来之后,为了保证汇总和初步整理的正确性,必须进行严格的审核,然后才能进行初步整理。研究资料的审核是资料管理的第一步,是不可忽视的一环。实际上,资料的收集和审核在大多数情况下是同步进行的。定量分析在心理与教育科学研究中起着非常重要的作用,而定量分析的一个基本前提就是要求被分析资料必须是能进行统计分析的数字。

当研究资料收集起来之后,为了保证汇总和初步整理的正确性,必须进行严格的审核,然后才能进行初步整理。这也就是说,研究者在初步整理资料之前,不应简单地把收集到的所有资料都当做可靠的、可用的资料,不加考虑就进行整理,而必须首先弄清材料的真伪和可靠程度。研究资料的审核是资料管理的第一步,是不可忽视的一环。在此基础上,研究者可以进一步进行去伪存真、去粗取精的工作,即对资料进行剔除与补充等,然后再对研究资料进行编码,以保证随后的统计分析工作能够得以顺利进行。

一、研究资料的质量审核

(一)质量审核的概念和原则

所谓质量审核(qualitative auditing),是对研究资料进行审查与核实的工作,目的在于保证资料的客观性、准确性和完整性。实际上,资料的收集和审核在大多数情况下是同步进行的。边收集边审核,称为实地审核(field auditing)或收集审核(collective auditing);在收集资料后集中时间进行审核,叫系统审核(systematic auditing)。不管是哪种方式的审核,都应坚持以下的原则。

1.真实性原则 对收集到的资料必须根据客观标准和科学知识进行辨别,看其是否真实可靠地反映了研究对象的客观情况,而后去伪存真,保证资料的真实性。

2.标准性原则 在大规模的研究中,对于需要相互比较的材料要审核其所涉及的事实是否有可比性;对于统计资料要注意指标的定义是否一致、计算单位是否相同,等等。

3.准确性原则 要对资料进行逻辑审核,检查资料中有无不合理和相互矛盾的地方。

4.完整性原则 一是从研究的总体看,应检查达到研究目的所要求的各个方面的资料、数据是否收集齐全。包括问卷或量表是否全部回收,实验所要求的各方面的数据是否全部收集,某一方面的数据数量是否达到标准等等;二是对被试个体的资料数据的审核,应检查每一个被试的数据与资料有无缺失或遗漏,有无前后矛盾之处,结果登记中有无错行、错号等错误。

(二)质量审核的方法

对数据与资料进行质量审核,首先应考虑数据与资料的类型特点,根据数据与资料的类型特点开展审核工作。根据数据与资料的内容形式,我们可以将数据与资料区分为文字描述型资料与数据表达型资料。

文字描述型资料包括档案文件、传记、观察日记、个人书信、经验介绍等,对这一类资料的审核重心在于检查其真实性,即文字描述的情况是否与实际相符,或在多大程度上与实际相符。具体审核措施可以是现场直接观察和检验,也可以是收集相关文献材料予以考辨。以某种教育(或教学)经验的审核为例,可以实地从三个方面对其进行核实:第一,核实经验所提供的教育教学方法的具体内容和形式,如教师在解决问题时采用了什么手段,采用了何种具体形式,说了哪些话,态度如何,要求学生做了什么,以及使用了哪些材料、教具等;第二,核实方法实施过程,包括时间、地点、人员、环境、背景,以及实施过程的阶段步骤等;第三,核实效果,包括学生言行的转变、学习成绩的变化、人际适应能力的提高等。

对于数据表达型资料,不管是直接测量得来的,如智力测验分数,还是人为编码的,如男性用“1”表示,女性用“2”表示,最简捷的审核方法是运用计算机统计软件进行审核,例如,我们可以用社会科学统计软件包(SPSS)中的FRE QALL命令来计算各个变量的值的变化范围和频次,根据变量值的变化范围可以进行逻辑审核(logical checking),即检查数据有无不合逻辑的现象,如用1、2、3、4分别表示四种学历,而答案中出现了0或其他数字,则表明数据是有问题的,应检索出错误出处并予以纠正;根据变量值的频次可以进行计量审核(quantitative checking),即核查数据中各项计量资料,如被试总人数应等于男女被试人数之和。

(三)数据资料的剔除与补充

为了保证数据与资料的客观性和准确性,需要对在数据与资料审核过程中发现有问题的数据与资料予以剔除,剔除数据与资料的主要依据有两条:其一是缺项,即由于种种原因被试对某些项目或问题未作回答,若未答项目是关键性项目,或必不可少的项目,则该被试的数据无需再保留。例如,研究学生的智商与学习成绩的关系,如果某学生缺少智力测验分数,则很显然该生的学习成绩就没有保留的必要,因此可以将该生的数据与资料剔除。其二是错误数据或不真实数据。例如,在人格测验中,若被试的测谎分数超过了规定的值,就可以将该被试的数据剔除。

为了保证研究数据与资料的完整性和有效性,在数据审核之后,有时需要补充数据。有两种情况需要补充数据:一种情况是被试人数较少,数据量不足。例如由于剔除数据较多,或问卷回收率偏低,都有可能造成样本量不足,从而影响研究结果的可靠性。另一种情况是研究设计不够完整,理应观测的变量未进行观测,例如,在研究婚姻满意度的课题中,有无子女以及子女数是一个重要的变量,若数据审核过程中发现问卷中没有此变量,最好能补测此数据,以便研究结果的分析。

(四)异常数据的处理

运用计量审核与逻辑审核的方法可以检测出有错误的数据资料,但在有些情况下,还存在用这两种方法检测不出来的与其他大多数数据差别较大的数据,即异常数据(outlier),请看表16-1的例子:

在表16-1的例子中,第六位被试在变量1上的值和第十位被试在变量2上的值均为异常数据,仅用计量审核与逻辑审核是无法检测出来并确定其是否正确的。在这种情况下,可以计算Z值Z=(X-X/σ,Z为标准分数,采用三个标准差原则。若Z大于3,则可初步确定该项数据为异常数据。处理异常数据的方法主要有:(1)检查原始问卷以确定该数据是否为记录或录入错误,若是则更正之;(2)检查研究所用仪器是否正常,若为仪器引起的问题则删除之;(3)若非上述错误,则应保留该数据,但在进行统计分析时要注意进行两次分析,一次包括异常数据,一次不包括异常数据。

表16-1 原始数据表(举例)

(采自申继亮,1995)

二、研究资料的编码

定量分析在心理与教育科学研究中起着非常重要的作用,而定量分析的一个基本前提就是要求被分析资料必须是能进行统计分析的数字。但是,在心理与教育科学研究中所获得的资料并非都是数字型的,有相当一部分变量是以文字来表示的,如性别、学历、民族、婚姻状况等,也有一部分变量是以等级或程度来表示的,如中学生同伴接纳程度可分为非常受欢迎、比较受欢迎、一般、不太受欢迎、非常不受欢迎。对此类资料需要进行编码(coding),即将非数字资料转变为数字。确切地讲,编码就是将研究所获得的资料转换成计算机可以识别的数字与图形代码的过程。在心理与教育科学研究中使用的码值有两种:其一为数码(number),指由等距或等比量表测得的变量值,本身具有数学意义,且能进行数学运算,如学生的阅读速度(每分钟阅读的字数);其二为代码(code),这种码值是由命名量表或顺序量表赋予的,本身并没有数学意义,只能作为分类或分组的一种代号。例如用“1”表示男性,用“2”表示女性。编码之后,所有资料都成为可以计算的数据,借助计算机就可以进行非常繁复的统计分析工作,使研究更容易进行。因此,资料编码在心理与教育科学研究中有着重要的意义。如何对资料进行编码?编码系统包括什么内容?下面我们对此问题进行简要说明。

(一)研究资料编码的基本步骤

对研究资料进行编码必须遵循一定的原则,按一定的步骤来进行。否则将会给随后的统计分析工作带来混乱。一般情况下,服务于计算机使用的编码工作包括如下几步:(1)罗列出所有的变量;(2)将变量归类,如视力、听力、精细动作、平衡能力等可归为身体机能变量;(3)给变量指定代表符号,如性别变量用“SEX”表示,同类变量可用相同的符号加数字表示,如身体机能用“PHYSICAL”表示,那么视力、听力、精细动作、平衡能力等可分别用“PHYSICAL 1”、“PHYSICAL 2”、“PHYSICAL 3”、“PHYSICAL 4”表示;(4)给每一变量的内容指定代码,如“SEX=1”表示男性,“SEX=2”表示女性。

实际上,完成上述四步之后也就构造出了一个资料编码系统。根据制定编码系统的时间,可以分为前编码和事后编码。所谓前编码(pre-coding)是指在开始收集资料之前制定编码系统,这样在收集资料的同时就可以进行编码,所以也有人称之为立即编码(coding at once)。所谓事后编码(postcoding),是指在完成资料收集工作之后制定编码系统。很显然,前编码的方法比较适合于研究变量有确定的值或问题有确定的答案之类的研究,而事后编码的方法比较适用于不确定性问题的研究,如非结构访谈。不管是前编码,还是事后编码,都要保证编码系统的可用性。为此,研究者应对编码系统进行检验。检验的主要内容包括:(1)编码系统是否包括了所有的研究变量;(2)每一种变量的代码是否穷尽了变量的全部内容;(3)编码系统中各变量的表示符号有无重复。

(二)资料编码系统的构成成分

一个完整的资料编码系统称为编码手册(handbook of coding),主要包括:(1)编码系统的名称,即指明是什么研究课题的编码系统;(2)编码系统的制定者和制定编码系统的时间;(3)编码系统表,即由变量名称、变量的表示符号、变量的代码(或数码)及其说明(定义)等内容构成的表。

表16-2 教师课堂提问与反馈编码系统表

(采自申继亮,1995)

为了便于说明编码系统表的构成,下面以我们研究教师课堂提问编制的“教师课堂提问与反馈编码系统表”为例加以说明(见表16-2)。

(三)编码系统的使用

一个编码系统经过试用、检验、修补、完善之后就可使用了。掌握和使用各种编码系统的难度是各不相同的。一般情况下,命名量表变量和顺序量表变量比较容易编码,只需将变量转换为代码或数码即可,只要工作细致、认真就可保证编码的准确性。而掌握和运用针对定性材料制定的编码系统的要求就比较高,例如,柯尔伯格的“道德判断评分系统”、拉文格的“句子完成测验手册”(Leovinger,1972)等,都是比较复杂的编码系统,在运用这类编码系统时应注意以下几个问题:(1)选用2名以上熟悉研究课题内容的专业人员为编码员;(2)必须对编码人员进行培训,要求编码人员熟练掌握编码系统的内容;(3)在正式编码之前必须试编,编码人员要共同讨论所遇见的问题,通过计算评分者信度(scorer reliability)(用于计算不同评分者之间评分一致性的信度,详见有关统计学书籍)来确定是否正式开始编码;(4)在编码过程中,评判标准要始终如一,不可先严后松,或先松后严;(5)要及时记录出现的问题,如出现编码系统没有涵盖的答案或反应类型,应及时记录,以备事后对编码系统的修订、完善。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈