首页 理论教育 (三)数据的清理

(三)数据的清理

时间:2023-11-15 理论教育 版权反馈
【摘要】:比如,在“性别”变量中,有效数值是1=女,2=男,如果超出1和2,而出现了3、4、5等编码值,都肯定是错误的。经过系统审核方式筛选后发现部分问卷存在问题,有的前后回答有明显矛盾,如基本情况中选择的性别是男性,却在后面的变量选择中回答的问题是女性选项,像这样的问卷由于可信度不高,全部作废卷处理。因此,本次调查的数据具有真实性和可靠性。

(三)数据的清理

1.有效范围清理

笔者设计的问卷中每一个变量都有有效编码值,如果学生选择的编码超过有效值的范围,肯定是错误的。比如,在“性别”变量中,有效数值是1=女,2=男,如果超出1和2,而出现了3、4、5等编码值,都肯定是错误的。要检查出这种错误只要采用SPSS 17.0统计软件执行各变量的频数分布命令(frequency),就会找出错误数值来自于哪一份问卷。如果原始问卷选择是对的,说明录入员录入错误,根据原始问卷进行修改;如果原始问卷本身错答,就要检查整个问卷的可信度,如发现在同一份问卷有较多错答、乱答的现象,且有逻辑上的错误,就会作为废卷处理。经过系统审核方式筛选后发现部分问卷存在问题,有的前后回答有明显矛盾,如基本情况中选择的性别是男性,却在后面的变量选择中回答的问题是女性选项,像这样的问卷由于可信度不高,全部作废卷处理。

2.逻辑一致性清理

逻辑一致性清理要比有效范围清理复杂得多,要通过问卷内的多个变量之间的相互逻辑联系,检查数据的合理性。为了能够得到可信的数据回答,笔者在设计问卷之初,有意安排了24套测谎题。有的是性别上的测谎,如在基本情况中选择为女性,但在后面只要男生回答的变量中却做了选择。有的是部分群体的测试,不需要其他人回答,却有人回答了此选项。如问卷C29(您在女友面前控制自己性冲动的主要原因)和C30 (您在男友面前控制自己性冲动的主要原因),要求正在谈恋爱的男生和女生回答,其余人不选择该变量,如果发现有人回答了那肯定有问题,数据百分比就有可能前后不一致。有的关键性的问题,笔者设计了不同角度的提问。如C19和C20,C19为“到目前为止您是否有过性生活”,C20为“如果您曾经与人发生过性行为,您是否采取了避孕措施”,这两个变量中被调查者的回答应该前后一致,如果不一致可信度明显有问题。像这样的问卷需要查找原始资料,如果单纯的一个问题上有矛盾,其他问题上无明显漏洞,笔者一般采用一致性原则和综合性原则,废题不废卷;如果从问卷的整体上多处存在逻辑关系上的矛盾,可信度有问题的问卷坚决废卷。再如,同一问题的不同提法上回答明显不一致,在其他问题上回答不认真,态度浮躁等。通过利用SPSS软件强大检测功能,一一检验筛选,最终有102份问卷被废除,其他问卷通过检测可信。因此,有效范围清理和逻辑一致性清理,确保了问卷的客观性和可靠性。

另外,本次调查的客观性还表现在被调查对象的群体性特征。一则大学生为文化程度较高,理解能力较强的群体,对本次调查理解并比较合作。二则由于本调查是甘肃省教育厅项目的后续调查,大学生对笔者的项目和调查员的来源具有相当的信任。因此,回收率高,应答率也很高。另外,笔者采用随机抽样,所设计的100个变量均为单项选择和多项选择题,其特点是既不记名也不留笔迹,对答题者的个人隐私保证绝对保密,在一定程度上消除了被调查者的顾虑。再加上所调查的问题是大学生所关注的热门话题,也是他们需要了解的知识。所以,据调查员反映只要愿意接受调查的大学生,绝大多数态度非常认真,也有人在填完问卷后提出了一些好建议,说明了答题者认真进行了一些思考,胡乱编出的虚假信息相对来说可能性很小。因为有多个回答的比率与同类研究的数据基本一致,通过数值的离散度、加权平均值、区间分布、卡方检验、相关分析、交叉对比等,均符合已有的研究成果。当然,也存在一些不真实的情况,比如在调查个人的绝对隐私时可能存在拒绝填写的情况,对敏感的自慰和性交行为的变量中,不回答率比较高,其他变量中应答率就相应的高一些。这是任何此类调查中普遍面临的问题,这恰恰说明了问卷的真实性,尽管得出的数据比率可能低于实际值,但至少回避敏感问题的人在总数中的比例不大,对整体调查结果不构成影响。因此,本次调查的数据具有真实性和可靠性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈