第三节 数据输入
问卷资料进行编码之后,问卷中的大多数信息都转化成数字代码,接下来就是要把这些数据输入计算机进行统计分析。数据输入就是将问卷资料所对应的代码通过扫描或用键盘逐步输入计算机,建立数据文件的过程。目前,数据输入的方式主要有三种:人工输入数据、计算机辅助系统转换和光电输入。目前,社会学研究中常用的是人工输入和计算机辅助系统转换两种数据输入的方式。
一、人工输入数据
人工数据输入是目前最常用的数据输入的方式。人工输入就是输入人员通过键盘,将问卷或登录在数据表上的数据逐一输入计算机的过程。人工输入的过程中涉及数据输入的两种方式:一种是直接从问卷上将编好码的数据输入计算机;另一种是先将问卷上编好码的数据转录到专门的登录表上,然后再从登录表上将数据输入计算机。
直接将数据从问卷输入计算机可以避免再次转录中可能出现的错误,但是因为在输入数据时需要不断翻动问卷,输入的速度会受到影响。如果将问卷上的数据先登入到登录表上,再输入计算机虽然可以弥补直接输入的一些不足,但是数据从问卷转录到登录表上可能会出现错误,从登录表再输入计算机又可能出现错误,与直接输入计算机相比多了一次出错的机会,因此,在实际的数据输入过程中,一般都是直接将数据输入计算机。
在对调查资料进行统计时,目前用得最多的统计软件有SPSS、SAS、Excel等,近年来,SPSS软件在社会学的研究中得到了广泛应用,下面就对SPSS软件数据输入的方式进行介绍。
1.SPSS软件简介
SPSS(Statistical Package for the Social Science)社会科学统计软件包是世界上著名的统计分析软件之一。20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS软件,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。20世纪80年代以前,SPSS统计软件主要应用于企事业单位。1984年SPSS总部首先推出了世界第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,从而确立了个人用户市场第一的地位。同时,SPSS公司推行本土化策略,目前已推出多语种版本。SPSS/PC+的推出,极大地扩充了它的应用范围,使其能很快地应用于自然科学、技术科学、社会科学的各个领域。SPSS软件使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务了。
SPSS for Windows是一个组合式软件包,它集数据整理、分析功能于一身。用户可以根据实际需要和计算机的功能选择模块,降低对系统硬盘容量的要求,有利于该软件的推广应用。SPSS软件的基本功能包括数据管理、统计分析、图表分析、输出管理,等等。
SPSS for Windows的分析结果清晰、直观、易学易用,而且可以直接读取EXCEL及DBF数据文件,现已推广到各种操作系统的计算机上,它和SAS、BMDP并称为国际上最有影响的三大统计软件。
目前最新SPSS版本是16.0版,SPSS自10版以来有了很大的改进:(1)增强的数据管理功能;(2)更完善的结果报告功能;(3)为复合体样品模块增加统计建模功能;(4)新增分类树模块;(5)更好的SPSS系列产品兼容性。
SPSS软件的操作简单,双击SPSS图标,进入SPSS数据编辑器(SPSS Data Editor)窗口。SPSS软件具有菜单功能和窗口功能,包括①File(文件);②Edit(编辑);③View(视图);④Data(数据);⑤Transform(转换);⑥Analyze(统计分析);⑦Graphs(图形);⑧Utilities(工具);⑨Windows(窗口转换)和⑩Help(帮助)十项菜单功能。
此外,还有快捷工具栏,表示常用操作,如打开、存盘等。数据输入栏是一个二维数据表(每列为一个变量;每行为一个案例)。此外,还有“Data View数据视图”与“Variables View变量视图”转换按钮。通过按钮转化可以很快地了解各个变量的信息和对应的数据结果。下面的图7-2是SPSS软件的基本窗口。
图7-2 SPSS软件的基本窗口
2.数据输入
在SPSS软件中输入数据时,打开来SPSS软件,显示的就是数据输入窗口,其形式就是一张行×列的表格,每一列(纵栏)表示一个变量(var表示),每一行代表一个个案,也就是一个被调查对象的信息。
在数据输入之间,首先需要对变量进行定义,点击“Variable View”切换到变量窗口(见图7-3),左边纵栏的序号1、2、3……表示问卷中的每一个变量,而横行表示的是每一个变量的特征。包括变量名、变量类型、变量宽度、小数点的位数、变量标签、变量取值、缺失值等,将问卷中的每一个变量根据其特征进行定义。
其中各项的内容分别是:
(1)Name:变量名,问卷中的每个变量为了识别的方便,在数据录入时都确定一个名称,否则,系统默认为var00001、var00002、var00003等,变量命名时要注意以下几点:
图7-3 变量定义窗口
●首字符必须是汉字或字母,后面可以是任意的汉字、字母或数字,但不能用“!”、“?”、“*”之类的符号。
●变量名的长度应少于64个字符(32个汉字)。
●不能用下画线“_”,句号“。”和圆点“.”作为变量名的最后一个字符。
●变量名是唯一的,并且不区分大小写。
●变量名设置时最好与问卷中的问题相一致,如用Age、Sex等,也可以用a1、a2等表示,查找变量较为方便。
(2)Type:确定变量数据的类型。SPSS软件在录入数据时可以设置数值型(Numerical)、字符型(String)和日期型(Date)三种,数值型变量根据不同的要求又可设置为标准型(Numerical)、逗号型(Comma)、句号型(Dot)、科学计数型(Scientific notation)、美元型(Dollar)和自定义货币型(Custom currency),系统默认的为标准数值型(Numerical)。
(3)Width:变量宽度,指的是变量名的宽度,默认是8位,可以根据需要进行调整。
(4)Decimals:小数点位数,如果输入的数据有小数,则要设置小数点的位数,默认为2位的小数。
(5)Label:变量名标签,是对变量名含义的进一步解释和说明。
(6)Values:变量值标签,是对变量取值进一步的解释和说明,特别是用数值表示非数值型变量时,如性别变量的取值“1=男,2=女”。定义变量值标签时,点击Values相应变量名对应的,弹出如图7-4的窗口,进行定义即可。
图7-4 变量值标签
(7)Missing:缺失值的设置。在数据录入的过程中,有时会因为某些原因产生错误的、失真的数据,或者没有数据的情况,可以通过将其设置为缺失值的方法来定义缺失数据。
(8)Columns,Align:指的是变量值的宽度和排列方式。
(9)Measure:指的是变量的类型是定类变量、定序变量还是定距变量。
定义完变量名之后,回到Data View窗口下,数据窗口中纵栏的“var”就变成研究者定义的变量名,如A1、A2等。然后,就可以根据问卷的内容,直接将每一个个案的数据逐一输入到每一个方格中(见图7-5)。数据输入完之后存盘,就形成了一个完整的数据,可以随时调用进行分析了。
二、其他输入方式
调查中的数据除了采用人工输入的方法外,还有其他的输入方式,比如,计算机辅助系统转换和光电输入法等。
1.计算机辅助数据输入
计算机辅助系统转换主要用在电话访问中,也就是采用“计算机辅助电话调查系统”(CATI或PAPI)搜集资料时,通过计算机和转化软件可以直接将调查员在电话访问过程中输入电脑中的数据转化为数据文件。这种方法可以节省输入和整理的时间,提高数据整理的速度,节省了人工成本,并且可以避免数据多次转换可能出现的误差。但是这种数据输入的方法主要以电话调查的资料为主,在电话调查中,访谈问卷的使用和管理,整个抽样的过程都是在计算机上完成的,因此需要专门的电话访谈软件和设备,但这些设备较为昂贵,因此这种数据输入方法的成本较高。目前有些学校已经建立了电话调查实验室。
图7-5 SPSS数据输入举例说明
2.光电输入[4]
光电输入包括光电扫描和条形码判读两种方式。光电扫描是指将登录到专门的光电扫描纸上的编好码的数据,用扫描仪器扫描到计算机中。这种方法的优点:一是比人工输入方法准确;二是输入速度较快。而其缺点则在于将数据登录到扫描纸上的过程既麻烦,又容易出错,而且扫描仪对扫描纸上的要求较高,不仅纸质要好,不能折叠,而且对记录笔也有较高的要求(如要求2B硬度的铅笔),否则扫描时容易出错。这种方法主要用在考试过程中,如英语四、六级考试的答题卡上的答案进行统计就是采用这种形式。
与光电扫描相类似的就是利用条形码判读器将问卷上与答案编码相对应的条形码直接扫描到计算机中。使用这种方法需要先将与问题的每一个答案相对应的编码设置成条形码,在印刷问卷的时候,一起印在问卷上,如商场、超市中销售的商品的条形码。输入数据时,先编写相应的输入程序,然后再将选中的答案的条形码逐一扫描进计算机即可。这种方法既有光电扫描方法输入快捷的特点,又省去了登录的麻烦,减少了登录的误差,提高了数据文件的准确性。但是采用这种方法,既要有专门的条形码判读器,又要在问卷上印刷特定的条形码,还要专门的输入程序,成本较高。目前,这种方法在商场、超市等商品销售活动中已得到广泛的应用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。