资料的初步整理是相对于下一章的推论统计分析而言的,它主要包括:数据的统计分类和统计图表的制定等。数据的统计分类与本章前述资料的分类、汇总有所重复,因此本节不再赘述。经过初步整理,数据的基本特征和性质已经粗略地反映出来,但要对数据进行深入的统计分析,还必须通过描述统计进一步分析数据的特征。数据的特征主要包括集中趋势和离散趋势及双变量关系。
一、心理与教育统计中的基本概念
心理与教育统计学中包括许多概念,先了解这些概念是很有必要的。其中最常用的和最基本的概念包括下列一些。
(一)总体、样本、个体
总体(population)是指具有某种特征的一类事物的全体,构成总体的每个基本单元称为个体(individual),从总体中抽取的一部分个体称为总体的一个样本(sample)。很显然,这三者是紧密相关又有区别的三个概念。首先,总体是由个体构成的,没有个体,就无所谓总体,而且每个个体的性质对总体的性质有着直接的决定性影响。其次,样本是总体中的一个组成部分,没有总体,就没有样本,样本是相对于总体而言的。再次,样本的代表性不仅取决于样本量的大小,而且还与样本中的个体的性质有直接关系,一般情况下,同样的样本量,个体间越同质,样本的代表性越低。
(二)统计量与参数
在心理与教育统计学中,描述数据统计特征的指标,也有总体与样本之分。表示样本统计特征的统计指标叫统计量(statistic),表示总体统计特征的统计指标叫参数(或总体参数、母数)(parameter)。为了区分统计量与参数,同一概念用不同的符号来表示(参见表16-3)。
表16-3 统计量与参数的表示符号
(采自 申继亮,1995)
由于样本是总体中的一个组成部分,因此统计量与参数是密切相关的。当总体的大小已知并与实验观测的总次数相同时,统计量与参数指的是同一个统计指标;当总体为无限时,统计量与参数不同,在这种情况下可以用统计量来推断参数。
(三)统计图表简介
由于统计图表的制定在心理与教育统计学专书中另有专门论述,因此此处仅对统计图与统计表进行简单介绍,不再专门论述两者的制定问题。
统计图就是依据数字资料,应用点、线、面、体、色彩等描绘制成整齐而又有规律、简明而又知其数量的图形。心理与教育统计中常用的统计图可按形状划分为直条图、直方图、曲线图、圆形图等等。所有的统计图都应包含图号、图题、图目、图形和图注几个方面(具体实例请参考有关统计学书籍,此处不再列出)。统计图能把事实或现象的全貌形象化地呈现出来,便于理解和记忆。但统计图有其不足之处,即图示的数量不易准确,若制图不当反而掩蔽事实真相,使用时应倍加注意。
统计表是用表格的形式呈现研究的数量化结果的方式之一。统计表的种类很多,主要包括原始数据表、次数分布表和分析结果表。其中,分析结果表最为常用。标准的统计表其构造一般包括序号、名称、标目、数字和表注几部分(具体实例请参考有关统计学书籍,此处不再列出)。
二、集中趋势的度量
在心理与教育科学研究中,所获得的数据是离散的,数值大小也不尽相同,依靠原始数据很难把握一组数据的特征,也难于进行不同组数据间的比较。因此,计算一个代表一组数据的代表数值是非常必要的,而集中趋势(central tendency)的度量就是指确定一组数据的代表值,其结果称为集中量数(central tendency measure),包括算术平均数、中数、众数、几何平均数、调和平均数、加权平均数等,由于几何平均数和调和平均数在心理与教育研究中极少运用,在此不再介绍。
(一)算术平均数
算术平均数(arithmetic mean,简称AM)是应用最普遍的一种集中量数,它是观测数值的总和除以观测数值的个数所得的商。算术平均数一般又简称平均数(或均数)(mean),只有与几何平均数、调和平均数、加权平均数相区别时才把它称为算术平均数。算术平均数的代表符号通常以变量的符号上面加一横线来代表。例如,如果用变量X1,X2,X3,…,Xn代表各观测数值,N代表观测数值的个数,则算术平均数的计算式子为:
在大多数情况下,算术平均数是真值的最佳估计值。但由于每个数据都参与了算术平均数的计算,观测数据中任何一个数据的变化都会影响到算术平均数的变化。因此,在计算算术平均数时应特别注意检测有无极端数值,即过大或过小的数据,一旦有极端数值出现,就不宜再用算术平均数作为集中量数。此外,在计算算术平均数时还应注意数据的同质性。所谓同质数据(cohort data)是指使用同一个观测手段,采用相同的观测标准,能反映某一问题的同一方面特质的数据。如果使用不同质的数据计算平均数,则该平均数不能作为该组数据的代表值。例如,对一个班学生的身高与体重进行测量,身高的数据与体重的数据就不是同质数据,很显然我们不能把这两者放在一起计算平均数。
(二)中 数
中数(或中位数)(median,简称Mdn),它是指数据的次数分布上处于50%位置处的数值,即位于一组数据中较大一半与较小一半中间位置的数。中数既可能是原始数据中的一个,也可能不是原有的数据,例如一组数据:2,7,8,9,10,12,12,13,13,21(N=10)的中数为11。中数可用原始数据计算,也可用频次分布(或次数分布)计算,关键在于抓住数据组中间位置这一特点。中数的计算非常简便,但反应不灵敏,对于极端数据不如算术平均数敏感。因此常被用于偏态分布、极端数据、模糊数据的分布中表示集中趋势。中数受抽样的影响较大,稳定性不如算术平均数,而且不能作进一步的代数运算。因此,在一般情况下,中数不被普遍应用。
(三)众 数
众数(mode,简称Mo)是指在次数分布中,出现次数最多的那个数的值。众数可以通过观察的方法直接得到,也可以采用积分的方法求取。众数的概念简单明了,容易理解,但它不稳定,受分组的影响,亦受样本变动的影响,且不能作进一步的代数运算,因此众数不是一个良好的集中量数。但由于它较少受极端数据的影响,反应不够灵敏,常用于以下特殊情况:(1)在需要快速而粗略地计算时;(2)当一组数据出现不同质时;(3)当出现极端数据时。
以上三种集中量数在不同的次数分布中,所描述的情况及大小关系是有区别的。当数据的分布为正态时,三者相等;当数据的分布为正偏态时,平均数>中数>众数,当数据的分布为负偏态时,众数>中数>平均数。
(四)加权平均数
加权平均数(weighted mean)主要用于计算测量所得数据的单位权重不相等的情况。所谓权重或权数,是指各变量在构成总体中的相对重要程度。加权平均数的计算公式为:
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。