首页 百科知识 分层抽样的样本平均数怎么算

分层抽样的样本平均数怎么算

时间:2023-10-21 百科知识 版权反馈
【摘要】:抽样方法的特点是通过部分随机样本的调查,对总体做出科学的推断。统计推断的基本内容有参数估计和假设检验两方面。与总体参数相对应的是样本的统计量。从总体中抽取出来的单位集合体数量称作样本容量,一般用n表示,其表明一个抽样样本中所包含的单位数。社会学认为,样本单位数大于50个的称作大样本,不足50称作小样本。欲估计总体均值,则使用样本均值;欲估计总体中位数,或标准差,则使用样本中位数,或样本标准差。
基本概念_社会统计学

第一节 基本概念

抽样方法的特点是通过部分随机样本的调查,对总体做出科学的推断。首先,对数据进行描述,提取样本数据中的信息,从而形成了推断总体的统计量以后,就可以依据概率分布和抽样分布的原理对总体进行推断。统计推断是利用样本数据,对总体的数量特征做出具有一定可靠程度的估计和判断。统计推断的基本内容有参数估计和假设检验两方面。概括地说,研究某随机变量,推断它具有的数量特征和变动范围,属于参数估计;而推测这些随机变量的数量特征和变动范围是否与总体有本质性差异,属于假设检验。参数估计和假设检验的共同点是,它们都对总体不很了解,都是利用部分观察值所提供的信息,对总体的数量特征做出估计和判断,但两者所要解决问题的着重点和所用的方法有所不同。

总体参数估计是以样本统计量作为未知总体参数的估计量,通过对样本各单位的实际观察取得样本数据,计算样本统计量的取值作为被估计参数的估计值。

抽样推断涉及的基本概念有:总体与样本、总体参数与样本统计量、重复抽样与不重复抽样、样本容量等。

一、参数和统计量

例如,美国林肯第一次当选总统时,赢得了1865908张选票中的39.82%,该数据就是参数,而非统计量。而在一个877个被调查者样本中,发现其中13.5%的求职申请书上,有文字错误,这13.5%就是统计量而非参数,因为其基于某一样本,而非所有被调查者。

尽管样本统计量的计算公式与总体参数的计算公式形式上十分类似,但两者有重要区别。从形式上看,一般样本统计量用小写字母表示,而总体用大写字母(或希腊字母)表示;从内涵上看,样本统计量是随机变量而总体是固定的常数;从本质上看,为满足无偏性要求,总体方差σ2的分母是n,样本方差S2的分母是n-1,样本标准差S也类似。即:

(3)样本容量。从总体中抽取出来的单位集合体数量称作样本容量,一般用n表示,其表明一个抽样样本中所包含的单位数。样本容量大、调查费用高,样本误差小;反之,样本容量小、调查费用低,样本误差大。一般认为,样本单位数大于30个的称作大样本,不足30称作小样本。社会学认为,样本单位数大于50个的称作大样本,不足50称作小样本。在实际调查中,往往不仅需要进行频数分析,二维、三维交叉分析,实际调查样本量和调查指标有关,指标量与样本量之比大致为1∶(5-10)。即若调查10个指标需要调查50~100个样本;如果2个层次,4个1级指标,20个2级指标大致需要调查100~200个样本。另外,不同的调查指标,如年龄、性别及对某问题的态度,具体方差不一,有不同调查样本量的要求,一般要求取最大的样本量以满足各方面需要。

二、抽样分布

抽样分布是指所有可能的样本观察值及其对应的概率分布。在进行统计推断时,由于应用的是随机样本,因而就要考虑样本的抽样分布。下面先看如下一个例子。

[例6.1]假设有4个工人,每月工资分别为700、900、1300和1500元,该总体的平均工资和工资标准差分别为

    μ=∑X/N=(700+900+1300+1500)/4=1100(元)

    σ=SQRT(∑(x-μ)2/N)     

     =SQRT[((700-1100)2+(900-1100)2+(1300-1100)2+(1500-1100)2)/4]

     =SQRT[(4002+2002+2002+4002)/4]=316.2(元)

1.重复抽样调查

现用重复(有放回)抽样的方法,从4个工人中抽取2人构成样本,求样本的平均工资。所有可能的样本(C2=16)和样本平均工资列表如表6.1所示:

表6.1          重复抽样调查的所有样本

2.不重复抽样调查

现在考虑不重复(无放回)抽样,那么样本可能组合数(C42)为12种(如表6.2所示)。

表6.2          例6.1不重复抽样调查的所有样本

以上可见,样本平均数的平均数等于总体平均数;抽样平均数的标准差为

其次,总体中4个数据呈现均匀分布如图6.1所示,而当重复抽样以后,样本平均数就呈现对称分布B,若不重复抽样以后,样本平均数就呈现对称分布A,出现十分接近正态分布的状态。实际上,当抽样的样本容量n越多,离正态分布越近。

图6.1 样本及样本平均数的频率分布

三、中心极限定理

中心极限定理有很多表述方法,这里采用最简单的表述,通过上述个例启示三个事实:

(1)若总体是正态分布,无论抽取大样本还是小样本,样本平均数都呈现正态分布;总体非正态分布的情况下,若抽取大样本(n>30),则样本平均数呈现正态分布;若抽取小于30的小样本,则样本平均数呈现非正态分布。

(2)样本平均数的数学期望(平均数)等于总体平均数。

从表面上看,用什么统计量来做参数的估计量这一问题似乎是很简单的常识问题。欲估计总体均值,则使用样本均值;欲估计总体中位数,或标准差,则使用样本中位数,或样本标准差。但实际并非如此简单,理论上可使用几种方法来估计总体均值。除了样本均值外,可以用样本中位数或众数。因此,为了确定哪一种估计方法最佳,就必须建立一套评价标准——点估计优良标准。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈