7.1.1 抽样推断的意义和特点
在实际生活中存在着许多不确定性的现象。 当为了一定的目的研究某种现象并准备作出决策时,常常需要根据不充分的条件来作出判断。 抽样推断方法,可以在观察部分资料的基础上,深入地研究、分析,进一步推断资料本身之外总体的情况和数量关系,并对不确定的现象作出科学的判断和决策。
抽样推断,是指根据数理统计的有关原理,按随机原则,从总体抽样所获得的样本指标数值,对总体指标数值作出有一定可靠性的估计和推断。
抽样推断由于只是对总体中的部分单位进行调查,与全面调查相比,调查单位数少,从经济上说,可以减少调查过程中所需人力、物力和费用;从时效上说,大大缩短调查、整理、分析的时间;使不可能做全面调查或没有必要做全面调查时,能对其总体数量特征作出可靠的估计。 也可以作为检验全面调查结果之用。
抽样调查是目前世界各国普遍采用的一种科学有效的统计调查方法,也越来越受我国统计调查的重视,并越来越多地采用。
抽样推断有如下特点:
①按随机原则抽选样本单位。 随机原则抽选可以保证总体中每一个单位都有同等被抽中的可能性,不受主观因素的影响,使用样本数据去推断总体结果时更具客观性。
②抽样的目的是为了推断总体数值。 抽样是对部分单位进行抽选、计算。 但我们的目的并不是要了解样本数据这一结果,抽样的目的是根据抽样数值推断、估计总体综合结果。
③抽样推断可以计算和控制误差。 抽样推断不是得到准确的绝对数值,它必然要产生误差,但这个误差事前可以计算,而且可以控制在一定范围。
7.1.2 抽样推断中的几个基本概念
1)总体与样本
总体是指被研究现象的全体,即统计总体,在统计调查时也称为调查对象。 构成总体的单位数用N表示。
按随机原则从总体中抽选出一部分单位调查,这部分单位称为样本。 构成样本的单位数用n表示。 当样本单位数在30个以上时称为大样本,不足30时称为小样本。 抽样推断在不同条件中,有时可以采用小样本,有时需要大样本。
2)总体指标和样本指标
本章介绍抽样推断时,主要是用样本平均数去估计总体平均数,样本成数去估计总体成数。 估计时必然会产生误差,而计算误差必须通过标准差(或方差)进行计算。 因此,主要计算4种指标:平均数、成数、平均数的标准差和成数的标准差。
总体指标是根据总体全部单位标志值计算而得到。 总体平均数用X(大写)表示,则:
式中 X——总体各变量值;
F——总体分组各组单位数。
总体平均数的标准差是指,总体各单位标志变异程度的指标(见第4章)。标准差越小说明总体各单位标志值之间的差异越小,各变量值之间集中程度越高。反之亦然。总体平均数的标准差用σ表示,用σ2表示方差。则
总体成数是指若总体各单位的某一标志只有两种表现,“是”与“不是”,通常称为是非标志,则其中“是”这种表现的单位数占全部单位数的比重(或比例)称为成数。用P(大写)表示。在总体全部单位数N中,用N1表示“是”这种表现的单位数,N0表示“不是”这种表现的单位数。且N=N1+N0,则
成数的标准差是指是非标志表现之间也存在差异,它们之间的平均差异用σp表示标准差,用σ2p表示成数的方差,则
如,该校学生生活消费支出“是”300元以下成数的标准差:
式(7.4)是根据以下计算得来。 是非标志是属性表现,不能直接计算其平均数、标准差,要计算必须转化为数量表现。 假设“是”与“不是”分别用数值1和0来表示,那么,是非标志值的平均数为:
是非标志值的标准差为:
样本指标是指根据抽样单位数的标志值计算的指标,样本平均数用x (小写)表示,则
x表示样本各变量值,f表示样本分组的各组单位数。
样本平均数计算的标准差用s表示,方差用s2表示,则
样本成数用p(小写)表示,则
样本成数计算的标准差用sp表示,方差用s2p表示,则
当重新抽取100名学生进行调查时,得到的样本指标可能是另外的结果。 从总体中抽出同样单位数目的样本,样本不同所得到的样本平均数、标准差、样本成数和成数的标准差就可能不同。
总体指标与样本指标在计算上基本一致,只是在计算范围上不同。 两种指标主要不同在于,总体指标计算结果是唯一确定的,但样本指标是根据抽样的不同而不同,所以说,样本指标是一随机变量。
3)重复抽样和不重复抽样
抽样时有两种不同的抽取方法:重复抽样和不重复抽样。
重复抽样也叫重置抽样。 其抽法是,从N个总体单位中随机抽取一个样本单位,登记后又把它放回去,再从N个总体单位中抽取第二个样本单位,以此抽选下去,直到抽到n个单位组成样本。 采用这种方法抽取样本单位,每一个单位都有多次被抽中的可能。
不重复抽样也叫不重置抽样。 其抽法是,从N个总体单位中随机抽取一个样本单位,登记后不再放回总体,然后再从剩下的N-1个总体单位中抽选第二个样本单位,以此抽选下去,直到抽到n个单位组成样本。 采用这种方法抽取样本单位,每一个单位只有一次被抽中的可能,并且总体单位数随着样本单位数目的增加而减少。
由此可见,重复抽样对同一个总体单位有可能被重复抽中,从而降低样本对总体的代表性。 不重复抽样对同一个总体单位不可能被重复抽中,就更接近于实际,因而更能保证样本对总体的代表性。
重复抽样和不重复抽样方法抽取的可能样本数目也不相同。 把在总体N中抽出n个单位,有多少种不同的抽法,叫做抽样的可能样本数目。
例7.3 假设有1,2,3,4四个数值组成的总体,从中抽取两个数值作为样本,有多少种抽法呢?
采用重复抽样的可能样本数目有16种,不重复抽样的可能样本数目有12种,见表7.1、表7.2。
表7.1 重复抽样的可能样书数目
表7.2 不重复抽样的可能样书数目
从抽样结果看,重复抽样的可能样本总数多于不重复抽样的可能样本总数,重复抽样的抽样误差也大于不重复抽样的抽样误差。
7.1.3 抽样推断的理论根据
在一总体中抽出一定数量的样本单位数,有许多种不同的抽法。 在一次抽样中得到的样本指标去估计总体指标,能有一定的准确性和可靠保证吗?
概率论与数理统计中大数定律与中心极限定理为抽样推断提供如下根据:
①样本指标有趋近于总体指标的趋势。 并且样本平均数的平均数等于总体平均数。
②总体是正态分布,样本平均数也服从正态分布。 总体非正态分布,只要抽样单位数(n≥30)足够多,样本平均数也服从正态分布。
③样本平均数与总体平均数的平均误差就等于样本平均数的标准差。
假如,从同一总体随机抽出相同单位数的各种样本,则从这些样本计算出的平均数(或成数)所有可能值的分布,称为抽样分布。
例7.4 以例7.3资料,从总体1,2,3,4这四个数值中抽选两个,按重复抽样抽取的可能样本数目为16,见表7.1。 由各样本得到的样本平均数编制成分配数列(表7.3)和分布图(图7.1)如下:
表7.3 重复抽样的可能样书数目
图7.1
图7.2
中心极限定理进一步说明,如果总体是非正态分布,只要抽样单位数足够多(n≥30),样本平均数也趋于正态分布。 还是用此例说明,如果这个班同学的数学成绩不服从正态分布,比如,成绩高和成绩低的人数多,中等成绩的人数少,抽样时只要抽足够多(n≥30),如抽30人以上进行调查,所有可能样本得到的样本平均数还是服从正态分布。 即大多数样本平均数都集中在总体平均数的周围(如图7.3所示)。
图7.3
举例主要说明,尽管抽样得到的平均数是一个随机结果,但所有可能样本平均数大量集中在总体平均数周围,即抽到接近总体平均数的可能性大。不管总体分布是否是正态分布,只要抽样单位足够多,样本平均数一定服从正态分布。 根据正态分布这一规律,可以对总体指标进行估计,并且能由正态分布函数求其概率(可靠保证)。
概率论与数理统计中的大数定律和中心极限定理,从理论上说明了抽样推断的理论根据。 阐述了样本平均数分布状态和样本平均数趋近总体平均数的趋势。 提供了计算样本平均数与总体平均数之间的误差,确定样本平均数推断总体平均数的可靠程度,对总体进行科学推断的主要依据。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。