第二节 总体均值和成数的假设检验
假设检验的另一个重要问题是确定合适的概率分布,可从正态Z分布和t分布中选一种,选择原则和上一章统计推断类似。当总体方差(或标准差)未知时、总体呈现正态分布时一般采用t分布检验;当总体方差已知时,则采用正态分布检验。样本容量大于30称作大样本,否则称小样本。
一、总体均值的检验
在假设检验中,先给出一个总体参数的假设,然后抽取样本,检验所做假设的正确性,所要检验的这个假设,往往是虚无假设,称作统计假设H0。在进行研究时,需要根据已有的理论和经验,事先对研究结果做出一种实际希望证实的假设,或称备择假设,记为H1。
1.总体方差已知,总体为正态分布
来自总体的样本为(X1,X2,……Xn),对于假设H0:μ=μ0(样本均值),在H0成立的前提下,可建立检验统计量:
2.总体方差已知,总体分布未知,大样本
来自总体的样本为(X1,X2,……Xn),对于假设H0∶μ=μ0,在H0成立的前提下,若样本足够大(n≥30),可将样本方差替代总体方差,检验统计量为
3.总体方差未知,总体为正态分布
来自总体的样本为(X1,X2,……Xn),对于假设H0:μ=μ0,在H0成立的前提下,有检验统计量:
其中S2是样本方差。
4.总体方差未知,总体分布未知,大样本
来自总体的样本为(X1,X2,……Xn),对于假设H0:μ=μ0,在H0成立的前提下,如果总体分布未知,样本足够大(n≥30),近似有检验统计量:
[例7.1]某地区居民收入服从正态分布,标准差是30元,根据调查平均收入为2500元。某厂招收了一批农民工,经过短期培训以后上岗工作,现从中随机抽取100人进行调查,发现其平均收入2490元,问农民工经济收入与当地居民经济收入是否有差异?
解:第一步,提出原假设和备择假设是:
H0∶μ=2500元 H1∶μ≠2500元
第二步,构造统计量,计算检验统计量的值。
由于总体标准差σ=30元为已知,样本量n=100>30是大样本,服从N(μ,σx),于是可计算出Z统计量,样本均值为2490元,总体均值为2500元,于是,可计算出Z统计量:
第三步,确定显著性水平和拒绝域,取默认值α=0.05,查正态分布表,Z=1.96,拒绝区域(-∞,-1.96)或(1.96,∞)。
第四步,判断。由于计算的|Z|=3.33>1.96,落入拒绝区间,于是拒绝原假设。即农民工的月经济收入与当地居民经济收入存在显著性差异。其二,可以求出Z=-3.33相伴随的概率,将此与0.05进行比较,若小于0.05则拒绝原假设;反之则表示没有足够理由拒绝原假设。
图7.2 标准正态分布的置信区间
[例7.2]某养老院有300张床位,正常入住率为80%,经理进行一项改革,将相关收费降低10%,经过36天试运行,平均入住为265张床位,标准差为51,试以5%的显著性水平评估优惠措施是否有效?
注意:本文想证明的是改革以后的入住床位是否明显高于改革以前的240张。
第一步,建立假设H0∶μ≤300*80%=240张H1:μ>240张
第二步,构造统计量,计算检验统计量的值。
由于总体标准差已知,样本量n=100>30是大样本,且总体标准差为σ= 30元,为已知,所以服从N(μ,σx),于是可以计算Z统计量,样本均值为2490元,总体均值为2500元,于是,可计算出Z统计量:
第三步,确定显著性水平和拒绝域,给定显著性水平α=0.05,由于是单边检验,查正态分布表,Z=1.645。
第四步,判断。由于计算的|Z|=2.94>1.65,落入拒绝区间,于是拒绝原假设。即我们能以95%的把握说,改革以后,入住率的床位数明显多于改革前的情况。当然,可以求出Z=2.94相伴随的概率,将此与0.05进行比较,若小于0.05则拒绝原假设;反之则表示没有足够理由拒绝原假设。结论:改革以后,平均入住的床位明显多于改革前的情况。
需要注意的是,备择假设若取H1∶μ<240张,整个结论完全相反。为什么不能取H1∶μ<240张呢?主要是本题想证明的是,改革后入住的床位是否明显多于改革前,这就是备择假设。原假设错了以后,整个结论完全相反,尤其是对单侧检验而言。
[例7.3]健康成人的正常体温是37.0℃,而某医院在中午12点时,检测100个成人的体温资料如下,计算发现这100人的平均体温为36.79℃,标准差为0.347℃,问这些成人的体温是否正常?
表7.1 某医院测量的人体体温
若用统计检验的方法,则:
第一步,提出原假设和备择假设是:
H0∶μ=37.0℃ H1∶μ≠37.0℃
第二步,构造统计量,计算检验统计量的值。
由于总体标准差已知,样本量n=100>30是大样本,且总体标准差为σ= 0.347℃,为已知,所以服从N(μ,σx),于是可以计算Z统计量,样本均值为36.79℃,于是可计算出Z统计量:
第三步,确定显著性水平和拒绝域。取默认值α=0.05,查正态分布表,Z=1.96,
第四步,判断。由于计算的Z=6.05>1.96,落入拒绝区间,于是拒绝原假设。即成人正常体温与37.0℃存在显著性差异。其二,可以求出Z=6.05相伴随的概率0.001,将此与0.05进行比较,由于其小于0.05则拒绝原假设。这些成人的体温和37.0℃有明显的差异。
按照上一章的方法,可以估计到人们体温的均值μ,95%的置信区间36.76℃<μ<36.82℃,即不包括37.0℃。该例说明,统计检验与总体区间的统计估计是高度一致的。
二、总体成数的检验
来自总体的样本为(X1,X2,……Xn)。其中,各个Xi(i=1,2,…n)仅能取1(“有”或“成功”)和0(“无”或“失败”)两个数值。样本中“成功”或“有”的次数为n1。根据理论分析,当n达到一定程度时,样本比例ρ0=n1/n近似服从正态分布N(ρ,ρ(1-ρ)/n),其中ρ为总体成数ρ=N1/ N,ρ(1-ρ)为方差。因此,对于假设H0:ρ=ρ0,在H0成立的前提下,有:
[例7.4]某地区居民月经济收入高于6000元以上的比例为30%,而调查100个外来人口,发现月经济收入6000元以上的有22人,现问外来人口高收入比例与当地人高收入比例是否有差异(α=0.05)?
解:第一步,提出原假设和备择假设是:
虚无假设:H0∶ρ=30% 备择假设:H1∶ρ≠30%
第二步,已知样本比例ρ0=22%,n=100,构造统计量,计算检验统计量的值
第三步,确定显著性水平0.05和确定临界拒绝域Z0.025=1.96,拒绝域(-∞,-1.96]和[1.96,∞),计算Z=-1.746,而在接受区间之内(-1.96,1.96)。
第四步,结论:没有足够的证据推翻原假设,即外来人口高收入比例可能等于当地居民高收入比例。
[例7.5]某社会改革措施,据当地领导说已经获得50%以上居民的支持,某社会调查公司受托调查该措施的社会支持率,公司随机抽取300居民,支持该项政策的居民为140人,问在5%的显著性水平下,该项措施的是否高于50%?
第一步,提出原假设和备择假设是:H0:ρ≤50%H1:ρ>50%
第二步,已知样本比例P=140/300=46.7%,n=300,构造统计量,计算检验统计量的值
第三步,确定显著性水平0.05和确定临界拒绝域Z0.025=1.96,拒绝域(-∞,-1.645],计算Z=-1.143,而在接受区间之内(-1.645,∞)。
第四步,结论:没有足够的证据推翻原假设,即该社会改革措施支持率有可能大于50%。
应该注意的是,计算的检验统计量偏大则相应检验概率偏低,则有助于推翻原假设;相反,检验统计量偏小则相应检验概率偏高,则往往不能推翻原假设。其次,统计检验的结论为推翻原假设,或没有足够的证据推翻原假设两种。为什么不直接承认原假设正确呢?因为推翻原假设所犯错误的可能性已经明确,一般设定α(犯第一错误的可能性)为5%;而承认原假设所犯错误的可能性并不明确,β(犯第二错误“以假为真”的可能性)未知,承认原假设并非表示原假设一定对的,仅是目前没有足够的证据推翻原假设而已,原假设仍有可能为错。再次,一般情况下尽可能使用双向检验,对于初学者单向统计检验的假设容易出错。最后,原假设是虚无假设在不同状态有不同的表述内容。在本章中可以表达为,样本与总体均值无显著性差异、样本和总体成数无显著性差异,但也常常表述原假设为,样本分布和总体分布无差异。在相关分析中原假设被认为,总体相关系数与零值无显著性差异(即总体不相关)。在卡方检验中原假设被认为,纵向变量与横向变量两个变量相互独立。
三、两个总体平均数是否相等的假设检验
双总体均值是否相等(μ1=μ2)的假设检验与上一章讲的双总体均数区间估计是密切联系的。从两个被研究的总体中,各随机抽取若干样本,通过这两个样本平均数之间的差异,分析和检验两个总体平均数是否存在显著性差异。其具体分两个正态总体、方差未知但大致相等;两个正态总体、方差未知但不等;两个大样本、非正态总体。参考表6.3,正态总体、方差未知应用t检验;非正态总体大样本可作为正态分布检验。下面予以说明。
(一)两个正态总体、方差未知但大致相等
两个正态总体:
为检验两个总体均值是否相等,可提出原假设H0∶μ1=μ2,可证明在原假设成立的条件下,服从自由度为n1+n2-2的t分布,即:
当(n1+n2-2)≥30时,上述检验统计量近似服从标准正态分布。当计算的t值大于表载值,表示计算的概率小于给定概率α,而拒绝原假设。
(二)两个正态总体、方差未知但不相等
两个正态总体如前,但,这时,使用检验统计量:
在原假设H0∶μ1=μ2成立的条件下,由于,严格而言,上式不服从t分布,但其分布近似于t分布,当自由度大于30时,上述检验近似服从标准正态分布。
(三)两个大样本、非正态总体
若两样本独立,并且n1和n2都足够大(大于30),在原假设H0:μ1=μ2成立的条件下,以下检验统计量近似服从标准正态分布。
[例7.6]用[例6.12]的数据,已知,S1=2.8,S2=3.2,F(t)=95%,查正态分布概率表得Zα/2=1.96。现问甲乙两地居民受教育年数是否有明显的差异。建立原假设H0∶μ1=μ2,备择假设:H1∶μ1≠μ2。
本例符合第三种情况,两个大样本、非正态总体。
由此可推翻原假设,认为甲乙两地居民受教育年数存在明显的差异,甲地明显高于乙地。实际上,从[例6.12]计算结果可见,甲地居民受教育年数比乙地高0.2~1.8年,都是为正值,说明了相同的问题。
四、两个总体成数(比例)是否相等的假设检验
本节讨论用两个独立样本成数(p1=p2)来检验两总体成数是否相等(P1= P2)。建立原假设H0∶P1=P2,备择假设:H1∶P1≠P2。由于计算比例的样本都是大样本,n1和n2都充分大,其检验统计量近似服从标准正态分布。即
[例7.7]以[例6.14]为例,从甲、乙两个地区分别抽取了500、600人,两地区的失业率分别为5%和10%,置信水平为95%的情况下,问两地失业率是否有明显差异。
已知:n1=500,n2=600,p1=0.05,p2=0.10,F(t)=95%,查表得Zα/2=1.96。
建立原假设H0∶P1=P2,备择假设:H1∶P1≠P2,根据已有资料计算统计量。
推翻原假设,甲、乙两地失业率有明显差异,甲地失业率明显低于乙地。从[例6.14]也可以看出,在95%的概率保证程度下,甲地区失业率比乙地区失业率低2%到8%之间。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。