第二节 参数估计
参数估计有点估计和区间估计两种方法。例如,某地区对居民年经济收入水平进行调查,求得户均收入为13000元,标准差为3500元,于是调查者认为全区居民平均经济收入可能是13000元,而另一个调查者则认为全区居民平均经济收入可能在9200~16800元间。因前者是用数轴上的一点做估计,称为点估计。后者是用数轴上的一段距离做估计,称区间估计。
一、估计量的优良标准
抽样平均数的平均数等于总体平均数,抽样成数的平均数等于总体成数,即
这说明以抽样平均数作为总体平均数的估计量,以抽样成数作为总体成数的估计量,是符合无偏性原则的。
当样本容量足够大的时候,用样本均数或样本标准差作为总体相应参数的估计量都可视为无偏估计量。正因为如此,在大样本统计分析中,常用样本标准差(sn-1)而非sn来代替总体标准差(σ)。当总体分布呈正态时,中位数也是总体均数的无偏估计量。然而出于抽样误差的普遍存在,我们不能期待一次抽样就能对总体参数作出精确的估计。
(2)一致性。以抽样指标估计总体指标时要求,当样本的单位数充分大时,抽样指标也充分地靠近总体指标。就是说,随着样本单位数n的无限增加,抽样指标和未知的总体指标之差的绝对值小于任意小的数,其可能性也趋近于必然性。
可以根据样本容量来说明这一结果。如果用样本中位数而不用样本均值作为正态分布总体均值μ的估计量,那么,为了获得与样本均值提供的同样精度,样本容量就需要增大57%。换言之,样本中位数所需的样本容量是样本均值的157%。由此可见,均值是效率更高的估计量。正因为如此,总体均值的估计量一般都用样本均值,而不用样本中位数。
一个好的点估计必须具备以上三个条件,也有一些教材认为还须满足充分性要求。充分性是估计参数时所用样本的数量,即容量为n的样本统计量是否充分使用全部n个数所反映的总体信息。从Me和Mo的比较中我们可知,只有在求均数时n个数据全部参与计算,它能充分地反映所有数据所要反映的总体信息,而计算Me和Mo时只有部分数据参与计算,是用部分数据反映的总体信息。因此,平均数的充分性最高,中数和众数的充分性较低。同理,在差异量数中标准差σ要比平均差AD、四分位差Q更具有充分性。
已证明,用样本平均数来估计总体平均数和用样本比率来估计总体比率时,它们是无偏的、一致的、有效的和充分的。总体参数点估计的方法优点是简便、易行,原理直观,常为实际工作所采用。不足之处是这种估计没有表明抽样估计的误差,更没有指出误差在一定范围内的概率保证程度有多大。要解决这个问题,必须采用总体参数的区间估计方法。
二、区间估计原理
区间估计的特点不是给出被估计参数的确定数值,而是给出被估计参数的可能范围。同时对参数落在这一范围内给定相应的概率保证程度。如上面指出的,参数的可能范围是估计的准确性问题,而相应的概率保证程度是估计的可靠性问题。在做估计时常常希望准确性尽可能提高,而且可靠性可能大,但这两个要求是矛盾的。在样本容量不变的条件下,要缩小估计区间,提高估计的准确性,势必减少置信度,降低估计的可靠性。如30届伦敦奥运会中国金牌获得数预测,预测范围宽、区间大,则估计准确度高;预测区间窄,估计准确度则低。
在[例6.1]中有:
这说明在重置抽样中,样本平均工资与总体平均工资的绝对离差不超过100元的概率为8/16,即有50%的概率保证总体平均工资落在1000~1200元之间。同理,抽样误差不超过200元的概率为10/16=63%,抽样误差不超过400元的概率为100%等等。由此可见,抽样误差范围与估计置信度是不可分离的。估计置信度是抽样误差范围的函数,抽样误差范围愈小,估计准确度愈高,但置信度愈小。因此,在区间估计的时候,不可能对抽样误差范围和估计置信度都提出要求,只能根据给定的置信度(概率保证程度)来推算抽样误差范围的上下限,或根据给定的允许范围,来推算相应的置信度(概率保证程度)。
1.置信区间(Confidence Interval)
(当α=0.05时,Z=1.96;当α=0.01时,Z=2.58)
2.置信系数(Confidence Coefficient)
置信系数是指被估计的总体参数落在置信区间内的概率P,大多以1-α表示,又叫置信水平、估计把握程度、置信度、可靠性系数和置信概率。置信系数是用来说明置信区间可靠程度的概率,也是进行正确估计的概率。一个置信系数同时反映了在做出一个估计时所犯错误的小概率(α),即可靠性为95%时,意味着犯错误的概率为5%;可靠性为99%时,意味着犯错误的概率为1%。置信系数的选择一般是由研究者根据估计可靠性程度的要求而确定,在社会统计中,α的默认值是0.05,把握程度为0.95和Z的默认值是1.96。其表示估计100次的情况下,实际值有95%的可能性落在估计区间内。
3.置信限(Confidence Limit)
置信限是被估计的总体参数所落区间的上、下界限,即
置信区间与置信系数的关系比较复杂。在进行参数估计时,一个较高的置信系数并不意味着有一个较精确的估计。事实上,较高的置信系数会造成置信区间的扩大,而较大的区间本身又会降低估计的精确性,结果只能给我们一个非常模糊的估计数。比如天气预报,今天夜里到明天,晴到多云,局部阴有时有雨。准确度是高了,但是置信区间过大,信息量反而小了。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。