大家知道,人造卫星在天空中飞行时与流星相撞的可能性非常小;在一万件某产品中,其中混有一件次品,则在一次抽查中,抽查到的一件产品恰好是次品的可能性也很小.实际上这两件事并非绝对不可能发生.可是,通常我们总是习惯地认为这样的事件不可能发生.
一般将发生的可能性很小的事件称为小概率事件,即小概率事件发生的概率接近于0.“认为小概率事件在一次试验中不大可能发生”通常被称为“实际判断原理”,它在统计推断中有着重要作用.根据这个原理,在实际生活和各种生产、经济活动中,我们可以将概率很小的事件看作是不可能发生的,而将概率接近1的事件看作是必然会发生的.至于概率要小到什么程度方可视作不可能发生的事件,需要根据事件的重要性和实际意义来确定.例如,在第二次世界大战期间,美国空军降落伞的合格率为99.9%,这意味着从概率上来说,每一千个跳伞的士兵中会有一个因为降落伞不合格而丧命.0.1%的不合格率,已经是一个很小的概率,可是军方仍然认为难以接受,要求厂方必须让合格率达到100%.厂方负责人说他们已经竭尽全力了,99.9%已是极限,除非出现奇迹.于是,军方改变了检查方法,每次交货前从降落伞中随机挑出几个,让厂方负责人亲自跳伞检测.从此,奇迹真的出现了,合格率达到了100%.
由于概率接近于1或0的事件具有特别重要的意义,因此发现和建立事件的概率接近于1或0的规律就成为概率统计中的一个基本问题.大数规律研究的就是这个基本问题.
下面看两个具体的例子.
第一个例子是扑克牌试验.用一副洗得很好的扑克牌进行下列试验:让10个人依次从这副牌里抽出10张,记录红牌数和黑牌数,并算出红牌所占的百分比,每一次抽的牌都要放回去再抽第二张.试验的结果记录在表4.1中.
表4.1 抽牌试验记录
观察上面记录的数据可以知道,当抽牌次数较少时,红牌的百分比变动很大,没有什么规律可言.可是,当抽牌次数逐步增大时,红牌的百分比总是在50%左右摆动,有时大一点,有时小一点.并且随着抽牌次数越来越大,这个百分比在50%左右摆动的幅度也呈现出越来越小的趋势.
第二个例子是,当我们观察少数家庭的婴儿性别时,会发现生男生女的比例差别很大:有的是男多女少,有的是女多男少,有的是只生男不生女,有的是只生女不生男.可是,经过大数量家庭的观察就会发现,男婴、女婴出生数逐步趋向平衡.或者说,随着观察次数的增多,表示男女之比的频率出现了稳定性,逐步接近于1.
这两个例子说明,相同性质的大量现象是具有规律性的.虽然个别现象因为受到各种偶然因素的影响,会出现很大的差异;但是,当观察数量相当大时就会呈现出一定的规律性,这就是大数规律的作用.
上述两个例子,还有许多类似的试验,都说明了这样的事实:在相同的条件下做大量的重复试验,事件A发生的频率具有某种稳定性.也就是说,当试验次数增大时,事件A发生的频率总是稳定于某一个数字附近,而且偏离这个数字的幅度相当小.受到频率具有稳定性的启示,于是便有了如下概率的统计定义.
在相同的条件下重复进行n次试验,事件A在n次试验中发生m次.如果试验次数n增大时,事件A发生的频率稳定在一个常数p附近摆动,并且n越大时摆动的幅度也越小,则常数p即为事件A发生的概率,记为P(A)=p.
虽然概率的统计定义是建立在重复试验的基础上,但这并不等于说概率取决于试验.事实上,事件A发生的概率是事件A固有的一种属性,在试验之前就已经存在.由于精确的概率值p常常无法求得,因此,我们就将试验次数充分大时的频率作为p的近似值.
从理论上说,随机现象与偶然现象相似,其中蕴藏着规律性.只要经过大量观察或反复试验,就可以证明其规律性的存在.对随机事件只进行一次、二次、三次等少量观察时,是无法看出其内在联系的,但是,只要进行大量观察就会发现其明显的规律性.这就是所谓的大数规律.大数规律是随机事件发生的基本规律,也是随机事件在大量重复试验中的必然规律.因此,许多统计学家认为,大数规律就是统计规律,并将大数规律看作统计学在数量关系上的指导理论.
凡事均具有偶然与必然两个方面.大数规律的本质意义就在于,经过大量观察以后,研究对象个别的、偶然的差异性被相互抵消,而必然的、集体的规律性却被显示出来.从哲学上看,这就是偶然与必然、个别与一般的对立统一规律在数量关系上的反映.
大数规律有着源远流长的历史.瑞士数学家雅各布·贝努里(Jakob Bernoulli,1654—1705)是多数统计学家公认的最早发现大数规律的人,1713年,他所著的《推测法》一书出版,在这部著作中他提出的“贝努里定理”,被认为是大数规律的早期形式.1837年,泊松(Siméon-Denis Poisson,1781—1840)以“泊松大数规律”对贝努里定理进行了一些补充.到了19世纪,先由拉普拉斯开始,接着由凯特勒完成了大数规律和概率论与统计学的结合,开创了统计学的新时期.凯特勒认为任何现象都有误差,任何现象经过大量观察都可以发现规律.他经过大量试验得出结论:被观察事项的数量越大,则观察结果越正确,“其准确程度随观察数量的平方根而增加”,因此可以从大量观察中看出规律性.在19世纪末,俄国数学家车比雪夫(Чебышёв,1821—1894)又丰富了贝努里和泊松关于大数规律的公式,并且论证了一般的大数规律:抽样数量越大,抽样平均数与总体平均数之差越小,其概率接近于1.
上面我们讨论的是大数规律的一般概念,而狭义的大数规律则是指数理统计中反映上述规律的一些定理,它们揭示的是平均数的规律性与概率之间的数量关系.
下面简要介绍两个反映大数规律的最常见的大数定理.由于公式的数学推导,需要用到的数学知识比较多,因此从略.
贝努里大数定理 设ξ是n次独立试验中事件A出现的次数,p是事件A在每次试验中出现的概率,则对于任意给定的一个正数ε,有
或者
上述等式说明,在重复独立试验中,只要试验次数n足够大,事件A出现的频率与其概率p充分靠近的概率为1.也就是说,贝努里大数定理揭示了在大量重复独立试验中,事件出现的频率具有稳定性.这恰好给概率的统计定义提供了理论依据,因此在概率统计中具有重要意义.
例如,一所只使用少数电灯泡的小学,很难预测一天需要更换的灯泡数.可是一所使用大量灯泡的大学,就可以相当有把握地估计出一天内需要更换的灯泡数.而对于一个拥有百万人口的城市来说,一天内灯泡损坏的百分比则更为稳定.这里每使用一个灯泡可看作一次随机试验,一天内灯泡损坏不损坏是该试验的两种结果.损坏的灯泡数占使用灯泡的总数的百分比是一个相对频率,这个频率随着使用灯泡数的增大而渐趋稳定.因为贝努里大数定理指出,当n充分大时,频率与概率p有较大偏差的可能性很小,因此我们可以通过试验来确定事件发生的频率,然后用这个频率来估计概率.
贝努里大数定理讨论的是仅有两种可能结果的特殊情况,而车比雪夫大数定理则给出了更加普遍的结论.
车比雪夫大数定理 设ξ1,ξ2,…,ξn,…是相互独立的随机变量,它们的平均值E(ξi)和方差D(ξi)都存在,并且对每个i都有D(ξi)≤C(C是常数),则对于任意给定的正数ε,有
其中是前n个随机变量的算术平均值,即
在这个大数定理中,如果设每个随机变量ξi的平均值相同,立刻就可得到一个很有用的推论.
推论 设ξ1,ξ2,…,ξn,…是相互独立的随机变量,并且对每个i都有E(ξi)=a和D(ξi)≤C(C是常数),则对任意给定的正数ε,有
车比雪夫大数定理的这个推论为测量理论中经常使用的算术平均值法则提供了理论依据.例如欲测量某个金属球的质量,在同样的条件下重复测量n次后,得到的x1,x2,…,xn是不完全一样的.这些测量结果可以看作是n个相互独立的随机变量ξ1,ξ2,…,ξn,它们具有相同的平均值,即E(ξ1)=E(ξ2)=…=E(ξn).由上面的推论可以知道,当测量次数n充分大时,我们取n次测量数据的算术平均值作为金属球的质量a的近似值,即
所产生的误差是很小的.
在大数定理的基础上,统计学借助大数规律取得了很大的进步.原来供统计分析的大量资料基本上是经过普查或全面统计报表收集上来的,有了大数规律,可以不必通过收集全部总体的资料,就能够符合要求,可以节省大量的人力、物力和资金.例如,在总体单位的随机抽样中,应用概率的分布规律,抽选调查单位或试验样品;在对总体的指标进行估计或推断时,可应用抽样的指标判断总体的指标;等等.
大数定理揭示了大量随机变量的和在一定条件下具有稳定性这个非常重要的规律,可是它并没有涉及随机变量和的分布.在概率统计中还有一类重要的定理,它指出在什么条件下,大量独立随机变量的和是以正态分布为极限的.这一类定理通称为中心极限定理.由于正态分布在数理统计中具有特别重要的地位和作用,因此中心极限定理的重要性也就不言而喻了.对此有兴趣的读者可进一步阅读关于概率论和数理统计的大学教科书.
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。