(一)单因素方差分析
我们从下面一个实例来看方差分析的基本思想。
例9.1.1 为了比较三种不同类型日光灯管的寿命(小时),现从每种类型日光灯管中抽取8个,总共24个日光灯管进行老化试验,下面是经老化试验后测算得出的各个日光灯管的寿命(小时):
表9.1.1 日光灯管的寿命(小时)
试判断三种不同类型日光灯管的寿命是不是存在差异?
从表9.1.1中我们可以看到,不仅不同类型日光灯的寿命不同,即使是同一类型的日光灯管的寿命也不尽相同。引起日光灯管寿命不同的原因有两个方面:其一,由于日光灯类型不同,而引起寿命不同。其二,同一种类型日光灯管,由于其他随机因素的影响,也使其寿命不同。即从理论上来看,如果没有其他因素的影响,相同类型的日光灯管的寿命应该是相同的(理论均值),实际所得到的日光灯管的寿命与理论均值的偏差即为随机误差,通常假设其服从正态分布。方差分析的目的就是推断引起日光灯管寿命差异的原因究竟是来自随机误差还是确实是由于日光灯类型的不同而引起的。
在方差分析中,通常把研究对象的特征值,即所考察的试验(或调查)结果(如例9.1.1中的日光灯管的寿命)称为试验指标。对试验指标产生影响的原因称为因素(factor),因素中各个不同状态称为水平,如例9.1.1中,“日光灯管类型”即为因素,日光灯管三个不同的类型,即为三个水平。单因素方差分析仅考虑有一个因素A对试验指标的影响。假如因素A有r个水平,分别为,在第
水平下进行了
次独立观测,所得到的试验指标的数据集如表9.1.2所示。
表9.1.2 单因素方差分析数据
由于我们通常假设随机误差是正态的,水平下的试验结果
,可以看成是来自第i个正态总体
的样本观测值,其中
均为未知参数,且每个总体
相互独立。因此,可写成如下的数学模型:
其中是第i个总体的均值(理论均值),
是相应的随机误差。
方差分析就是要比较因素A的r个水平下试验指标理论均值的差异,问题可归结为比较这r个总体的均值差异。即检验假设:
为了便于讨论,我们将模型(9.1.1)改写成如下的模型:
其中。称为总平均;
表示水平
下的试验指标的平均值与总平均的差异,习惯上将其称为水平
的效应。
显然,当且仅当,因此假设(9.1.2)改写为
如果(9.1.4)中的H0被拒绝,则说明因素A的各水平的效应之间有显著的差异,即认为因素A的变化对试验指标有影响;否则,认为因素A的变化对试验指标并没有影响,数据的差异来自于随机误差。
假设H0的检验统计量是在平方和分解的基础上导出的。我们先给出如下的记号:
平方和分解的主要思想是把数据总的差异(用总离差平方和来表示),分解为两个部分:一部分是由于因素A引起的差异,即效应平方和
,
另一部分则由随机误差所引起的差异,即误差平方和,
经计算可以得平方和分解公式:
ST=SE+SA
由于是来自第i个总体(
水平下)的样本均值,可以作为第i个总体(
水平下)均值
的点估计。显然,如果
之间的差异越大,那么,这些样本均值
之间的差异也就越大。平方和
恰好表示了这种差异的大小,因此,
也称为因素A的组间平方和。
对于固定的i,观测值是来自同一个正态总体的样本,因此这些观测值之间的差异是来自随机误差,
描述了第i个总体(
水平下)由于随机误差而导致的差异的大小,将r组这样的差异相加就得到
,因此,也称
为组内平方和。
由下面定理可以给出假设的检验统计量及其分布(证明参见附录9.7)。
定理9.1.1 如上述定义,在模型(9.1.3)的假设下,我们有,
(1)。
(2)。进一步,假设H0为真,那么
。
(3)假设H0为真,则独立,并且,
从上面的定理可以看出,无论假设H0是不是真,,而对于
,只有当假设H0为真的时候
。如果假设H0不真,则显然
,因此,如果由样本计算得出的F值比较大的话,即落在
的区间内,那么判定假设
不成立。对于给定的显著水平α,用
表示F分布的上侧α分位数,这个假设检验的拒绝域为
,即当由观测值得到的F值落在拒绝域内,则意味着应该拒绝原假设H0,认为各总体均值(各个水平下)有差异,或称为因素A显著。通常将上述的计算归纳成表9.1.3,称为方差分析表,
表9.1.3 单因素方差分析表
作为一个副产品,我们从定理9.1.1可以得出模型中参数的无偏估计为
,
(二)单因素方差分析的Excel处理
如果要在Excel上进行统计分析(如t检验,相关系数计算,回归分析,方差分析等等),要先加载“数据分析”模块,方法如下:
在Excel工作表中点击主菜单中“工具”⇒点击下拉式菜单中“加载宏”就会出现一个“加载宏”的框⇒在“分析工具库”前的框内打勾⇒点击“确定”。这时候再点击下拉式菜单“工具(T)”会新出现“数据分析”,然后就可以进行统计分析了。
以下面的例子来说明用Excel进行方差分析的步骤。
例9.1.2 保险公司某一险种在四个不同地区一年的索赔的情况记录如表9.1.4所示。试判断在四个不同地区索赔额有无显著差异?
表9.1.4 保险索赔记录
(1)在Excel工作表中输入上面的数据⇒点击主菜单中“工具”⇒点击下拉式菜单中“数据分析”就会出现一个“数据分析”的框⇒点击菜单中“方差分析:单因素方差分析”⇒点击“确定”,出现“方差分析:单因素方差分析”框。
(2)在“输入区域”中标定你已经输入的数据的位置⇒根据你输入数据分组情况(是按行分或按列分)确定分组⇒选定方差分析中F检验的显著水平⇒选定输出结果的位置⇒点击“确定”。
(3)在你指定的区域中出现如下方差分析表:
根据Excel给出的方差分析表,假设H0是否显著的判别有两种方法。
(1)根据前面所给出的F检验查出的值,给出拒绝域W=
,然后根据观测值计算得出的F值,判断F的值是不是落在拒绝域内,给出拒绝或接受假设H0的结论。Excel计算结果的方差分析表中在Fcrit这列下面给出了W=
这个值。在这个例子中,
,因此拒绝域为W={F≥3.0491}。由观测值计算得F=2.1658,所以没有落在拒绝域内,因此接受假设H0,即各地区索赔额无显著差异。
(2)根据方差分析表中给出的P-value(P_值)来判断。如果P_值小于给定的显著水平,那么拒绝假设H0。本例中,在给定的显著水平α=0.05的情况下,由于P_=0.1208>0.05,所以接受假设H0。
(三)均值的多重比较
如果F检验的结论是拒绝H0,则说明因素A的r个水平效应有显著差异,也就是说r个均值之间有显著差异。但是这并不意味着所有均值间都存在差异,这时我们还需要对每一对作一对一的比较,即多重比较。基本假设为
类似上一节两个正态总体均值t检验,但有一点区别,即估计方差时采用全部数据,给出检验统计量为
当H0为真时,,因此,这个检验的拒绝域
,如果观测值得到的
落在拒绝域内,则拒绝假设H0,反之则接受假设H0。
例9.1.3 例9.1.1(续) 判断三种不同类型日光灯管寿命是不是存在差异,即检验假设
如果拒绝上面的零假设,给出各组均值的两两比较。
解 由例9.1.1给出的数据,利用公式(9.1.6)和(9.1.7),计算得出如下方差分析表(或直接利用Excel中的单因素方差分析):
如果给定的显著水平为α=0.05,由于,所以拒绝假设H0,认为三种不同类型日光灯管寿命之间存在差异,接下来我们要分析,是
之间有差异呢?还是
之间有差异?这就需要均值的多重比较。
(1)检验假设
由于,因此接受H0,认为
无差异。
(2)检验假设
由于,因此拒绝H0,认为
差异显著。
(3)检验假设
由于,因此拒绝H0,认为
差异显著。
(四)方差分析的前提
从前面给出的方差分析模型可以看出,要进行方差分析必须具备三个基本的条件:
(1)独立性。数据是来自r个独立总体的简单随机样本。
(2)正态性。r个独立总体均为正态总体。
(3)方差齐性。r个正态总体的方差是相同的,即满足假设
因此,在进行方差分析之前,必须判别模型的三个前提条件是不是满足。
方差分析和其他统计推断一样,样本的独立性对方差分析是非常重要的,在实际应用中会经常遇到非随机样本的情况,这时使用方差分析得出的结论不可靠。因此,在安排试验或采集数据的过程中,一定要注意样本的独立性向题,
方差齐性对于方差分析是非常重要的,因此在方差分析之前往往要进行方差齐性的诊断,即检验假设(9.1.10),通常可采用Barlett检验。
记
当假设(9.1.10)成立时,统计量
方差齐性检验也可采用如下的经验准则:当最大样本标准差不超过最小样本标准差的两倍时,即,方差分析F检验结果近似正确。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。