在许多实际问题中,响应变量Y并不仅仅随着一个解释变量的变化而变化,有时候往往会同时有两个或两个以上的变量对Y有影响,所以,要研究响应变量Y与多个解释变量X1,X2,…,Xp的相关关系,这便是多元线性回归问题。
(一)数学模型
和一元线性回归类似,认为解释变量X1,X2,…Xp是确定性变量,是可观测到或可控制的。并且还存在观测不到的随机误差对响应变量Y产生的影响,从数学角度来考虑,由于解释变量X1,X2,…,Xp,变化而引起响应变量Y的变化的部分记为j=0,1,…,p是未知参数;另一部分是由其他随机因素引起的,记为ε,即
为了研究响应变量与解释变量之间的关系,我们收集(Y,X1,X2,…,Xp)的n组独立的样本可将上述模型写成如下形式:
其中,p和σ为未知参数。
称的回归函数,它在平均意义下表明了Y随X1,X2,…,Xp变化而变化的一种统计规律性。
和一元线性回归模型一样,通常我们假定随机误差εi是相互独立的,且服从正态分布。显然,在这样的假定下yi也是相互独立,服从正态分布。由样本求出未知参数βj,j=0,1,…,p的点估计,分别记为,称
为p元线性回归方程。
为了方便起见,多元回归分析常采用矩阵形式来表示,并通过矩阵的性质来研究参数及其性质。记:
则模型(9.5.2)可以改写为
其中Y为观测值向量,β为未知参数向量,ε为随机误差向量,X为结构矩阵,In为单位矩阵,显然,由假设知,
(二)参数估计及参数的性质
仍采用最小二乘法对模型参数进行估计。记,
使达到极小的为模型参数的最小二乘估计。根据微积分原理,为满足下面方程的解,
整理后,得如下的正规方程组,
由矩阵表示正规方程组(9.5.5)得,
当存在时,β的最小二乘估计为
记:,称为拟合值向量,其中,是幂等对称矩阵。记为残差向量,
为残差平方和。
定理9.5.1 在模型(9.5.3)的假设下,
证明见附录9.7。这个定理也给出了参数σ2的无偏估计s2,即
(三)回归方程的显著性检验
由观侧值计算而得次的回归方程是不是有意义?郎响应变量是不是随解释变量的变化而变化,对于这个问题我们可以通过假设检验来回答,
如果拒绝假设H0,说明至少有一个β≠0,或者说,至少有一个xj与y存在着线性相关关系。对于上述问题的检验统计量,仍采用平方和分解的方法给出;记,
由最小二乘估计的正规方程组(9.5.5)知:SST=SSR+SSE。
定理9.5.2 在模型(9.5.3)的假设下,当假设H0为真时,
证明见附录9.7。
对于给定的显著水平α,假设检验H0的拒绝域为:。检验可归纳为表9.5.1所示的方差分析表。
表9.5.1 方差分析表
(四)回归系数的显著性检验
经显著性检验得出回归方程有意义后,我们只能说明其中至少有一个解释变量xj与响应变量y有线性关系,但究竟是哪些解释变量xj与响应变量y有线性关系?本节通过对回归系数的显著性检验来说明即要检验
根据定理9.5.1,记cij为矩阵的第i行,第j列的元素,i,j=0,1,…p。则。
对于上面的假设,检验统计量为
其中:。
当H0j为真时,统计量(9.5.9)服从t分布,。对于给定的显著水平α,假设检验的拒绝域为
(五}多元线性回归的Excel实现
例9.5.1 硝基蒽醌中某物质的含量y与三个变量有关,X1为亚硫酸的量(克),X2为大苏打的量(克),X3为反应时间(小时),为提高某物质的含量y,需建立Y关于X1,X2,X3的三元线性回归方程,为此进行了八个条件下各两次试验。记录资料如表9.5.2所示。
表9.5.2 硝基蒽醌试验数据
注:资料来自《回归分析》(周纪芗编著)。
(1)在Excel工作表中输人上面的数据今点击主菜单中“工具”⇒点击下拉式菜单中“数据分析”就会出现一个“数据分析”的框⇒点击菜单中“回归”⇒点击“确定”,出现“回归”框。
(2)在“Y值输入区域”中标定已经输入的响应变量数据的位置,在“X值输入区域”中标定已经输入的解释变量数据的位置(注意:数据按“列”输入,第一行为X1,X2,X3,Y,标定数据时,连带第一行一起标定)⇒“置信度”中输入置信度的值⇒在“标志”框内打勾⇒选定输出结果的位置今点击“确定”。
(3)在指定位置输出相应的方差分析表和回归系数输出结果,例9.5.1的输出结果如表9.5.3所示。
表9.5.3 方差分析表
Excel输出结果的意义解释如下,
(1)方差分析表中,给出了假设的F检验。方差分析表中“MS”列中,相应于“误差”的值即为模型参数σ2的估计,即s2=3.563。
(2)这里“Coef.”列中,对应于X1行出现的值为β1的估计,即;对应于X2行出现的值为β2的估计,即;对应于X3行出现的值为β3的估计,即户。
(3)“t Stat”列中,对应于X1行出现的值为假设检验H01:β1=0的t统计量的值,即t1=4.981,查表可得,t0.025(12)=2.1788,因此,拒绝假设H01;对应于X2行出现的值为假设检验H02:β2=0的t统计量的值,即,因此,接受假设H02;对应于X3行出现的值为假设检验H03:β3=0的t统计量的值,即,因此,拒绝假设H03。
(4)“Lower 95%”和“Upper 95%”列中,对应于“Intercept”行所输出的68.143和79.312分别是由t分布所构造的参数β0区间估计的下限和上限;对应于X1行所输出的0.661和1.689分别是由t分布所构造的参数β1区间估计的下限和上限;对应于X2行所输出的-0.595和1.461分别是由t分布所构造的参数β2区间估计的下限和上限;对应于X3行所输出的0.447和2.504分别是由t分布所构造的参数β3区间估计的下限和上限。
从对回归方程的显著性检验可以看出,回归方程是显著的。从回归系数的显著性检验来看,接受假设H02:β2=0,即认为X2对Y没有影响。因此,要删除X2,重新建立回归方程,结果如表9.5.4所示。
表9.5.4 方差分析表
请读者自己写出回归方程,以及对回归模型的显著性检验的结论。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。