首页 理论教育 分类变量的参数估计方法

分类变量的参数估计方法

时间:2023-02-12 理论教育 版权反馈
【摘要】:,Xp的相关关系,这便是多元线性回归问题。和一元线性回归类似,认为解释变量X1,X2,…,Xp)的n组独立的样本可将上述模型写成如下形式:和一元线性回归模型一样,通常我们假定随机误差εi是相互独立的,且服从正态分布。方差分析表中“MS”列中,相应于“误差”的值即为模型参数σ2的估计,即s2=3.563。从回归系数的显著性检验来看,接受假设H02:β2=0,即认为X2对Y没有影响。

在许多实际问题中,响应变量Y并不仅仅随着一个解释变量的变化而变化,有时候往往会同时有两个或两个以上的变量对Y有影响,所以,要研究响应变量Y与多个解释变量X1X2,…,Xp的相关关系,这便是多元线性回归问题。

(一)数学模型

和一元线性回归类似,认为解释变量X1X2,…Xp是确定性变量,是可观测到或可控制的。并且还存在观测不到的随机误差对响应变量Y产生的影响,从数学角度来考虑,由于解释变量X1X2,…,Xp,变化而引起响应变量Y的变化的部分记为j=0,1,…,p是未知参数;另一部分是由其他随机因素引起的,记为ε,即

为了研究响应变量与解释变量之间的关系,我们收集(YX1X2,…,Xp)的n组独立的样本可将上述模型写成如下形式:

其中pσ为未知参数。

的回归函数,它在平均意义下表明了YX1X2,…,Xp变化而变化的一种统计规律性。

和一元线性回归模型一样,通常我们假定随机误差εi是相互独立的,且服从正态分布。显然,在这样的假定下yi也是相互独立,服从正态分布。由样本求出未知参数βjj=0,1,…,p的点估计,分别记为,称

p元线性回归方程。

为了方便起见,多元回归分析常采用矩阵形式来表示,并通过矩阵的性质来研究参数及其性质。记:

则模型(9.5.2)可以改写为

其中Y为观测值向量,β为未知参数向量,ε为随机误差向量,X为结构矩阵,In为单位矩阵,显然,由假设知,

(二)参数估计及参数的性质

仍采用最小二乘法对模型参数进行估计。记,

使达到极小的为模型参数的最小二乘估计。根据微积分原理,为满足下面方程的解,

整理后,得如下的正规方程组,

由矩阵表示正规方程组(9.5.5)得,

存在时,β的最小二乘估计为

记:,称为拟合值向量,其中,是幂等对称矩阵。记为残差向量,

为残差平方和。

定理9.5.1 在模型(9.5.3)的假设下,

证明见附录9.7。这个定理也给出了参数σ2的无偏估计s2,即

(三)回归方程的显著性检验

由观侧值计算而得次的回归方程是不是有意义?郎响应变量是不是随解释变量的变化而变化,对于这个问题我们可以通过假设检验来回答,

如果拒绝假设H0,说明至少有一个β≠0,或者说,至少有一个xjy存在着线性相关关系。对于上述问题的检验统计量,仍采用平方和分解的方法给出;记,

由最小二乘估计的正规方程组(9.5.5)知:SST=SSR+SSE。

定理9.5.2 在模型(9.5.3)的假设下,当假设H0为真时,

证明见附录9.7。

对于给定的显著水平α,假设检验H0的拒绝域为:。检验可归纳为表9.5.1所示的方差分析表。

表9.5.1 方差分析表

(四)回归系数的显著性检验

经显著性检验得出回归方程有意义后,我们只能说明其中至少有一个解释变量xj与响应变量y有线性关系,但究竟是哪些解释变量xj与响应变量y有线性关系?本节通过对回归系数的显著性检验来说明即要检验

根据定理9.5.1,记cij为矩阵的第i行,第j列的元素,ij=0,1,…p。则

对于上面的假设,检验统计量为

其中:

H0j为真时,统计量(9.5.9)服从t分布,。对于给定的显著水平α,假设检验的拒绝域为

(五}多元线性回归的Excel实现

例9.5.1 硝基蒽醌中某物质的含量y与三个变量有关,X1为亚硫酸的量(克),X2为大苏打的量(克),X3为反应时间(小时),为提高某物质的含量y,需建立Y关于X1X2X3的三元线性回归方程,为此进行了八个条件下各两次试验。记录资料如表9.5.2所示。

表9.5.2 硝基蒽醌试验数据

注:资料来自《回归分析》(周纪芗编著)。

(1)在Excel工作表中输人上面的数据今点击主菜单中“工具”⇒点击下拉式菜单中“数据分析”就会出现一个“数据分析”的框⇒点击菜单中“回归”⇒点击“确定”,出现“回归”框。

(2)在“Y值输入区域”中标定已经输入的响应变量数据的位置,在“X值输入区域”中标定已经输入的解释变量数据的位置(注意:数据按“列”输入,第一行为X1X2X3Y,标定数据时,连带第一行一起标定)⇒“置信度”中输入置信度的值⇒在“标志”框内打勾⇒选定输出结果的位置今点击“确定”。

(3)在指定位置输出相应的方差分析表和回归系数输出结果,例9.5.1的输出结果如表9.5.3所示。

表9.5.3 方差分析表

Excel输出结果的意义解释如下,

(1)方差分析表中,给出了假设F检验。方差分析表中“MS”列中,相应于“误差”的值即为模型参数σ2的估计,即s2=3.563。

(2)这里“Coef.”列中,对应于X1行出现的值为β1的估计,即;对应于X2行出现的值为β2的估计,即;对应于X3行出现的值为β3的估计,即户

(3)“t Stat”列中,对应于X1行出现的值为假设检验H01β1=0的t统计量的值,即t1=4.981,查表可得,t0.025(12)=2.1788,因此,拒绝假设H01;对应于X2行出现的值为假设检验H02β2=0的t统计量的值,即,因此,接受假设H02;对应于X3行出现的值为假设检验H03:β3=0的t统计量的值,即,因此,拒绝假设H03

(4)“Lower 95%”和“Upper 95%”列中,对应于“Intercept”行所输出的68.143和79.312分别是由t分布所构造的参数β0区间估计的下限和上限;对应于X1行所输出的0.661和1.689分别是由t分布所构造的参数β1区间估计的下限和上限;对应于X2行所输出的-0.595和1.461分别是由t分布所构造的参数β2区间估计的下限和上限;对应于X3行所输出的0.447和2.504分别是由t分布所构造的参数β3区间估计的下限和上限。

从对回归方程的显著性检验可以看出,回归方程是显著的。从回归系数的显著性检验来看,接受假设H02β2=0,即认为X2Y没有影响。因此,要删除X2,重新建立回归方程,结果如表9.5.4所示。

表9.5.4 方差分析表

请读者自己写出回归方程,以及对回归模型的显著性检验的结论。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈