4.6.2 自变量的筛选
在实际问题中,经常需要对多个变量同时进行统计分析。变量个数多了,就不易看清变量之间的相互关系,会给统计分析带来困难。因此需要对变量进行分析、评估,目的是:(1)删除那些信息含量比较低或不重要的变量;(2)删除那些彼此间信息相互重叠的变量;(3)提高样本数与变量的比率,这种比率一般应大于或等于5。
具体评价变量重要程度及其相互间相关程度的方法有以下几种。
1.变量的零值测试
变量不应过于接近零,否则将使变量的作用偏小。
2.变量的方差测试
当某一变量的标准方差为零时(即该变量为一常数),对于不同的样本此变量为同一值(即为常数),其在回归模型的构建中不起作用。一般来说,标准方差越大的变量,其作用也越大;标准方差越小的变量,其作用也越小。因此,应删除标准方差接近0的变量。
3.自变量的独立性(相关性)测试
若自变量间线性相关,则说明自变量所表征的信息有重复。根据变量间的相关系数可判断变量间的相关程度。只有基于独立性强的自变量才有可能得到好的回归方程。
不妨设一门槛值(如0.90)作为变量取舍的界限。当两自变量相关系数大于此值时,应剔除其一。原则上应做到:(1)剔除物理意义欠明确者;(2)剔除计算步骤较复杂者;(3)剔除与因变量相关系数较小者。
例如,根据例4-3中自变量间的相关系数,就可以去除第四个自变量,因为这个变量与第二个变量强相关(r>0.95)。去除第三个变量后得到的回归方程(4-21)性能仍旧良好——因为变量3与变量1也有较强的相关性(r>0.85)。
自变量间严重的线性相关会致使所建立的回归模型不稳定。通常用条件值(Condition number)来判断自变量的共线性程度:将P个变量增广为P+1(被增广的矢量的所有分量均为1),由此可得(P+1)×(P+1)的相关矩阵。采用对角化方法可得该相关矩阵的一组特征值。此特征值中的极大值与极小值之比的平方根即为条件值。条件值的范围为1~∞。条件值越大,变量间存在共线性的可能性也越大,一般认为当条件值大于30时,则认为变量间存在严重共线性。
在MATLAB下输入命令
>>cond(X)
可以得到矩阵X的条件数,以此判断矩阵X中的变量是否存在强的共线性。
例如,对于例4-3和例4-4中的自变量矩阵x,我们可以用上面的命令算得其条件数=20.58,说明该例中自变量矩阵x存在较强的共线性。
此外,可以计算变量间的相关系数矩阵,对于相关矩阵中相关系数大于某特定值(如0.90)的变量,可以剔除其中之一,或根据主成分分析结果确定变量间的共线性程度。
4.对自变量和因变量间的相关性进行评价
当自变量与因变量间有强的相关性时,进行回归分析才有意义。典型相关分析(CCA)最便于分析自变量(组)和因变量间的整体相关性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。