6.4.5 PLSR中潜变量个数的确定
建立PLS回归模型的主要目的是为了良好地预测未知样本的因变量,由式(6-71)可知,PLS潜变量个数a的大小会影响到预测值Y的准确性。a值过小,不能完全剔除原始数据中的噪声和原始变量间的相关性;而a值过大,又会将不必要的噪声引入PLS成分,这两种情况都会影响模型的预测性能。因此,在X和Y间有着良好线性关系的情况下,通常存在一个最佳PLS主成分个数a,使得在这个主成分个数下,PLS模型具有最佳的预测效果。
常用的确定最佳a值的方法如下。
(1)根据Y的迭代残差确定最佳a值
从PLSR原理可知,在迭代过程中
式中,Eh=Eh-1-;E0=X。
其中Y的残差矢量长度‖Fh‖随着h的增加而减少,当它变化不大时,就可截断,如图6-17(a)所示,抽取成分数目为4或5,即a=4或a=5。
图6-17 PLS成分截取示意
(2)根据模型交叉检验(Cross Validation)结果确定最佳a值
应用留K法(Leave-K-out)计算预报残差平方和PRESS(Prediction residual error sum of squares)。在训练样本集中留下K个样本,用其余的训练样本建模,用模型预测留下的K个样本,计算它们的残差平方和。所有训练样本都被轮流作为这K个检验样本,并依次计算K个检验样本的残差平方和,最后总加起来,就是PRESS。当取K为1,即留一法。定义PRESS如下
式中,为被留下的第i个样本的第j个因变量的模型值;yij为该样本的第j个因变量的实际值。
比较每一PLS成分个数下的PRESS变化趋势,当PRESS降低到某一阈值不再随PLS成分数降低,或者以后的PLS成分数下对应的PRESS开始增加时,取这一临界点的PLS成分数作为最佳a值。如图6-17(b)所示情况,取PLS成分数目为4或5,即a=4或a=5。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。