6.4.2 PLSR的算法步骤
为方便起见,我们将自变量和目标(因)变量当作X块和Y块来叙述,并暂且省略表示PLS成分序号的下标h。PLSR算法涉及的变量、矢量、矩阵的符号与解释见表6-10。
表6-10 PLSR原理的符号及说明
续表
(1)取目标变量(因变量)Y的任一列(通常取第一列)作为其得分的初值
(2)在自变量X块,让因变量Y块的得分s和自变量X进行回归,参照式(6-31)可求得s与X间线性关系的权重系数
(3)归一化
(4)参照式(6-33)求X块的得分
(5)在因变量Y块,用自变量X块的得分向量t和因变量Y进行回归,参照式(6-31)可求得t与Y之间线性关系的权重向量
(6)归一化
(7)参照式(6-33)求Y块的得分
(8)如第(4)步的t和前次迭代的t差别小于某一个阈值,转第(9)步;否则,转第(2)步。
(9)计算X块的载荷
(10)计算Y块的载荷
(11)计算标量r用以内部关联t和s
(12)求残差矩阵并赋给X和Y
这样,完成了一个PLS成分,再回到第(1)步进行下一个主成分的求解,直到完成所需要的成分。一般是计算全部自变量数目(p个)的PLS,在抽取特征变量时再根据需要删去后面的成分。
在上述迭代中,因为有第(12)步X和Y阵用其残差代入,故可使得每次求得的th之间相互正交。
图6-16为PLS分解过程中涉及的变量及其示意图。
总结上述PLS分解过程,可简要地描述如下。
(1)X和Y自身变量间的关系
图6-16 PLS分解过程的相关变量与矩阵大小示意
式中,E、F为回归的残差;T、S分别为自变量X与因变量Y的得分矩阵;V与U分别为自变量X和因变量Y矩阵对应的特征向量矩阵。
(2)X和Y的PLS成分之间的关系为
式中,e为Y的得分矩阵S与X的得分矩阵T之间进行回归的残差;R是由各个主成分得分s与t之间的回归系数构成的对角阵,其大小等于最终确定的PLS成分个数。
(3)X和Y的混合关系为
(4)PLS回归分别在X和Y中提取各自的主成分(在PLSR中称为潜变量——latent variable,LV),它们分别为自变量与因变量的线性组合。两者满足以下条件:①两组PLS潜变量分别最大程度地承载自变量和因变量的方差信息;②两组PLS成分之间的协方差最大化。
PLS对每一维度的计算采用迭代的方法进行,在迭代计算中互相利用对方的信息,每一次迭代不断根据X、Y的剩余信息(即其残差矩阵)调整t、s进行第二轮的PLS成分提取,直到残余矩阵中的元素绝对值近似为零,回归式的精度满足要求,则算法停止。此时得到的t、s能同时最大程度地表达X和Y的方差,由此得到的回归系数矩阵R能更好反映X和Y的相关关系。这样建立的X与Y之间的回归模型可滤去自变量X和因变量Y的数据矩阵存在的噪声、消除同类变量间的相关性,而且使得两类变量间的相关性最大,因此PLS回归模型要比PCR能更好地体现X与Y之间的关系。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。