一、主成分法
主成分分析(Principal Component Analysis)是考察多个定量(数值)变量间相关性的一种多元统计方法。它是研究如何通过少数几个主分量(即原始变量的线性组合)来解释多变量的方差—协方差结构。具体地说,是导出少数几个主分量,使它们尽可能地保留原来变量的信息,且彼此间不相关。主成分分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地揭示事物内在的规律。
假设有n个样本,每个样本得p项指标(p<n)。由于这p项指标之间往往具有相关关系,且每个样本各指标取值的单位和数量大小不同,使我们较难利用这p项指标的信息区别这n个样本。因此,如何从这p项指标中找出少数几个综合指标,使它们尽可能地多反映p项指标的信息,而且彼此之间不相关,这就成为一个重要问题。怎样解决这个问题,主成分分析给了最好的办法。
设X=(X1,X2,…,XP)是一个p维随机向量,且E(X)=μ,协差阵D(X)=V。考虑它的线性变换:
如果Z1=l′1X满足:
①l′1l1=1;
②Var(Z1)=
则称Z1是X的所有线性组合中最能综合p个变量信息的一个特殊的线性组合。如果一个主成分不足以代表原p个变量所包含的信息,就考虑采用Z2。为了最有效的代表原变量的信息,Z1已有的信息就不需要出现在Z2中,即满足Cov(Z1,Z2)=0,于是求Z2,使其满足
①l′2l2=1;
②Var(Z2)=)
此时的Z2称为第二主成分。类似可得第三主成分、第四主成分等等。
令X的协差阵V的特征值为λ1≥λ2≥…λp≥0,l1,l2,…,lp为相应的单位特征向量,则X的第i个主成分为Zi=l′iX(i=1,2,…,p)
主成分分析的目的是为了减少变量的个数,故一般不用p个主成分,而用m <p个主成分。m的选取则要看累积贡献率。在实际问题中,p项指标的斜方差矩阵V往往是未知的。这时我们可用p项指标n个样本的样本协方差矩阵S代替V,计算S的非零特征根及其相对应的标准正交特征向量,从而得出样本主成分,并用样本主成分去作各种分析。
主成分的方差贡献率,即,这个值越大,表明Zk综合X1,X2,…,Xp信息的能力就越强。其中Z1在总方差中占的比重最大,其余综合变量Z2,Z3,…,Zp的方差依次递减,故各主成分综合原变量信息能力的大小是Z1≥Z2≥…≥Zm。
主成分Z1,Z2,…,Zm的累积贡献率,即
累积贡献率表示m个主成分提取了X1,X2,…,Xp的多少信息。在应用时,取累计贡献率为85%或以上相对应的前m个主成分。在资料所含的变量个数、样品数及累积贡献率固定的前提下,m/p的比值越小,说明此资料用主成分分析越合适。
因子负荷量指第k个主成分Zk与原变量Xi的相关系数ρ(Zk,Xi),即因子负荷量是主成分分析经济解释中非常重要的解释依据,用因子负荷量在主成分中的绝对值大小来刻画该主成分的主要经济意义及其经济成因。
前m个主成分Z1,Z2,…,Zm对原变量Xi的贡献率Vi,即
它是Xi与Z1,Z2,…,Zm的全相关系数的平方和,表达了某个变量被提取了多少信息。
主成分分析步骤如下:
(1)对原p个指标的n×p个原始数据标准化。目的是为了消除变量间在数量级上或量纲上的不同而产生的影响,以使每个变量的平均值为0,方差为1。变换标准化的公式为
其中和σj分别是第j个变量的平均值和标准差。
(2)根据标准化矩阵求出协方差矩阵(与相关阵一样)。
(3)求出协方差矩阵的特征根λ和特征向量。
(4)确定主成分,结合专业知识对各主成分所蕴藏的信息给予恰当的解释,并利用它们来判断样品的特性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。