主成分分析与经济解释

时间：2023-03-19 理论教育版权反馈

【摘要】：怎样解决这个问题，主成分分析给了最好的办法。类似可得第三主成分、第四主成分等等。在实际问题中，p项指标的斜方差矩阵V往往是未知的。，Zp的方差依次递减，故各主成分综合原变量信息能力的大小是Z1≥Z2≥…主成分Z1，Z2，…，Zm的累积贡献率，即累积贡献率表示m个主成分提取了X1，X2，…

主成分法_中国区域竞争力研究

一、主成分法

主成分分析（Principal Component Analysis）是考察多个定量（数值）变量间相关性的一种多元统计方法。它是研究如何通过少数几个主分量（即原始变量的线性组合）来解释多变量的方差—协方差结构。具体地说，是导出少数几个主分量，使它们尽可能地保留原来变量的信息，且彼此间不相关。主成分分析常被用来寻找判断某种事物或现象的综合指标，并给综合指标所蕴藏的信息以恰当解释，以便更深刻地揭示事物内在的规律。

假设有n个样本，每个样本得p项指标（p＜n）。由于这p项指标之间往往具有相关关系，且每个样本各指标取值的单位和数量大小不同，使我们较难利用这p项指标的信息区别这n个样本。因此，如何从这p项指标中找出少数几个综合指标，使它们尽可能地多反映p项指标的信息，而且彼此之间不相关，这就成为一个重要问题。怎样解决这个问题，主成分分析给了最好的办法。

设X＝（X₁，X₂，…，X_P）是一个p维随机向量，且E（X）＝μ，协差阵D（X）＝V。考虑它的线性变换：

如果Z₁＝l′₁X满足：

①l′₁l₁＝1；

②Var（Z₁）＝

则称Z₁是X的所有线性组合中最能综合p个变量信息的一个特殊的线性组合。如果一个主成分不足以代表原p个变量所包含的信息，就考虑采用Z₂。为了最有效的代表原变量的信息，Z₁已有的信息就不需要出现在Z₂中，即满足Cov（Z₁，Z₂）＝0，于是求Z₂，使其满足

①l′₂l₂＝1；

②Var（Z₂）＝）

此时的Z₂称为第二主成分。类似可得第三主成分、第四主成分等等。

令X的协差阵V的特征值为λ₁≥λ₂≥…λ_p≥0，l₁，l₂，…，l_p为相应的单位特征向量，则X的第i个主成分为Z_i＝l′_iX（i＝1，2，…，p）

主成分分析的目的是为了减少变量的个数，故一般不用p个主成分，而用m ＜p个主成分。m的选取则要看累积贡献率。在实际问题中，p项指标的斜方差矩阵V往往是未知的。这时我们可用p项指标n个样本的样本协方差矩阵S代替V，计算S的非零特征根及其相对应的标准正交特征向量，从而得出样本主成分，并用样本主成分去作各种分析。

主成分的方差贡献率，即，这个值越大，表明Z_k综合X₁，X₂，…，X_p信息的能力就越强。其中Z₁在总方差中占的比重最大，其余综合变量Z₂，Z₃，…，Z_p的方差依次递减，故各主成分综合原变量信息能力的大小是Z₁≥Z₂≥…≥Z_m。