6.1.2 主成分分析中的一些基本概念
主成分分析需要用到统计学中的一些概念,有关概念在第2章里有过介绍,但它们是针对(随机)变量进行的,在本章有些概念要以矩阵形式出现和应用。
1.两变量的协方差(Covariance)
对两变量进行n次测量,得到n组数据(xi,yi),则两变量的协方差cov(x,y)定义为式中,和分别是n个xi,yi的平均值。显然,cov(x,x)=,在统计学中称为变量x的方差,因此同一变量的协方差就是该变量的方差。
2.两变量间的相关系数(Correlation coefficient)
两变量的相关系数r(x,y)定义为两变量的协方差与其标准差之比
式中,Sx=为变量x的标准差。
3.协方差矩阵
对于方程(6-1)的原始数据矩阵X,每一列对应一个变量的n个量测值,任意两列之间可以按方程(6-6)计算两变量间的协方差cov(i,j),i=j时,cov(i,i)=,由这些两两变量间的协方差构成的矩阵称为协方差矩阵,记为Z。
显然在协方差矩阵中,对角元素是变量的方差,又由于cov(i,j)=cov(j,i),因此,协方差矩阵是对称矩阵。
对矩阵X的每一列作均值中心化处理(即将每个元素减去该列元素的均值)
则原始数据矩阵X变为每列均值为0的H矩阵
显然,原数据矩阵的协方差矩阵Z与H矩阵有如下关系
如果对原始矩阵的变量进行自标度化处理(即减去均值后再除以该列元素的标准方差),将各变量化为均值为零、方差为1的变量,处理后的变量记为,由其构成的数据矩阵记为,即
与Sj分别称为样本均值和样本方差。
记相关系数构成的矩阵为Rp×p,由方程(6-7)可知
R的对角元rjj=1(j=1,2,…,p),非对角元由对应变量间的相关系数构成,故相关矩阵R是一个p×p实对称矩阵:rij=rji。
协方差矩阵为
因此,对于自标度化处理后的数据矩阵,其协方差矩阵与相关系数矩阵是相等的,可以证明协方差矩阵Z或相关矩阵R是正定矩阵。这两个矩阵在较早的PCA方法中经常用到。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。