6.1.1 主成分分析的直观描述
每当学年要结束时,老师总是要将学生的成绩做一番评估。那么如何评估呢?以小学为例,学校的科目一般有:语文、数学、自然、社会科学等。一般情况下每个学生的成绩是将各科成绩分别加起来。但是有时会根据各门课程的重要程度,将其乘以一个对应的权重系数a1,a2,a3,a4后再求和,就变成
a1×语文+a2×数学+a3×自然+a4×社会科学
这样获得的就是加权过后总和的成绩。确定加权系数的过程可看作主成分分析的过程。根据上式所得的各学生的加权成绩之和就可看作主成分(Principal Component)。这些权重系数a1,a2,a3,a4需要根据某些特定要求来确定。
主成分分析的主要目的是希望用较少的、能解释大部分原始数据方差的几个新变量去解释原始数据中的大部分变量,亦即期望能将我们手中许多相关性很高的变量转化成彼此互相独立的新变量——也就是所谓的主成分,而这几个主成分也就成为我们用来解释原始数据的综合性指标。
那么为什么要用解释方差的能力来寻找主成分呢?就上例而言,考试的目的是希望能评估出学生的学习成效及能力程度,当我们只看学生的数学程度如何时,当然可借助一份良好的试卷来测验出学生的程度分布状况,可是怎样才是一份良好的试卷呢?当然是程度好的学生所考的成绩较高,而程度差的学生成绩就较低,亦即一份好的试卷应能真正反映学生程度差异的真实分布状况。就统计上而言,即此份考卷的分数能产生的方差越大,越能反映学生彼此程度的差异。而在上例中,我们不想个别处理四科成绩所反映的各科能力状况,却想做一个学生总体性学习状况比较时,便要用所谓的PCA来找出主成分。主成分即由原来四科成绩的线性组合而成的新变量,亦即一个可以帮助我们看出学生们在此四科的学习状况的综合性指标。在此情况下,我们当然也希望此指标亦能真正显出学生程度的差异,所以此指标产生的方差越大,对学生学习成绩差异的解释能力就越大。
例如,甲、乙、丙三人的三科成绩见表6-2。
表6-2 甲、乙、丙三人的三科成绩
对于情形(Ⅰ),用总分或仅用数学成绩反映的信息完全一样(信息无丢失);但对于情形(Ⅱ),用总分则把信息丢得精光,因为这三个学生的区别不在于总分而是各有特长。
可见,用总分有时可以反映原分数表的情况,保留原有信息,有时则把信息丢尽,不能反映原来的情况和差异。一般来说,我们希望能用一个或少数几个综合指标(分数)来代替原来分数表进行统计分析,而且希望新的综合指标能够尽可能地保留原有信息。
假设原始变量有p个:X1,X2,…,Xp,若采用m(m≤p)个新的、能尽可能表示原始数据方差信息的综合变量来替代原始变量,会起到简化问题、并最大程度保留原始数据信息的作用。寻求这m个新变量的过程就是主成分分析,这m个主成分可表示成原始变量的线性组合
PC(1),PC(2),…,PC(m)分别叫做第1主成分,第2主成分,…,第m主成分,在选择加权系数a11,…,a1p时要能使PC(1)得到最大解释方差的能力,亦即使PC(1)能得到最大的方差,而PC(2)则是能对原始数据中尚未被PC(1)解释的差异部分拥有最大解释能力……以次类推,我们可以找出m个主成分(m≤p)。
通常要求m个新变量(主成分)对原始数据的方差解释能力达到80%以上。除此之外,p个主成分(简称PC)与原来的p个变量X的最大差别是:原来的变量群中,多为彼此相关联的变量,而经过线性转换后所产生的p个主成分PC则为彼此独立的新变量。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。