首页 理论教育 主成分因素分析法

主成分因素分析法

时间:2023-03-28 理论教育 版权反馈
【摘要】:它是因素分析中最常使用的方法。主成分数据分析中,以较少成分解释原始变量变异量较大的部分。在因素分析中,有两个重要指针: 一为“共同性”,二为“特征值”。将每个共同因素的特征值除以总题数,为此共同因素可以解释的变异量,主成分因素分析的目的之一,即在因素结构的简单化,希望以最少的共同因素,能对总变异量作最大的解释,因而抽取出的因素愈少愈好,但抽取因素的累积解释的变异量愈大愈好。
主成分因素分析法_劳动力市场分割与农民工就业实证研究

主成分分析(Principal Component Analysis,PCA)是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。假定有n个样本,每个样本共有p个变量描述,这样就构成了一个n×p阶的数据矩阵:

如何从这么多变量的数据中抓住事物的内在规律性呢? 要解决这一问题,如果要在p维空间中加以考察,这是很困难的,因此需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。那么,这些综合指标(即新变量)应如何选取呢? 显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。

如果记原来的变量指标为x1,x2,…,xp,它们的综合指标——新变量指标为z1,z2,…,zm(m≤p),则:

在上式中,系数lij由下列原则来决定:

(1)zi与zj(i≠j; i,j=1,2,…,m)相互无关;

(2)z1是x1,x2,…,xp的一切线性组合中方差最大者; z2是与z1不相关的x1,x2,…,xp的所有线性组合中方差最大者; 依此类推,zm是与z1,z2,…,zm-1都不相关的x1,x2,…,xp的所有线性组合中方差最大者。

这样决定的新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xp的第一,第二,…,第m主成分。其中,z1在总方差中占的比例最大,z2,z3,…,zm的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。

从以上分析可以看出,找主成分就是确定原来变量xj(j=1, 2,…,p)在诸主成分zi(i=1,2,…,m)上的载荷lij(i=1,2,…,m; j=1,2,…,p)。从数学上容易知道,它们分别是x1,x2,…,xp的相关矩阵的m个较大的特征值所对应的特征向量。

主成分因素分析法,目的是在多变量系统中,把多个很难解释而彼此有关的变量,转化成少数有概念化意义而彼此独立性大的因素,从而分析多个因素的关系。它是因素分析中最常使用的方法。

主成分数据分析中,以较少成分解释原始变量变异量较大的部分。成分变异量通常用“特征值”表示。因素分析是一种潜在结构分析法,其模式理论中,假定每个指针(外在变量或称题项)均由两部分所构成,一为“共同因素”,一为“唯一因素”。共同因素的数目会比指针数(原始变量数)还少,而每个指针或原始变量皆有一个唯一因素,亦即一份量表共有n个题项数,则会有n个唯一因素。至于所有共同因素间彼此的关系,可能有相关或可能皆没有相关。在直交转轴状态下,所有的共同因素间彼此没有相关; 在斜交转轴情况下,所有的共同因素间彼此就有相关。

因素分析的理想情况,在于个别因素负荷量(所谓的因素负荷量,是因素结构中原始变量与因素分析时抽取出共同因素的相关)不是很大就是很小,这样每个变量才能与较少的共同因素产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则唯一因素彼此间或与共同因素间就不能有关联存在。

在因素分析中,有两个重要指针: 一为“共同性”,二为“特征值”。所谓共同性,就是每个变量在每个共同因素的负荷量的平方总和(一横列中所有因素负荷量的平方和),也就是个别变量可以被共同因素解释的变异量百分比,这个值是个别变量与共同因素间多元相关的平方。从共同性的大小可以判断这个原始变量与共同因素之间的关系程度。而各变量的唯一因素大小就是1减掉该变量共同性的值(在主成分分析中,有多少个原始变量便有多少个成分,所以共同性会等于1,没有唯一因素)。所谓特征值,是每个变量在某一共同因素的因素负荷量的平方总和(一直行所有因素负荷量的平方和)。

在因素分析的共同因素抽取中,特征值最大的共同因素会最先被抽取,其次是次大者,最后抽取出的共同因素的特征值最小,通常会接近0(在主成分分析中,有几个题项,便有几个成分,因而特征值的总和刚好等于变量的总数)。将每个共同因素的特征值除以总题数,为此共同因素可以解释的变异量,主成分因素分析的目的之一,即在因素结构的简单化,希望以最少的共同因素,能对总变异量作最大的解释,因而抽取出的因素愈少愈好,但抽取因素的累积解释的变异量愈大愈好。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈