首页 理论教育 两个变量的相关系数怎么求

两个变量的相关系数怎么求

时间:2023-03-17 理论教育 版权反馈
【摘要】:第五节 相关分析一、相关分析前面所述回归分析的特点是从自变量推算因变量,这是一种函数关系的分析。而相关分析则表示两个变量的密切程度,是双方向的。在直线相关条件下,说明两变量之间关系密切程度的统计分析指标是相关系数;在曲线相关条件下,说明两变量之间关系密切程度的统计分析指标是相关指数。
相关分析_统计学教程

第五节 相关分析

一、相关分析

前面所述回归分析的特点是从自变量推算因变量,这是一种函数关系的分析。但是对于社会经济现象的分析,有时并不着重从一个变量或几个变量来估计另外的变量,而在于要了解变量之间相关关系的密切程度。测定变量之间相关关系密切程度的方法叫相关分析。

回归分析和相关分析是有区别的。以单相关为例,回归分析表示一个变量随着另一个变量而变化,它是单方向的。一般x是给定的值作为自变量,y是假设具有正态分布的随机变量,作为因变量。反过来,如果以y作为给定的自变量,以x作为因变量,我们也可以应用最小平方法求得一条回归线,但是与根据x求y的回归线是不同的(各观察点全部落在一条直线上的特例除外)。而相关分析则表示两个变量的密切程度,是双方向的。虽然x和y仍然是配对的变量,但两者都是假设为具有正态分布的随机变量,所要测量的是x与y之间关系的密切程度。在直线相关条件下,说明两变量之间关系密切程度的统计分析指标是相关系数;在曲线相关条件下,说明两变量之间关系密切程度的统计分析指标是相关指数。

二、相关系数的测定

在回归方程的显著性检验中曾讲到,若x,y间的线性相关程度越大,回归方程的代表性越高,即回归方程的显著性与x,y间的相关程度是一致的。对回归方程的显著性检验我们用剩余变差Q加以判断,因此我们仍可用Q反映x,y间相关关系的密切程度。由前面的分析可知:

img618

回归方程的显著性取决于U在总变差Lyy中的比重,Q越小,U的比重越大,故我们用该比值来刻画x,y间线性相关关系的密切程度。

img619

r2称为判定系数(Determination coefficient),r称为相关系数。由于U≤Lyy,可推出r2≤1,从而|r|≤1,即r的取值范围是-1≤r≤1。r值的意义是:若0<r≤1,则x与y之间为正相关,若-1≤r<0,则x与y之间为负相关。|r|越接近0,x与y之间的直线相关程度越小,r=0,则x与y毫无线性相关关系;反之,|r|越接近1,x与y之间的线性相关程度越高,|r|=1,则x与y间存在着确定的线性函数关系。但是,需要注意的是,r只表示x与y直线相关密切程度。当|r|很小甚至等于0时,并不一定表示x与y之间就不存在其他类型的关系,如曲线相关关系。

例7-8:根据例7-1的资料计算相关系数。

已知:Lxx=2346656422 Lyy=2297.25

   Lxy=2094756.51

img620

r=0.092表明钢铁工业固定资产投资总额与钢产量之间线性正相关程度较高。

三、相关系数的显著性检验及抽样误差

若观察资料不是来自总体的全部单位,而只是全及总体中的一部分,则所求得的相关系数,叫样本相关系数。根据抽样原理,样本相关系数r与总体相关系数ρ之间存在一定的误差,因此,当r较大时,我们不能足以否定总体相关系数ρ=0,故需对样本相关系数r进行显著性检验。要确定r显著或不显著的具体界限,就需要了解r的分布。根据概率论证明,r的分布只与总体相关系数ρ及抽样数目n有关。当样本是取自正态总体情况下,随着n的增大,r也趋于正态分布,而且n越大,分布越集中,特别是当ρ接近零时,这种趋势更为明显。在n=10和n=50时,r的分布如图7-11和图7-12所示,这些曲线在n>4时才是单峰曲线,且当ρ=0时,r的期望E(r)=0。

img621

图7-11 r分布曲线图(n=50)

img622

图7-12 r分布曲线图(n=10)

从图7-11中可以看出,当n较小时,由于r分布的离散程度较大,可能根据样本观测值算出的r的绝对值不是很小的数值,例如,r=0.8,但样本所来自的总体的相关系数却可以等于零,说明样本太小求出的高度相关是靠不住的,需要对r进行显著性检验,否则就要用大样本计算,即n≥30。

对r进行显著性检验,是用t检验法来检验H0:ρ=0这一统计假设是否可信。检验统计量为:

img623

式中m为估计方程式的参数数目。若为常数项不为0的直线方程,则m=2。

现对例7-8计算出的r进行t检验。设α=5%,问根据这个n=10的小样本计算出的r=0.902,是否可信为来自ρ=0的总体。

img624

根据自由度n-2=10-2=8,α=0.05,查t分布表得临界值t0.05(8)=2.306。因5.91>2.306,故认为原假设“ρ=0”不可信,即r=0.902表现显著线性相关。

对于相关系数抽样误差的测定,一般常用的方法是计算相关系数的抽样误差σr,其计算公式为:

img625

但总体相关系数ρ是未知的,可用样本相关系数代替,其计算公式为:

img626

σr的意义是,若r的分布是正态分布,则可以95%的把握程度求出1.96σr,据以计算置信区间:

r-1.96σr≤ρ≤r+1.96σr

例7-9:根据例7-1的资料,以95%的把握程度估计总体相关系数ρ的置信区间。

已知:n=10,m=2,r=0.902,则:

img627

0.902-1.96×0.066≤ρ≤0.902+1.96×0.066

       0.77≤ρ≤1.03

这里用1.96σr计算的ρ的置信区间,其上限超出1是不合理的。这是由于所取样本较小,r的分布不服从正态分布而是偏态分布所致。这时ρ的置信区间可写为:

在95%的概率保证下,0.77≤ρ≤1。

四、相关系数陷阱

相关系数的计算是数学方法的应用,按公式计算,可以用于任何成对变量的资料,求出相关系数来。因此,在计算相关系数之前,必须通过定性分析从理论上和实践上判明所拟研究的两个变量之间是否存在着实质性的联系,这是应用任何数学方法分析联系关系的前提。

在相关系数的具体应用中,往往会出现:在定性分析中两个变量之间表现为高度相关关系,而求得的相关系数的绝对值却很小;或者通常认为不应该存在线性相关关系的两个变量,它们之间的相关系数的绝对值却很大,这种现象称为相关系数陷阱。相关系数陷阱存在的原因为:

1.异常值的影响。相关系数对异常值的反应非常敏感,异常值的出现可能会产生一种虚幻的相关性,因此,计算相关系数时应剔除异常值。

2.变量的样本方差过小。两个高度线性相关的变量因其变化平稳导致它们的样本方差很小,从而求得的相关系数接近于零。这种情况下,样本相关系数将不能准确反映变量之间的相关程度。

3.其他变量的媒介作用。两个经济变量之间的高度相关关系,有时并不是由这两个经济变量本身的内在联系所决定的,它完全可能由另外一个变量的媒介作用而形成高度相关。例如,在时序数列中,如果两个经济变量都有很强的上升或下降的趋势,即均受时间因素的同方向变动影响,会造成相关系数偏高,甚至在没有什么联系的变量间,也会因有相似的长期趋势而求出相当高的相关系数。在这种情况下,最好剔除时间因素的影响后再求相关系数。

五、等级相关系数的测定及检验

以上计算相关系数的方法是在假定两个变量分布已知的情况下进行的,当两变量分布未知时,测定它们之间的相关程度需运用等级相关(Rank regression)。等级相关是把x、y两数列分别按数量大小顺序分为1,2,…,n个等级,再测定x等级、y等级间的相关程度的一种方法。等级相关又称顺位相关法。由于等级相关立足于观察值的等级(或顺序),而不依存于x与y之间某种特定的分布,因而称非参数方法。若以rs表示等级相关系数(Rank regression coefficient),则:

img628

式中:n为等级的项数;d=x等级-y等级;∑d2为所有差量平方之和。

当x、y划分的等级在数量上、顺序上完全一致时,∑d2=0,则rs=1,表明两种等级完全正相关,当x、y划分的等级顺序完全相反时,则rs=-1。例如,x1,x2,x3秩序为1,2,3,y1,y2,y3秩序为3,2,1,则:∑d2=(1-3)2+(2-2)2+(3-1)2=8,img629。这是两种极端的情况,一般的情况有:-1≤rs≤1。

例7-10:某厂对10名工人进行了一项测验,旨在估量他们的工作表现和产量间的相关关系,其资料及等级相关系数rs的计算见表7-6。

表7-6   等级相关系数计算表

img630

将工作表现评分及平均日产量改为等级的方法是:最低定1等,最高定10等。遇有数值相同时,取原有等级平均数。例如,工作表现评分中有两位工人均为85分,原有等级为5等、6等,其平均数为5.5,即作为此两个分数的等级。

由上表中资料算得:

img631

表明工作表现和日产量水平有较强的正相关关系。

对等级相关系数rs的显著性检验,在n≤30时,其临界值可由附录二《斯皮尔曼秩相关系数临界值表》中就α和n查得。在n>30时,可用检验统计量:

img632

上述统计量渐近服从自由度为n-2的t分布,故可利用t检验来检验rs的显著性。

六、复相关系数和偏相关系数的测定及检验

用于描述一元线性相关关系密切程度的相关系数也称简单相关系数,若度量多元线性相关关系各变量间的密切程度,则需计算复相关系数和偏相关系数。

复相关系数描述因变量与所有自变量相关关系的密切程度。样本复相关系数的计算公式为:

img633

对样本复相关系数R需要进行显著性检验,即检验H0:ρ=0是否可信,检验统计量为:

img634

式中:p为自变量个数。当F>Fα(n-p-1)时拒绝H0,说明所有自变量与因变量间的相关关系是显著的。

在复相关的情况下,变量之间的相关关系是很复杂的,任意两个变量之间都可能存在相关关系,如例7-4,高炉煤气燃烧量、锅炉负荷分别与蒸汽纯耗标煤具有相关关系,同时高炉煤气燃烧量与锅炉负荷之间也具有相关关系,这种任意两个变量之间相关关系密切程度的度量通过计算偏相关系数完成。

以例7-4的资料为例,由于在相关分析中,各个变量之间并不区分自变量和因变量,因此可将所有变量都记作x,依次为x1,x2,x3,因此,r12·3表示排除了x3的影响后,x1与x2对x3的偏相关系数,其计算公式为:

img635

式中:r12,r13,r23分别是x1,x2,x3,之间两两的简单相关系数。对于更多变量的情况,计算偏相关系数的公式可依此类推。

根据样本资料计算出的偏相关系数,检验方法和过程类似于简单相关系数,以检验三个变量中两个变量的偏相关系数为例,即检验H0:ρ12·3=0是否可信,检验统计量为:

img636

式中:m为回归方程参数个数,若为常数项不为0的二元线性方程,则m=3。

现对例7-4的资料计算复相关系数和偏相关系数并进行显著性检验(α=0.05)。

首先计算复相关系数。

根据已知条件及例7-5计算结果:

img637

下面进行显著性检验:

img638

查F分布表,Fα(p,n-p-1)=F0.05(2,9)=4.26

由于F=8>4.26,故认为原假设ρ=0不可信,R=0.80表现显著性相关,即蒸汽纯耗标煤与高炉煤气燃烧量和锅炉负荷之间具有显著的相关关系。

然后计算偏相关系数。由于此例资料存在因果关系,故遵循回归分析,依次用y,x1,x2表示蒸汽纯耗标煤、高炉煤气燃烧量、锅炉负荷。计算两两变量间的简单相关系数如下:

img639

同理,ry1=-0.79,ry2=-0.45。则:

蒸汽纯耗标煤与高炉煤气燃烧量之间的偏相关系数为:

img640

蒸汽纯耗标煤与锅炉负荷之间的偏相关系数为:

img641

进一步对ry1·2与ry2·1进行检验,计算得到:

img642

查表得tα/2(n-m)=t0.025(9)=±2.262,由于ty1=-3.3<-2.262,-2.262<ty2=0.58<2.262,因此,蒸汽纯耗标煤与高炉煤气燃烧量之间的偏相关系数显著,与锅炉负荷之间的偏相关系数不显著。

七、相关指数的测定

曲线相关关系密切程度的度量需要通过计算相关指数来完成,这里仅根据例7-7的资料简单介绍样本相关指数的计算。

相关指数

img643

0.977接近于1,从样本情况看回归效果不错。

相关与回归是从不同角度对同一问题的分析,所以关系很密切。在分析问题时,两种方法一般要结合运用,比如,利用相关系(指)数判断变量之间的密切程度,据以确定是否使用考虑中的自变量,这种对自变量的筛选在复回归中可以大大减少计算工作量,也可保证回归分析的可靠性。在计算上,两种方法的联系表现在:一方面如上述先求出回归方程和估计标准误差,利用估计标准误差计算相关系(指)数;另一方面是反过来,先求出相关系(指)数,再利用相关系(指)数求回归方程。这方面的内容,读者可参阅有关书籍。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈