对于二维随机变量(X,Y),E(X),E(Y)只反映了X和Y各自的平均值,而D(X), D(Y)只反映了X和Y各自离开平均值的偏离程度,它们对X和Y之间的相互联系没有提供任何信息.在实际问题中,每对随机变量往往相互影响、相互联系.例如,人的年龄与身高、某种产品的产量与价格等.随机变量的这种相互联系称为相关关系,它们也是一类重要的数字特征,本节讨论这方面的数字特征——协方差与相关系数.
定义4.3.1 设(X,Y)是二维随机变量,若
E{[X-E(X)][Y-E(Y)]}
存在,则称它为随机变量X与Y的协方差(covariance),记为cov(X,Y),即
cov(X,Y)=E{[X-E(X)][Y-E(Y)]} (4-9)
协方差具有下列性质:
(1)cov(X,Y)=cov(Y,X),cov(X,X)=D(X);
(2)cov(X,Y)=E(XY)-E(X)E(Y);
证 cov(X,Y)=E[XY-XE(Y)-YE(X)+E(X)E(Y)]
=E(XY)-E(X)E(Y)-E(X)E(Y)+E(X)E(Y)
=E(XY)-E(X)E(Y).
这是求协方差比较实用的公式.
(3)D(X±Y)=D(X)+D(Y)±2cov(X,Y);
证 D(X±Y)=E[(X±Y)-E(X±Y)]2=E[(X-E(X))±(Y-E(Y))]2=D(X)+D(Y)±2cov(X,Y).
(推广)
(4)cov(a X,b Y)=abcov(X,Y),a,b是常数;
(5)cov(X1+X2,Y)=cov(X1,Y)+cov(X2,Y);
(6)若X与Y相互独立,则cov(X,Y)=0.
例4.3.1 (X,Y)的分布律为:
(X′,Y′)的分布律为:
试比较(X,Y)与(X′,Y′)之间的联系程度.
解 计算可得E(X)=E(Y)=E(X′)=E(Y′)=0,
而cov(X,Y)=E(XY)=1·1·+(-1)·(-1)·=1,
cov(X′,Y′)=E(X′·Y′)=10·10·+(-10)·(-10)·=100.
由此并不能说出(X′,Y′)比(X,Y)间的联系紧密.
事实上10X=X′,10Y=Y′,他们之间的联系是一样的,之所以出现这种情况,是因为协方差的大小还受随机变量本身所取数值的影响.为了清除这种影响,我们引进一个无量纲的量——相关系数的概念,来衡量随机变量间的联系的密切程度.
定义4.3.2 设cov(X,Y)存在,且D(X),D(Y)不为零,则称为随机变量X与Y的相关系数(correlationcoefficient)或标准协方差(standardcovariance),记为ρXY(或ρ),即
令X*=即X*,Y*分别是X与Y的标准化随机变量.由协方差的定义,可知
ρXY=cov(X*,Y*).
下面讨论相关系数ρXY到底表示X与Y之间的什么联系.为此,给出下面定理.
定理4.3.1 设ρ是X与Y的相关系数,则
(1)ρ≤1;(ρ>0称正相关,ρ<0称负相关)
(2)ρ=1的充要条件是:存在常数a,b,使
P{Y=a X+b}=1.
即X与Y以概率1存在线性关系.
该定理的证明略去,有兴趣的读者可以参考有关文献.
由定理4.3.1告诉我们,相关系数ρXY描述了随机变量X、Y的线性相关程度,ρ愈接近1,则X与Y之间愈接近线性关系.当ρ=1时,X与Y存在线性关系.特别,如果ρXY=0,则X与Y不相关,说明X与Y没有线性关系.
我们应当注意,两个随机变量X与Y之间的不相关性和相互独立性一般是不同的.诚然,由相关系数的定义可以推得当变量X,Y相互独立时,必有ρXY=0,即X,Y不相关;但反之不然.独立性是比不相关更为严格的条件.独立性反映X与Y之间不存在任何关系,而不相关只是就线性关系而言的,即使X与Y不相关,它们之间也还是可能存在函数关系的.
例4.3.2 设随机变量Z服从[-π,π]上的均匀分布,又X=sin Z,Y=cos Z,试求相关系数ρXY.
此题相关系数ρXY=0,即随机变量X与Y不相关,但却有X2+Y2=1,从而X与Y不相互独立.
例4.3.3 设(X,Y)服从二维正态分布,它的概率密度为
这说明二维正态随机变量(X,Y)的概率密度中的参数ρ就是X和Y的相关系数,从而二维正态随机变量的分布完全可由X,Y的各自数学期望、方差以及它们的相关系数所确定.
由上一章讨论可知,若(X,Y)服从二维正态随机变量时,那么X,Y相互独立的充要条件是ρ=0,即X,Y不相关.因此,对于二维正态随机变量(X,Y)来说,X,Y不相关与X,Y相互独立是等价的.
例4.3.4 设二维随机变量(X,Y)的概率密度函数为
试证明随机变量X与Y不相关,也不相互独立.
因而cov(X,Y)=0,ρXY=0,即X与Y不相关.
又由于
所以X与Y不相互独立.
例4.3.5 设随机变量(X,Y)在以(0,0),(0,1),(1,0)为顶点的三角形区域上服从均匀分布,求cov(X,Y),ρXY.
解 (X,Y)的概率密度为
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。