二、双变量描述统计
前面所讨论的单变量描述统计是基础工作。实际的研究假设都是描述两个或多个变量之间的关系,数据分析中离不开同时分析两个或多个变量,判别一个变量变化时另一个变量是否也随之变化。本节介绍双变量描述统计(bivariate descriptive statistics),分析两个变量间的关联。由于分析方法视变量的尺度不同而异,下面按定类定序和定距定比两类情况加以讨论。
(一)定类和定序变量的关联分析
1.关联表
关联表(crosstabulation,crosstab)是以表格的形式显示两变量各种属性值组合的频数或频率。它是最简便而有效的一种双变量关联分析方法。表5-3为关联表的一般形式。构造此表有两点约定俗成的做法:第一,两变量如分别为自变量和因变量,则各列表示自变量,各行表示因变量;第二,变量属性值排序,自变量的左端一列最低,右端一列最高。因变量的底层一行最低,第一行最高。当然不按此方式排序,并非不可,但用此习惯表达法,便于解释和比较,有些统计程序也是按此规范设计。
表5-3 定序变量频数关联表
关联表中各格数字为因变量属性值出现的频数,两行、两列的表称为2×2表,表4-6则称为3×3表,显示定序变量间的关联。第一行表示,自变量属性值为“低”时因变量属性值为“高”的样本出现频次为21,自变量值分别为中、高时,因变量为中的频数相应为41和20。因变量值为高时的样本合计为80,自变量值为低时的样本合计为138。样本总数为300。构造关联表时通常先选定行,2×3表示2行3列,它与3×2表不是一回事。
表5-3所示的关联表各要素均为频数,由于各行、列样本的总数不同,相互之间无法进行比较,难以判别变量之间的关系,为此,将各要素的频数变成百分数,即将频数除以相应行列的总数。如果考察因变量如何受自变量的影响,则应用各列的汇总数算出频率关联表。表5-3转换成百分比后即得表5-4,表中15.2%即由相应频数21除以该列总数138而得。
表5-4 定序变量频率关联表
从表中可以看出自变量的不同属性值引起因变量属性值组成的变化。自变量属性值为中时,因变量的高属性值比重最大。
关联表可用于直观地辨别自变量对因变量的影响。例如表5-5表示某商店采用A,B两种销售策略后销售业绩得到改善的商品占全部商品的百分数,比较同一行中两列数字之差,第一行表明策略B使业绩改善的商品数比策略A增加了6.8个百分点,第二行相应地表明业绩未改善的商品数降低了6.8个百分点,说明销售策略B更有效。
表5-5 关联表举例
差异百分点(%d)可用来判别变量关联的强弱。一般说来,差异百分点小时(如%d=1~2)表示弱关联,如%d>10时则有实质差别。不过这有时也取决于样本规模,如样本量大,分析的是全国范围的就业人数,一个百分点就涉及百万人数,如系小样本,则须有大的差异百分点才能表明存在强相关。
2.变量关联的度量
关联度量指度量变量间关联的强度或密切程度。最强的关联是完全相关,一个变量发生某种变化时另一变量随之发生某种确定的变化。完全相关在管理研究中并不多见,多数是变量间有共同变化的趋势。对于定序、定比和定距数据,两变量关联可以是正、负或非线性相关,正相关表示变量数值朝同方向变化,同增或者同减。如果一个变量增加另一个减少则称为负相关。非线性相关则是两变量相互变化趋势不一致。如U型非线性相关,自变量的最低值和最高值都相应于因变量的高值,在这种情况下,自变量的低值区属于负相关,而高值区属于正相关。完全正相关的度量值为1,完全负相关的度量值为-1。两变量关联越密切,相关值越接近1或-1,越接近零则关联程度越弱。
(1)定类数据
管理研究中,许多变量属性值属于定类尺度(nominal scale),如性别、职业、行业等。这类变量最适合的关联度量指标是λ(lambda)。λ度量变量间的相关程度,与其他指标一样,是基于误差消减比例(proportional reduction of error,PRE)的思路,即引入另一个变量属性的数据后,某个变量猜测值的误差会减小一定的比例。通过设想例子可说明λ的含义。表5-6给出按两定类变量(nominal variable)性别和就业统计得出的属性值。总体有1100人已就业,900人未就业,人们判断此样本的就业状况是就总体而言,表中数据显示多数人已就业,因此猜测某人是否就业时总是猜“已就业”,这种猜测比猜“未就业”的误差要小,但仍存在误差,2000次猜测中有900次失误。
表5-6 定类变量数据分析
如在掌握已就业和未就业总数后又了解其性别,这时猜测策略就会改变,如遇到男性则猜测其“已就业”,如遇到女性则猜测其“未就业”。于是误差从900减少到300,其中男性有100人,女性200人。这意味着在掌握分析对象的性别后,失误减少600人。
λ表示误差降低额占总体误差的比例。该例中,λ=600/900=0.67,此值即代表性别和就业两变量的相关程度。λ的最大值为1。
如果性别和就业两变量相互独立,则意味着男性和女性的就业分布相同,这种情况下,即使知道性别信息也不会导致误差减小,即λ=0;如果所有男性均就业而所有女性均未就业,在掌握性别信息后猜测误差可以减少到零,此时λ=1,代表完全相关。
(2)定序数据
管理研究中常遇到定序变量之间的关联分析。如对于Fortune500家企业排序结果,分析这种次序与这些企业的其他变量如职工人数、职工人均收入、销售额排序是否一致或相关程度如何;又如企业招收新职工,考试成绩排序和应聘人员实际能力排序以及主管面试后的排序等关系如何。与上述λ的设置思路一样,这类定序变量间关联度量指标的设置,也是基于误差比例消减的思路,不同的是,对于定类数据λ推测精确值,而这里推测的是属性排列顺序,推测两变量的排序是正相关或负相关以及其相关程度。
①全序
对定序变量关联的度量有多种方法,选择时首先要考虑所分析的数据是否完全排序(fully ordered)。如果每个分析对象都有单独的序号,没有重复的情况,则称为全序。表5-7表示完全排序数列。全序的变量关联度常用γ(gamma)来表示,取值在1和-1之间,其计算式为
式中,Ns——同序对数目;
Nd——异序对数目。
表5-7 定序变量数据分析
同序对指分析对象甲在两个变量的属性排序上都高于(低于)乙,异序对则指分析对象甲按一个变量排序高于(低于)乙,而按另一变量排序则低于(高于)乙。若分析对象总数为N,则一共可组成对级序。表5-7分析对象为5,则应有10对级序,其中AC,AD,AE,BC,BD,BE,CD,CE为同序对,Ns=8;AB,DE为异序对,Nd=2。于是,γ==0.6,自变量和因变量序次正相关。
②偏序
一般情况下并非每个分析对象都能排定单独的序次,而是若干分析对象都归结为某个序次,或者说出现重复序号,这种数列称为偏序(partially ordered)。表5-8表示工人专业培训时间和废品率两变量之间的关联,两变量属性都采用定序尺度,短、中、长和低、中、高,表中各元素项指分析对象出现的频数。两变量级序关联总的趋势可以直观看出,接受培训时间越长的工人,低废品率的概率越高。
表5-8 偏序变量数据分析
对于这种偏序的变量间关联度量,现以表5-8的数据为例来说明。元素项中的频数即分析对象数目为20,即有20个对象在排序中都同处于某个序次,在自变量序列中处于1,因变量序列中也处于1;如80一项,自变量序次处于3,因变量序次处于1。计算同序对时,(20)和第二行的(90)两个元素项形成同序对,因为按因变量两者是“低—中”次序,按自变量是“短—中”次序,只是同序对并非一对,而有20×90=1800对。元素项(80)和(60)形成的是异序对,两者因变量是“低—中”次序,而自变量则相反是“长—中”次序,有80×60=4800对。从算法的角度说,表中要素(1,1)表示培训时间短而废品率低的20名分析对象,其同序对要从右面的子矩阵中去找,即有(2,2),(2,3),(3,2)和(3,3)四项,这些项和(1,1)项按两变量属性排序都是同序的。如选要素(1,3)和(1,1)比较,按废品率两项的序次均为1,属同一序次,而按培训时间序次,则一项为3,另一项为1,故(1,3),(1,1)不能作为同序对。元素项(2,2)的矩阵的同序对只有(3,3)一项,故同序对数目为90×10。异序对则从左面的子矩阵中去找,计算思路与同序对计算相同,例如要素(1,3)的80,其异序对为要素(2,1),(2,2),(3,1),(3,2),这些要素按两个变量属性排序,都是一个变量的序次增大而另一个变量的序次减小。
现算出全部同、异序对数目Ns和Nd。
本例的同序对数量为
20×(90+30+50+10)+60×(30+10)+40×(50+10)+90×(10)
=3600+2400+2400+900=9300
而异序对数量为
γ为负表示两变量负相关,-0.64说明所考察的各对级序中,异序对比同序对多出的数量占总对数的64%。
表5-9 同等对分析
γ系数只考虑同序对和异序对,而不考虑同等对。所谓同等对,表示两分析对象的两对序次完全相等。这有三种情况:一种是自变量的同等对,这类同等对数量标以Tx;第二种情况是因变量的同等对,总数为Ty;第三种是两分析对象按自、因变量两者的序次都完全相等,其总数为Txy。以表5-9为例,企业招聘有六人应试,按考试成绩排序,C分数最高应列第1名,然而D,E的分数相等,这时通常采用对应序次的平均值,即D,E都取2.5。主管判断中视A,B,F同等,则三人均取5级。按此表有自变量同等对Tx=1(D,E),因变量同等对Ty=3(A,B)(A,F)(B,F),两变量同等对Txy=0。
森马氏dyx系数和γ系数的原理一样,只是将Ty计入算式内:
以表5-8为例计算dyx时,Ty等于表中的左列每个要素项乘以它右面的同行各要素项之和,再加总。得
因变量分为低、中、高三级,元素项(1,1),(1,2),(1,3)两两之间形成同等对,故共有20×(40+80)对加上40×80对。元素项(2,1),(2,2),(2,3)及(3,1),(3,2),(3,3)则类似计算。算出
γ和dyx的计算式的含义是,分母代表由一个变量序对推测另一个变量序对的最大可能误差,分子代表减少的误差,Ns和Nd相差愈大,减少的误差愈多。dyx系数适用范围亦有限,因为没有把Tx,Txy的同等对数考虑进去。在统计工具内还有别的度量方法,如Kendall系数tau-a,tau-b,tau-c等,不过,由于γ,dyx有表达误差减少幅度的含义,使用较为普遍。
(二)定距和定比变量的关联分析
因、自变量均为定距或定比尺度的情况下,回归分析和相关分析是用来描述两者关联的最常用技术。定距、定比变量的属性值一般都是连续值,较之定类、定序变量的离散值而言,对变量属性的描述更为细致,蕴含的信息量更丰富,同时,具有后者所不具备的可加性和可比性。所以,分析这类变量间的关联,不仅可以分析两变量间关系的有无、大小和方向,还可以分析两者属性值关联的具体形态,具有预测功能。
1.回归分析(regression analysis)
y=f(x)是两变量间关联的最一般表达式,意即y值可能从x的变异中得到解释,说得更直接些,x引起y的变异或x值决定y值。回归分析便是确立y和x之间函数具体形式的方法,回归分析视关联的复杂程度而有不同方法,最简单但也最常用的便是线性回归(linear regression)。
线性回归用图5-2来说明,点图上标出四个具有x,y属性值的数据。x=1时y=1,等等。表示两者关联可用y=x来描述,此方程称作回归方程(regression equation),四个点都处在同条直线上,此直线称作回归直线。
图5-2 线性回归
线性回归模型是描述变异关联的有力工具。回归直线提供了关联的图形表达方式,回归方程则以回归系数来概括两者的关联程度,并为统计推断提供了推测值。根据回归方程描述两变量关联的正确程度,方程可用来推测已有数据之外的其他关联值,如本例中,若x=3.5,则可推出y=3.5。
实际情况不会像图5-2这么简单。图5-3表示中、小城市人口和犯罪率关联的例子,图中每个点表示一个城市的数据,犯罪率(y)和人口数(x)相关。数据表明,当x值增加,y一般也增加,但不如图5-2那么清晰。不可能作个直线通过图中的所有散点。然而,总可以得出一条直线近似地表达两者的关系。
一元线性回归直线方程为y=a+bx,x为零时,y=a,而b为直线斜率。如已知a,b值,则可估计出任何x值相应的y值,图5-2的直线方程为y=x,即a=1,b=1。一元线性回归分析技术便是用来确定最接近散点分布的直线方程,这种方程有描述性和推测性价值,既是x,y两变量关联的数学描述,又可在已有值的条件下得出推测值,图5-3的例中,则用可已知人数来推测犯罪率。
图5-3 回归偏差分析
回归直线的斜率b亦可称为回归系数,表示自变量x每变化1单位值时,因变量y会变化多少。图5-3的示例中,回归直线方程可表述为y=0.005x,如一个城市比另一城市多3万人口,则人口较多的城市预计犯罪率要高出0.005×3=0.015。斜率b的符号则表示两变量关联的方向。如为正,则表示正相关,自变量的值增加,因变量也增加;如为负,则表示负相关,自变量增加,因变量的值减少。
回归方程包含了许多有用信息,它可以给出自变量为任一数值时y的期望值,对两者的关联形态作出定量的描述。但是,回归系数并不适合度量两者的关联强度,因为此系数受变量测量单位的影响。以图5-3为例,此回归系数甚小,为0.005。如果自变量人口的单位不以万计,而以100万计,则y=0.5x,回归系数从0.005增大到0.5,但这并不意味着两者的关联强度有任何变化。所以,回归系数表示因变量随自变量变化而产生的关联变化量,但并不表明关联强度。描述自、因变量关联强度还要靠相关分析。
2.相关分析(Correlation analysis)
对于任何反映两变量属性值的统计数据集合,研究者都可以画出类似图5-3的一条回归直线,且斜率不为零。尤其是应用计算机统计分析软件,输入样本统计数据后,总可以输出回归直线方程并给出图形,于是,研究者可以说自、因变量间存在这种关联。然而,这条直线并不一定贴近此数据集合的各点,也不能说明此直线关联符合统计显著性。所给出的直线可能是拟合得最好的一种,但数据点总是分散的,直线不可能通过或接近所有数据点。关联强度实际上就是回归直线与数据点贴近的程度,数据与回归直线离得愈远,则两变量关联强度愈弱,愈近,则关联强度愈强,如所有数据点都落在此直线上,则两变量之间呈现完全线性关系。
数据点往往数以百计,直观上很难确切地描述回归直线与这些数据点的贴近程度,所以两变量关联的强度需要统计学工具的帮助。皮尔逊积矩相关系数r(Pearson product-moment correlation)是应用最为广泛的度量变量间关联强度的统计量,简称为相关系数。任何回归直线都可以算出其相关系数,表征此直线与数据点的贴近程度。相关系数取值从0到±1,前者表示无相关,后者表示完全相关。
相关系数的概念是从回归方程因变量的偏差分析中导出的。
利用回归方程推断出的变量值y一般用表示,称作估计值=a+bx。式中x是自变量的给定值,a,b则要根据实际数据辨识出来,辨识的原则是使在已知x条件下,实际的y值和估计值的差别最小,通常采用最小二乘法。y的所有实际值和估计值之差称作不可解释的偏差(unexplained variation),即使求出估计值,这部分误差还始终存在。
回归方程能反映的偏差,相应地称作可解释偏差(explained varition),它是总偏差减去不可解释偏差。总偏差如何确定?需要一个基准。前述定类数据分析以众数为基准,如表5-6的示例,即以“男性”为基准,而对于定距或定比变量,则常以平均数为基准。因而,总偏差指y的观察值yi与y的平均值之差,即(图5-3),其组成为
即总偏差=可解释偏差+不可解释偏差。而可解释偏差的平方和除以总偏差的平方和则得出类似前述的反映消除误差比例的指标,称之为“决定系数”(coefficient of determination),用r2表示。由于
故有
即相关系数,如r=0.7,决定系数r2=0.49表示有约一半的偏差可通过x值和回归方程来解释,也可理解成两变量双方共同变异的程度。
前已指出,回归系数和回归直线的相关系数的涵义不同。回归系数(直线斜率)表示因变量随自变量变化而发生多少变化,相关系数表示因变量的偏差中有多少可由自变量的变化来解释。现实中,完全可能出现直线斜率大而相关系数低的情况,这意味着自变量每变化1单位时,因变量变化甚多,但回归直线并不贴近各数据点。反之,也可能出现直线斜率小而相关系数大的情况,因变量随自变量的变化而变动不大,但回归直线却能很好贴近数据点。
回归直线的斜率取决于变量间客观存在的关联和所选择的变量度量单位,它的大小一般不涉及研究者的偏好,然而,研究者一般希望相关系数大,即关联强度高,直线的拟合好,很贴近数据点。
图5-4列举了六种类型的回归和相关分析的结果:(a)直线斜率小的正而弱相关;(b)直线斜率大的正而弱相关;(c)直线斜率大的负而弱相关;(d)直线斜率小的正而强相关;(e)直线斜率大的负而强相关;(f)自、因变量不相关,即不论自变量如何变化,因变量保持不变。
后面推论统计中将要讨论,相关系数还有个重要用途,即作为统计显著性检验的指标。两变量的相关系数一旦计算出来,就可以查相应的检验表,看此值是高于或低于统计显著的置信区间。
研究人员有时用相关分析来筛选变量。它不用构造数学模型来描述两变量间的定量关系,只观察此自变量对因变量变化的解释程度,如发现有些自变量解释偏差的作用甚小,可删去,不必讨论,解释偏差作用大的就成为关键变量。为此,采用“相关矩阵”(correlation matrix)作为分析工具,起到综合各散点图的作用,单个散点图当然也可显示两变量的相关强度,如分析的变量多于两个,则散点图往往很难或无法绘制。相关矩阵的表述可参阅表5-14。
图5-4 六类回归和相关分析结果
实证研究中x和y并不一定呈线性关系,回归方程可以是非线性方程,如幂函数、指数函数形式等。一般说来非线性方程较之线性方程可以更精确地描述观测数据。回归分析的目标除了定量描述已有的观测数据外,还要进行推断,从自变量推测因变量数值。一个复杂的非线性方程可以很好地拟合各个观测点,然而再精确的拟合也未必能完全保证新观测点一定落在此曲线上,即拟合曲线未必能代表两变量间的总体关系。非线性回归方程是一种选择,但现实中更多地采用线性方程。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。