首页 理论教育 列联表和列联表分布

列联表和列联表分布

时间:2023-02-14 理论教育 版权反馈
【摘要】:表63是一个3×4列联表。则可以得到如表64所示列联表,称为n×m列联表。事实上,表63就是一个最简单的观测值分布表。为了能在相同的基数上进行比较,使列联表中的数据提供更多的信息,往往需要计算相应的百分比,即得到频率分布,如表65所示。一般的,将表64列联表中的每一个元素都除以元素总和,pij=nij/N,于是得到频率意义上的列联表,其中pi.=ni./N,p.j=n.j/N,见表68。从而,表64对应的期望频数分布见表69。

6.1.1 列联表

所谓列联表,就是两个或两个以上的变量进行交叉分类的频数分布表。

【例6‐1】 某大学对某项奖学金政策做调整,学校为了了解各年级学生对该项政策的态度,进行了抽样调查,其结果可以整理成一张频数分布表(见表6‐3)。

表6‐3 关于奖学金政策调整调查结果

上述问题有两个变量,行变量为态度变量,共有三个类别;列变量为年级变量,共有四个类别。表6‐3是一个3×4列联表。表中的每个数据,都反映着来自年级和态度两个方面的信息,例如大二年级学生赞成该项政策的有23人。学校管理层需要分析学生态度与年级之间是否有关联。

一般的,假设有两个分类变量A和B;A为行变量,共有n类;B为列变量,共有m类;属于AiBj的个体数目为nij(i=1,2,… ,n;j=1,2,… ,m)。则可以得到如表6‐4所示列联表,称为n×m列联表。

表6‐4 变量A和变量B的频数分布表

6.1.2 列联表的分布

列联表的分布包括两种:观测值的分布和期望值的分布。

6.1.2.1 观测值的分布

事实上,表6‐3就是一个最简单的观测值分布表。例如,这次调查赞成奖学金改革的178人中,大一、大二、大三和大四的学生数分别为55人、23人、69人和31人。大三的100个学生中赞成的有69人、无所谓的21人、反对的10人。这次调查总共有290人,其中大一至大四分别有80人、35人、100人和75人,持赞成态度的有178人、无所谓的有85人,持反对态度的有27人。观测值分布反映了数据的实际分布,但总体的基数不同时,谁多谁少并不适合于直接用分布中的频数对比。为了能在相同的基数上进行比较,使列联表中的数据提供更多的信息,往往需要计算相应的百分比,即得到频率分布,如表6‐5所示。

表6‐5 关于奖学金政策调整包含百分比的列联分布

表6‐5是在表6‐3的基础上增加了关于行百分比、列百分比和总百分比的数据。例如,赞成态度下的行百分比表示在总共赞成改革的178人中,大一学生占30.9% ,大二学生占12.9% ,大三学生占38.8% ,大四学生占17.4% ;列百分比表示参与调查的各年级学生中赞成该方案的比例,大一学生赞成的比例为68.75% ,大二赞成的比例为65.7% ,大三赞成的比例为69% ,而大四学生的赞成比例为41.3% 。

从频率分布表中,我们可以对所分析的对象有一些初步的认识,例如可以看出,在赞成该方案的学生中,大三学生的比例是最高的;参与调查的学生中,大一、大二、大三学生赞成的比例最高,而大四则是无所谓的比例最高。但是学生对该改革方案的态度与年级这两个变量之间是存在一定联系还是彼此独立,仅从百分比上很难得出结论,需要进一步分析。

6.1.2.2 期望值的分布

如果我们想进一步了解年级与态度之间是否存在着相互关系,就需要进行统计检验。

在前例,全部290个样本中,赞成的有178人,占到总数的61.4% 。如果我们假设各年级学生对该方案的看法是相同的,那么对大一学生来说,赞成该方案的人数应当为:80×61. 4% =49.1人,大二赞成该方案的人数为:35×61.4% =21.5人,大三赞成该方案的人数应当为:100×61.4% =61.4人,大四赞成该方案的人数应当为:75×61.4% =46.0人。由此可以计算出期望值的分布,见表6‐6。

表6‐6 期望值分布

我们还可以把观测值与期望值的频数分布列在同一张表中,得表6‐7。

表6‐7 观测值与期望值频数对比分布

如果年级变量与态度变量是没有关联的,也就是假设:

H0:年级变量与态度变量相互独立;

H1:年级变量与态度变量不独立。

这时表6‐7中观测值分布与期望值分布应当非常接近;反之,如果不同年级学生对该改革方案的态度是有差异的,那么表6‐7中观测值和期望值就会相差比较大。

一般的,将表6‐4列联表中的每一个元素都除以元素总和,pij=nij/N,于是得到频率意义上的列联表,其中pi.=ni./N,p.j=n.j/N,见表6‐8。

表6‐8 变量A和变量B的频率分布

如果变量A与变量B之间相互独立,则变量A第i类别与变量B第j类别同时出现的概率等于总体中变量A第i类别出现的概率与变量B第j类别出现的概率的乘积,Pij=pi. ×p.j,变量A第i类别与变量B第j类别出现的期望频数为Nij=(ni.×n.j)/N。从而,表6‐4对应的期望频数分布见表6‐9。

表6‐9 变量A和变量B的期望值频数分布

如果变量A与变量B是没有关联的,也就是假设:

H0:变量A与变量B相互独立;

H1:变量A与变量B不独立。

对于这个假设的统计检验,可以进行χ2检验。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈