5.3 共词频次矩阵的数据类型和数据总体分布的推断分析
由于数据类型和数据总体分布影响统计分析方法的选择,针对不同类型的数据和不同的总体分布特征,采用的统计方法可能有所不同,因此,在选择统计分析方法之前,首先要分析数据的类型和分布特征。
1.共词频次矩阵的数据类型
我们得到的共词矩阵的数据,其取值范围是由10~80之间的正整数组成,每个值的大小表明共词的频率,但其差值没有可比意义,因此,判断该数据为离散型有序数据。
2.共词频次矩阵的数据分布推断
由于正态分布是在统计分析中运用最广泛的假设分布,因此首先运用Lillifors统计量检验法,判定相关矩阵的数据总体是否符合正态分布。SPSS提供了Lillifors法,它可以在方差和均值未知的情况下直接使用,它是对Kolmogorov-Smirnov和Shapiro-Wilk统计量的修正,Kolmogorov-Smirnov和Shapiro-Wilk检测时建立在观测量与预期积累分布之间存在巨大差异的基础上,一般情况下,当其显著水平值S<0.05时,便可以拒绝数据正态分布的原假设。
在SPSS13.0软件中,得到表5-3所示的正态分布测试结果。
表中显示Kolmogorov-Smirnov和Shapiro-Wilk统计量中的显著水平值S=0.000<0.05,所以拒绝数据的正态分布的假设,相关矩阵数据分布不符合正态分布规律。
其次,运用非参数检验推断共词频次矩阵数据的总体分布。启用非参数检验(nonparametric tests)的卡方检验(Chi-square test)功能。卡方拟合优度检验的方法是:我们研究的总体分布F未知,希望由样本来检验这个总体分布F是否等于给定的分布F0,即H0∶F(x)=F0(x),H1∶F(x)≠F0(x)H0,其中F0(x)为已知的分布函数(在离散场合用概率分布)。常见的已知分布F0(x)在离散时为均匀分布,在连续场合为正态分布,指数分布等。我们对共频次矩阵进行均匀分布测试。在SPSS13.0软件中,得到表5-4所示的均匀分布测试结果。
表5-3 正态分布测试结果(Tests of Normality)
续表
a Lilliefors Significance Correction.
表5-4 均匀分布测试结果(Test Statistics)
续表
表中显著水平值Asymp.S=0.000<0.05,所以拒绝数据的均匀分布的假设,相关矩阵数据分布不符合均匀分布规律。
基于正态分布和均匀分布测试结果,我们将在下文采取与其相适应的分析方法和步骤。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。