首页 理论教育 数理统计在数据分析中的应用

数理统计在数据分析中的应用

时间:2023-02-12 理论教育 版权反馈
【摘要】:如采用分光光度计测得一标准溶液在某一波长处的吸收值为0.470。在这种情况下,可从中取出试样,测得均值和标准偏差,继而得到测定量的置信区间。F检验主要用于两套数据方差的比较。两种方法的测定次数均为10,即自由度均为9,标准偏差分别为0.30和0.23。若采用F检验显然,在此种情况下为双尾检验。必须指出,在进行双尾检验时,若使用的F分布表为单尾,则显著性水平α应为双尾α的1/2,如上例,α应为0.025而不是0.05。

2.3.6 数理统计在数据分析中的应用

1.测量结果的表示

测量结果最常用的表示方式是均值和标准偏差(标准方差),前者表征测试量的大小,后者表征测试量的精密度。

与之有关的是有效位的取舍。所谓有效位是指某种测量所达到的精度。如下列测试值:10.09,10.11,10.09,10.10,10.12,其均值x为10.102,标准偏差s为0.013 0。但测试值仅准确到小数点后面第一位,而第二位为可疑位,故结果的表示为

img42

但也有研究者建议表示为

img43

式中的下标是为避免信息的丢失而加的。

另外,对于小数点后面数字的取舍一般遵循“四舍五入”的规则。但有研究者建议,“5”的入或舍,应使它前一位数字成为与“5”最接近的偶数,如9.65应为9.6,而9.75应为9.8,以次类推。

2.置信区间在误差分析中的应用

置信区间可以用于系统误差的测试。如采用分光光度计测得一标准溶液在某一波长处的吸收值为0.470。9次测定的均值img44=0.461,标准偏差s=0.003,置信度若为95%,查t分布表可知置信水平为0.05时,t=2.26,则

img45

由于0.470并不落在所得置信区间范围内,故可判断仪器有系统误差。

置信区间还可用于试样的测定。如有一大批药物的片剂,欲知片剂的质量,则不可能每片一一称量。另外,若想知道片剂的组分和含量,特别是采用破坏性分析方法(如原子吸收),则也不可能对每片药物进行分析。在这种情况下,可从中取出试样,测得均值和标准偏差,继而得到测定量的置信区间。

3.t检验在实验数据分析中的应用

在实际应用中仅估计总体的值还不够,常常需要说明总体的某种性质,如两个样本的均值差异是否显著到不能代替同一总体。这里包括工艺改变后产品质量有无显著变化,两种分析方法测定结果是否一致等问题。该类统计推断都是先提出假设,然后按照某种逻辑在一定概率上判断是否有显著性差异。

运用t分布在前边已述及。下面介绍该分布的其他一些应用。

(1)两套实验平均值的比较

将t用于显著性检验可判断两套实验均值是否有显著性差异。设两套实验的均值分别为img46img47,若假设H0,即假设两种方法所得均值没有差异,在判断中,首先由单一标准偏差s1和s2计算综合标准偏差

img48

t值的计算为

img49

式中,n1和n2分别为两试样的容量。

t的自由度为n1+n2-2,如果t≥t(α,f),则否定原假设,即两种方法所得结果有显著性差异。t(α,f)为显著性水平=α、自由度=f的t分布表对应的数值。

例2-10 如用两种方法测定植物中的硼,结果如下。

分光光度法(μg·g-1)均值=28.0;标准偏差=0.3

荧光光度法(μg·g-1)均值=26.25;标准偏差=0.23

n1=n2=10

为判别两种方法所得结果是否有显著性差异,由式(2-15)首先计算

img50

则由式(2-16)可得

img51

自由度为18,若α=0.05,查表得t(α,f)的临界值为1.7。由于实验的t值大于t(α,f)(临界值),故否定原假设。换言之,两种方法所得结果有显著性差异。另外,该检验还可用于实验条件改变时对结果产生的影响。

例2-11 食物中锡的测定可在HCl介质中进行蒸馏,相对应于不同的蒸馏时间,其结果如下。

img52

两个蒸馏时间下锡含量的均值和方差分别如下。

img53

img54

H0:设蒸馏时间对测定结果无影响,方差总值为

img55

以及

img56

此例中自由度为n1+n2-2=6+6-2=10,若α=0.05,t的临界值为1.81。由于实验的t小于t的临界值,所以接受原假设,即煮沸时间的长短对Sn的回收无明显影响。

在前面的计算中,事实上假设两种方法或在不同条件下的方差大体上是相等的。若此假定不合理,t值的计算可采用下式

img57

自由度的计算为

img58

其值取其最临近的整数。

img59

例2-12 风湿病人和对照组血中硫醇含量(mmol)如下。

对照组  1.84,1.92,1.94,1.92,1.85,1.91,2.07

风湿病人 2.81,4.06,3.62,3.27,3.27,3.76

由此,可计算得到依照式(2-18),计算得到自由度为5。若取α=0.01,查得t的临界值为4.03。实验t值大于t的临界值,否定原假设,即风湿病人血中硫醇的含量与对照组(正常人)有显著差异。

(2)实验均值与已知值的比较

为了判断实验均值img60与真值μ是否有显著性差异,与上类同,可将方程

img61

改写为

img62

然后由实验数据可计算t值。若img63>t(α,f),则放弃H0假设。同样,t(α,f)由查t分布表得到。

例2-13 用冷蒸气原子吸收法测定某样品中的汞,已知汞的含量为38.9%,其测试值为38.9%,37.4%,37.1%。由此可得平均值为37.8%,标准偏差为0.964%。H0假设即设定无系统误差,则利用式(2-20)可计算t

img64

当自由度为2时,查t分布表可得t(α,f)=4.3(α=0.05)。由于t<t临界,H0假设为真,即无明显的系统误差。

img65

(3)成对结果的t检验(Paired t-test)

例2-14 如两种方法对于4个试样Pb的测定结果(μg·L-1)如下。若沿用前面算法,直接比较两种方法的均值是不适合的,因为测试结果的差异有可能由于试样不同导致。

在此种情况下,可以采用对同一试样两个测试结果进行比较的方法。如上述数据,对应试样的差值分别为-5,-7,2,3,这些差值的均值img66=-1.75;差值的标准偏差s=4.99。由于差值的期望值μ=0,所以

img67

t的自由度为n-1=3,取α=0.05,查表得t的临界值t(α,f)为3.18,t的实验值为-0.70,img68<t(α,f),故两种方法测得Pb含量的均值没有显著性差异。

4.F检验在实验数据分析中的应用

F检验主要用于两套数据方差的比较。有以下两种情况:(1)我们希望知道是否方法A比方法B更精密(单尾检验);(2)拟知道方法A与方法B的精密度上是否有差异(双尾检验)。

在第一种情况下比较的是两种方法的相对精密度,则用单尾检验;假若我们希望比较两种标准偏差是否有显著性差异,则用双尾检验。

F检验的表达方式为

img69

在式(2-21)中,应使F≥1,即大者为分子,小者为分母。

例2-15 测定废水中的氧,其结果如下。

均值/(mg·L-1)标准偏差/(mg·L-1

img70

试问,新方法的精密度是否明显高于标准方法?

解:此问题可以采用单尾F检验。

img71

两种情况下均测定8次,所以自由度均为7。若α=0.05,查F分布表(单尾)得F的临界值为3.787。由于计算值大于该临界值,故可得新方法比标准法具有更高精密度的结论。

例2-16 采用F检验对例2-10中硼的两种测定方法的标准偏差进行有无显著性差异的检验。两种方法的测定次数均为10,即自由度均为9,标准偏差分别为0.30和0.23。若采用F检验

img72

显然,在此种情况下为双尾检验。查双尾F分布表所得临界值为4.026(α=0.05)。计算值小于临界值,说明两种方法的标准偏差没有显著性差异。

必须指出,在进行双尾检验时,若使用的F分布表为单尾,则显著性水平α应为双尾α的1/2,如上例,α应为0.025而不是0.05。

5.χ2检验在实验数据分析中的应用

χ2检验是关于某事件发生频率的测试。下面用一具体例子来说明这种方法的原理。

例2-17 实验室中4位工作者打破玻璃器皿的件数分布为24,17,11,9,用χ2检验他们的可信赖度是否有区别。

解:若做H0假设,则认为他们间可信赖度无区别,也就是说在同一段时间内,他们打破玻璃器皿的件数是相同的。由于打破的总件数为61,所以对于每位工作者打破器皿的期望值为61/4=15.25。现在我们拟得到的答案是,观测值与期望值是否有显著性差异。为此,进行如下计算。

img73

其中,O-E列的加和恒等于0,故可做计算中的校验。若χ2超出一定的临界值,则拒绝H0假设。在此例中,自由度为4-1=3。若α=0.05,则由χ2的分布表可知χ2的临界值为7.81,计算值大于查表值,说明4位工作者的可信赖度确有区别。

作为χ2检验的应用,总的观测次数要大于或等于50,而个体重复次数不应低于5。

另外,χ2检验可用于检验总体方差是否正常,但总体方差σ要已知。运用时首先计算出统计量,即

img74

然后查χ2(α,f)分布表,并将查表值与计算值进行比较,以判断如某批产品正常与否等类似情况。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈