2.3.6 数理统计在数据分析中的应用
1.测量结果的表示
测量结果最常用的表示方式是均值和标准偏差(标准方差),前者表征测试量的大小,后者表征测试量的精密度。
与之有关的是有效位的取舍。所谓有效位是指某种测量所达到的精度。如下列测试值:10.09,10.11,10.09,10.10,10.12,其均值x为10.102,标准偏差s为0.013 0。但测试值仅准确到小数点后面第一位,而第二位为可疑位,故结果的表示为
但也有研究者建议表示为
式中的下标是为避免信息的丢失而加的。
另外,对于小数点后面数字的取舍一般遵循“四舍五入”的规则。但有研究者建议,“5”的入或舍,应使它前一位数字成为与“5”最接近的偶数,如9.65应为9.6,而9.75应为9.8,以次类推。
2.置信区间在误差分析中的应用
置信区间可以用于系统误差的测试。如采用分光光度计测得一标准溶液在某一波长处的吸收值为0.470。9次测定的均值=0.461,标准偏差s=0.003,置信度若为95%,查t分布表可知置信水平为0.05时,t=2.26,则
由于0.470并不落在所得置信区间范围内,故可判断仪器有系统误差。
置信区间还可用于试样的测定。如有一大批药物的片剂,欲知片剂的质量,则不可能每片一一称量。另外,若想知道片剂的组分和含量,特别是采用破坏性分析方法(如原子吸收),则也不可能对每片药物进行分析。在这种情况下,可从中取出试样,测得均值和标准偏差,继而得到测定量的置信区间。
3.t检验在实验数据分析中的应用
在实际应用中仅估计总体的值还不够,常常需要说明总体的某种性质,如两个样本的均值差异是否显著到不能代替同一总体。这里包括工艺改变后产品质量有无显著变化,两种分析方法测定结果是否一致等问题。该类统计推断都是先提出假设,然后按照某种逻辑在一定概率上判断是否有显著性差异。
运用t分布在前边已述及。下面介绍该分布的其他一些应用。
(1)两套实验平均值的比较
将t用于显著性检验可判断两套实验均值是否有显著性差异。设两套实验的均值分别为和
,若假设H0,即假设两种方法所得均值没有差异,在判断中,首先由单一标准偏差s1和s2计算综合标准偏差
t值的计算为
式中,n1和n2分别为两试样的容量。
t的自由度为n1+n2-2,如果t≥t(α,f),则否定原假设,即两种方法所得结果有显著性差异。t(α,f)为显著性水平=α、自由度=f的t分布表对应的数值。
例2-10 如用两种方法测定植物中的硼,结果如下。
分光光度法(μg·g-1)均值=28.0;标准偏差=0.3
荧光光度法(μg·g-1)均值=26.25;标准偏差=0.23
n1=n2=10
为判别两种方法所得结果是否有显著性差异,由式(2-15)首先计算
则由式(2-16)可得
自由度为18,若α=0.05,查表得t(α,f)的临界值为1.7。由于实验的t值大于t(α,f)(临界值),故否定原假设。换言之,两种方法所得结果有显著性差异。另外,该检验还可用于实验条件改变时对结果产生的影响。
例2-11 食物中锡的测定可在HCl介质中进行蒸馏,相对应于不同的蒸馏时间,其结果如下。
两个蒸馏时间下锡含量的均值和方差分别如下。
H0:设蒸馏时间对测定结果无影响,方差总值为
以及
此例中自由度为n1+n2-2=6+6-2=10,若α=0.05,t的临界值为1.81。由于实验的t小于t的临界值,所以接受原假设,即煮沸时间的长短对Sn的回收无明显影响。
在前面的计算中,事实上假设两种方法或在不同条件下的方差大体上是相等的。若此假定不合理,t值的计算可采用下式
自由度的计算为
其值取其最临近的整数。
例2-12 风湿病人和对照组血中硫醇含量(mmol)如下。
对照组 1.84,1.92,1.94,1.92,1.85,1.91,2.07
风湿病人 2.81,4.06,3.62,3.27,3.27,3.76
由此,可计算得到依照式(2-18),计算得到自由度为5。若取α=0.01,查得t的临界值为4.03。实验t值大于t的临界值,否定原假设,即风湿病人血中硫醇的含量与对照组(正常人)有显著差异。
(2)实验均值与已知值的比较
为了判断实验均值与真值μ是否有显著性差异,与上类同,可将方程
改写为
然后由实验数据可计算t值。若>t(α,f),则放弃H0假设。同样,t(α,f)由查t分布表得到。
例2-13 用冷蒸气原子吸收法测定某样品中的汞,已知汞的含量为38.9%,其测试值为38.9%,37.4%,37.1%。由此可得平均值为37.8%,标准偏差为0.964%。H0假设即设定无系统误差,则利用式(2-20)可计算t
当自由度为2时,查t分布表可得t(α,f)=4.3(α=0.05)。由于t<t临界,H0假设为真,即无明显的系统误差。
(3)成对结果的t检验(Paired t-test)
例2-14 如两种方法对于4个试样Pb的测定结果(μg·L-1)如下。若沿用前面算法,直接比较两种方法的均值是不适合的,因为测试结果的差异有可能由于试样不同导致。
在此种情况下,可以采用对同一试样两个测试结果进行比较的方法。如上述数据,对应试样的差值分别为-5,-7,2,3,这些差值的均值=-1.75;差值的标准偏差s=4.99。由于差值的期望值μ=0,所以
t的自由度为n-1=3,取α=0.05,查表得t的临界值t(α,f)为3.18,t的实验值为-0.70,<t(α,f),故两种方法测得Pb含量的均值没有显著性差异。
4.F检验在实验数据分析中的应用
F检验主要用于两套数据方差的比较。有以下两种情况:(1)我们希望知道是否方法A比方法B更精密(单尾检验);(2)拟知道方法A与方法B的精密度上是否有差异(双尾检验)。
在第一种情况下比较的是两种方法的相对精密度,则用单尾检验;假若我们希望比较两种标准偏差是否有显著性差异,则用双尾检验。
F检验的表达方式为
在式(2-21)中,应使F≥1,即大者为分子,小者为分母。
例2-15 测定废水中的氧,其结果如下。
均值/(mg·L-1)标准偏差/(mg·L-1)
试问,新方法的精密度是否明显高于标准方法?
解:此问题可以采用单尾F检验。
两种情况下均测定8次,所以自由度均为7。若α=0.05,查F分布表(单尾)得F的临界值为3.787。由于计算值大于该临界值,故可得新方法比标准法具有更高精密度的结论。
例2-16 采用F检验对例2-10中硼的两种测定方法的标准偏差进行有无显著性差异的检验。两种方法的测定次数均为10,即自由度均为9,标准偏差分别为0.30和0.23。若采用F检验
显然,在此种情况下为双尾检验。查双尾F分布表所得临界值为4.026(α=0.05)。计算值小于临界值,说明两种方法的标准偏差没有显著性差异。
必须指出,在进行双尾检验时,若使用的F分布表为单尾,则显著性水平α应为双尾α的1/2,如上例,α应为0.025而不是0.05。
5.χ2检验在实验数据分析中的应用
χ2检验是关于某事件发生频率的测试。下面用一具体例子来说明这种方法的原理。
例2-17 实验室中4位工作者打破玻璃器皿的件数分布为24,17,11,9,用χ2检验他们的可信赖度是否有区别。
解:若做H0假设,则认为他们间可信赖度无区别,也就是说在同一段时间内,他们打破玻璃器皿的件数是相同的。由于打破的总件数为61,所以对于每位工作者打破器皿的期望值为61/4=15.25。现在我们拟得到的答案是,观测值与期望值是否有显著性差异。为此,进行如下计算。
其中,O-E列的加和恒等于0,故可做计算中的校验。若χ2超出一定的临界值,则拒绝H0假设。在此例中,自由度为4-1=3。若α=0.05,则由χ2的分布表可知χ2的临界值为7.81,计算值大于查表值,说明4位工作者的可信赖度确有区别。
作为χ2检验的应用,总的观测次数要大于或等于50,而个体重复次数不应低于5。
另外,χ2检验可用于检验总体方差是否正常,但总体方差σ要已知。运用时首先计算出统计量,即
然后查χ2(α,f)分布表,并将查表值与计算值进行比较,以判断如某批产品正常与否等类似情况。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。