数理统计在数据分析中的应用

时间：2023-02-12 理论教育版权反馈

【摘要】：如采用分光光度计测得一标准溶液在某一波长处的吸收值为0.470。在这种情况下，可从中取出试样，测得均值和标准偏差，继而得到测定量的置信区间。F检验主要用于两套数据方差的比较。两种方法的测定次数均为10，即自由度均为9，标准偏差分别为0.30和0.23。若采用F检验显然，在此种情况下为双尾检验。必须指出，在进行双尾检验时，若使用的F分布表为单尾，则显著性水平α应为双尾α的1/2，如上例，α应为0.025而不是0.05。

2.3.6　数理统计在数据分析中的应用

1.测量结果的表示

测量结果最常用的表示方式是均值和标准偏差（标准方差），前者表征测试量的大小，后者表征测试量的精密度。

与之有关的是有效位的取舍。所谓有效位是指某种测量所达到的精度。如下列测试值：10.09，10.11，10.09，10.10，10.12，其均值x为10.102，标准偏差s为0.013 0。但测试值仅准确到小数点后面第一位，而第二位为可疑位，故结果的表示为

但也有研究者建议表示为

式中的下标是为避免信息的丢失而加的。

另外，对于小数点后面数字的取舍一般遵循“四舍五入”的规则。但有研究者建议，“5”的入或舍，应使它前一位数字成为与“5”最接近的偶数，如9.65应为9.6，而9.75应为9.8，以次类推。

2.置信区间在误差分析中的应用

置信区间可以用于系统误差的测试。如采用分光光度计测得一标准溶液在某一波长处的吸收值为0.470。9次测定的均值＝0.461，标准偏差s＝0.003，置信度若为95%，查t分布表可知置信水平为0.05时，t＝2.26，则

由于0.470并不落在所得置信区间范围内，故可判断仪器有系统误差。

置信区间还可用于试样的测定。如有一大批药物的片剂，欲知片剂的质量，则不可能每片一一称量。另外，若想知道片剂的组分和含量，特别是采用破坏性分析方法（如原子吸收），则也不可能对每片药物进行分析。在这种情况下，可从中取出试样，测得均值和标准偏差，继而得到测定量的置信区间。

3.t检验在实验数据分析中的应用

在实际应用中仅估计总体的值还不够，常常需要说明总体的某种性质，如两个样本的均值差异是否显著到不能代替同一总体。这里包括工艺改变后产品质量有无显著变化，两种分析方法测定结果是否一致等问题。该类统计推断都是先提出假设，然后按照某种逻辑在一定概率上判断是否有显著性差异。

运用t分布在前边已述及。下面介绍该分布的其他一些应用。

（1）两套实验平均值的比较

将t用于显著性检验可判断两套实验均值是否有显著性差异。设两套实验的均值分别为和，若假设H₀，即假设两种方法所得均值没有差异，在判断中，首先由单一标准偏差s₁和s₂计算综合标准偏差

t值的计算为

式中，n₁和n₂分别为两试样的容量。

t的自由度为n₁＋n₂－2，如果t≥t_（α，f），则否定原假设，即两种方法所得结果有显著性差异。t_（α，f）为显著性水平＝α、自由度＝f的t分布表对应的数值。

例2－10　如用两种方法测定植物中的硼，结果如下。

分光光度法（μg·g^－1）均值＝28.0；标准偏差＝0.3

荧光光度法（μg·g^－1）均值＝26.25；标准偏差＝0.23

n₁＝n₂＝10

为判别两种方法所得结果是否有显著性差异，由式（2－15）首先计算

则由式（2－16）可得

自由度为18，若α＝0.05，查表得t_（α，f）的临界值为1.7。由于实验的t值大于t_（α，f）（临界值），故否定原假设。换言之，两种方法所得结果有显著性差异。另外，该检验还可用于实验条件改变时对结果产生的影响。

例2－11　食物中锡的测定可在HCl介质中进行蒸馏，相对应于不同的蒸馏时间，其结果如下。

两个蒸馏时间下锡含量的均值和方差分别如下。

H₀：设蒸馏时间对测定结果无影响，方差总值为

以及

此例中自由度为n₁＋n₂－2＝6＋6－2＝10，若α＝0.05，t的临界值为1.81。由于实验的t小于t的临界值，所以接受原假设，即煮沸时间的长短对Sn的回收无明显影响。

在前面的计算中，事实上假设两种方法或在不同条件下的方差大体上是相等的。若此假定不合理，t值的计算可采用下式

自由度的计算为

其值取其最临近的整数。

例2－12　风湿病人和对照组血中硫醇含量（mmol）如下。

对照组　　1.84，1.92，1.94，1.92，1.85，1.91，2.07

风湿病人　2.81，4.06，3.62，3.27，3.27，3.76

由此，可计算得到依照式（2－18），计算得到自由度为5。若取α＝0.01，查得t的临界值为4.03。实验t值大于t的临界值，否定原假设，即风湿病人血中硫醇的含量与对照组（正常人）有显著差异。

（2）实验均值与已知值的比较

为了判断实验均值与真值μ是否有显著性差异，与上类同，可将方程

改写为

然后由实验数据可计算t值。若＞t_（α，f），则放弃H₀假设。同样，t_（α，f）由查t分布表得到。

例2－13　用冷蒸气原子吸收法测定某样品中的汞，已知汞的含量为38.9%，其测试值为38.9%，37.4%，37.1%。由此可得平均值为37.8%，标准偏差为0.964%。H₀假设即设定无系统误差，则利用式（2－20）可计算t

当自由度为2时，查t分布表可得t_（α，f）＝4.3（α＝0.05）。由于t＜t_临界，H₀假设为真，即无明显的系统误差。

（3）成对结果的t检验（Paired t－test）

例2－14　如两种方法对于4个试样Pb的测定结果（μg·L^－1）如下。若沿用前面算法，直接比较两种方法的均值是不适合的，因为测试结果的差异有可能由于试样不同导致。

在此种情况下，可以采用对同一试样两个测试结果进行比较的方法。如上述数据，对应试样的差值分别为－5，－7，2，3，这些差值的均值＝－1.75；差值的标准偏差s＝4.99。由于差值的期望值μ＝0，所以

t的自由度为n－1＝3，取α＝0.05，查表得t的临界值t_（α，f）为3.18，t的实验值为－0.70，＜t（α，^f），故两种方法测得Pb含量的均值没有显著性差异。

4.F检验在实验数据分析中的应用

F检验主要用于两套数据方差的比较。有以下两种情况：（1）我们希望知道是否方法A比方法B更精密（单尾检验）；（2）拟知道方法A与方法B的精密度上是否有差异（双尾检验）。

在第一种情况下比较的是两种方法的相对精密度，则用单尾检验；假若我们希望比较两种标准偏差是否有显著性差异，则用双尾检验。

F检验的表达方式为

在式（2－21）中，应使F≥1，即大者为分子，小者为分母。

例2－15　测定废水中的氧，其结果如下。

均值/（mg·L_－1）标准偏差/（mg·L_－1）

试问，新方法的精密度是否明显高于标准方法？

解：此问题可以采用单尾F检验。

两种情况下均测定8次，所以自由度均为7。若α＝0.05，查F分布表（单尾）得F的临界值为3.787。由于计算值大于该临界值，故可得新方法比标准法具有更高精密度的结论。

例2－16　采用F检验对例2－10中硼的两种测定方法的标准偏差进行有无显著性差异的检验。两种方法的测定次数均为10，即自由度均为9，标准偏差分别为0.30和0.23。若采用F检验

显然，在此种情况下为双尾检验。查双尾F分布表所得临界值为4.026（α＝0.05）。计算值小于临界值，说明两种方法的标准偏差没有显著性差异。

必须指出，在进行双尾检验时，若使用的F分布表为单尾，则显著性水平α应为双尾α的1/2，如上例，α应为0.025而不是0.05。

5.χ²检验在实验数据分析中的应用

χ²检验是关于某事件发生频率的测试。下面用一具体例子来说明这种方法的原理。

例2－17　实验室中4位工作者打破玻璃器皿的件数分布为24，17，11，9，用χ²检验他们的可信赖度是否有区别。

解：若做H₀假设，则认为他们间可信赖度无区别，也就是说在同一段时间内，他们打破玻璃器皿的件数是相同的。由于打破的总件数为61，所以对于每位工作者打破器皿的期望值为61/4＝15.25。现在我们拟得到的答案是，观测值与期望值是否有显著性差异。为此，进行如下计算。

其中，O－E列的加和恒等于0，故可做计算中的校验。若χ²超出一定的临界值，则拒绝H₀假设。在此例中，自由度为4－1＝3。若α＝0.05，则由χ²的分布表可知χ²的临界值为7.81，计算值大于查表值，说明4位工作者的可信赖度确有区别。

作为χ²检验的应用，总的观测次数要大于或等于50，而个体重复次数不应低于5。

另外，χ²检验可用于检验总体方差是否正常，但总体方差σ要已知。运用时首先计算出统计量，即

然后查χ_{2（α，f）}分布表，并将查表值与计算值进行比较，以判断如某批产品正常与否等类似情况。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

数理统计在数据分析中的应用

热门文章

相关推荐

数理统计在数据分析中的应用

有关基础化学计量学及的文章

抽样数据的统计分析

消费与犯罪的统计数据分析

政府大数据统筹应用

甘肃省年公共图书馆数据统计分析报告

数据的信度与效度分析

铁路机务段的数据分析

世界旅游组织统计旅游数据

数据检测子系统

热门文章

相关推荐