由于到目前为止,还没有各种复杂分析的判断粗差准则,因此,这里建议直接采用稳健估计的算法来进行数据的处理,尽量减小个别粗大误差数据对数据处理结果的干扰与影响。
作为粗大误差统计判别方法建立的基本依据如下:依据测量准确度的要求,给定一置信概率(例如99%),确定其随机误差的分布范围(-ks,ks),凡超出这个范围的误差,就认为是不属于正常测量条件下测量值所含有的随机误差,而应视为粗大误差予以剔除。
下面推荐常用的三种判别方法:拉依达准则、格拉布斯准则和狄克逊准则。
1.拉依达准则
拉依达准则又称3σ准则,它是以测量次数充分多为前提。实际测量中,常以贝塞尔公式算得的s代替σ,以代替真值。对某个可疑数据xd,若其残差满足
则认为该误差为粗大误差,该次测得值为异常值,应剔除。
拉依达准则的合理性是显然的。对服从正态分布的随机误差,其残余误差落在(-3s,3s)以外的概率仅为0.27%,即370次测量才出现一次,对有限次测量来说,可以认为是不可能发生的。
拉依达准则是一个简便、保险但非常保守的判别准则,当测量次数n≤10时,即使存在粗大误差也判别不出来。因此,在测量次数较少时,几乎不适于使用。当测量次数为30次以上时较为适宜。
2.格拉布斯准则
若对某物理量等精密度测量n次,得测得值x1,x2,…,xn。假定测得值不含有系统误差,且测量值服从正态分布。分别计算测量算术平均值和标准偏差。
为了判别测得值中是否有异常值,将测得值按其大小,由小到大排列成顺序统计量x(1):
若认为x(1)是可疑测量值,则有统计量
若认为x(n)是可疑测量值,则有统计量
当g(i)≥g0(n,α)时,则认为测得值x(i)含有粗大误差,应予以剔除。
g0(n,α)为测量次数为n显著度为α时的统计量临界值,可由表1-2查取。
格拉布斯准则还可以用残余误差的形式表达。若测量列中的可疑值对应的残余误差狘υi狘max满足
则认为该可疑值xi是含有粗大误差的异常值,应剔除。
表1-2 g0(n,α)值
3.狄克逊准则
前面两种判别方法,均需求出算术平均值、残余误差υi和标准偏差s。在实际工作中,显得计算量大,使用麻烦。而狄克逊准则是直接根据测得值按其大小顺序重新排列后的顺序统计量来判别可疑测量值是否为异常值的,可免去反复计算x,υi和s的繁琐劳动。
狄克逊准则也是以测量值中不含有系统误差,且测得值服从正态分布为前提条件的。
若对某物理量等精密度测量n次,得测得值x1,x2,…,xn。将此测量列由小到大按顺序重新排列成
狄克逊导出了顺序差统计量的分布及其在给定显著度α下的临界值d0(n,α),见表1-3。
则认为相应最大测得值或最小测得值为含有粗大误差的异常值,应剔除。
表1-3 狄克逊检验的临界值d0(n,α)
续 表
狄克逊通过大量的实验认为:当n≤7时,使用d10效果好;当8≤n≤10时,使用d11效果好;当11≤n≤13时,使用d21效果好;当n≥14时,使用d22效果好。
正态分布或接近正态分布的条件下适用,而且视样本大小不同、粗差数据数量是一个还是一个以上等情况,正确判断粗差有否的效果也是有所不同的。根据计算机仿真实验的结果,加上前人实践的经验,可以归纳如下几点原则供选用:
(1)大样本情形(n>50),用3σ准则最简单方便;30<n<50情形,用格拉布斯准则效果较好;3≤n≤30情形,用格拉布斯准则适用于剔除单个异常值,用狄克逊准则适用于剔除多个异常值。
(2)在实际应用中,较为精密的场合可选用两三种准则同时判断,若一致认为应当剔除时,则可以比较放心地剔除;当集中方法的判定结果有矛盾时,则应当慎重考虑,通常选择α=0.01,且在可剔与不可剔时,一般以不剔除为妥。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。