异常值处理是数据分析前的重点工作。这是因为,异常值的存在会对模型结果的可靠性产生巨大的影响,过多含有异常值的模型在一定程度上无法真实地反映事物本来的面貌和规律。
IBM SPSS Modeler 18.0主要是通过两步聚类分析来探索异常值。
原理如下:通过聚类分析,计算数据点之间的距离,再观测距离的远近,判断异常值。
异常值分析包括以下3个方面。
①聚类分析,根据样本之间的亲属关系,聚成若干类别。
②计算异常值的测度指标,也就是根据之前的聚类结果,根据距离,来得到常值的测度指标。
③异常值诊断,也就是在得到异常值的测度指标的基础上,分析异常点,并分析导致异常值存在的原因。
接下来,就详细介绍这3个阶段的具体过程。
第一阶段。
通过两步聚类方法进行聚类分析,找到各个类别的类中心。
分别计算:①Nv,即类别v的样本量;
第二阶段。
该阶段的任务主要是计算数据集的异常值的测度指标。
样本点S是否是异常点的判断依据是:①组差异指标;②变量差异指标;③异常指标;④变量贡献指标。
①组差异指标(GDI,group deviation index):指的是寻找样本点S所对应的类别v,并计算样本点S和类别v的对数似然距离,其反应的是样本点S加入到类别v后,引起的类别v内部差异的增大量。
GDI的计算公式如下:
②变量差异指标(VDI,variable deviation index):指的是样本点S加入到类别v之前,GDI中的各个加数部分的差,它反映的是样本点S进入到类别v后,引起类别内部差异增大量,各个聚类的变量的贡献大小。
对于数值型的变量k,VDI的计算公式如下:δ
对于分类型的变量k,VDI定义为信息熵,计算公式如下:
③异常指标(AI,anomaly index):指的是样本点S引入后所产生的类别内部差异性与类别v中其他样本点所产生的差异性的平均值的比,如果该值越大,那么认为样本点S是异常值的可能性就越高,该指标与GDI相比,更直观。
AI的计算公式如下:
④变量贡献指标(VCM,variable contribution index):指的是各个变量对于类别内差异性影响的比例,VCM值越大,那么对应的变量是引起样本点S为异常值的可能性越高;其属于相对指标,VDIk相比,更直观。
VCM的计算公式如下:
第三阶段
利用上一阶段得到的GDI、VDI、AI和VCM的结果进行排序,综合起来判断样本点S是否为异常值。
将样本点S的AI值按照降序的方法进行排序,排序靠前的m个数据点认为是异常点。
对于寻找到的异常点,将VDI按照降序的方法进行排序,排序靠前的l个变量认为是引起对应异常值的主要原因。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。