3.2.1.1 异常值分析界面介绍
IBM SPSS Modeler18.0提供了异常值分析节点,如图3-17。
图3-17 IBM SPSS Modeler18.0的异常值分析节点图示
异常值分析节点设置:
异常值分析节点的参数设置包括【注解】【专家】【模型】【字段】4张选项卡。
【字段】选项卡,用来规定模型的输入变量,如图3-18。
图3-18 异常值分析的【字段】选项卡界面
【模型】选项卡用来设置异常值分析模型的主要参数,比如离群点指标的判断标准等,如图3-19。
其中,【确定判断异常的分界值基于:】框显示了【最小异常指数水平】【训练数据中最异常的记录百分比】和【训练数据中最异常的记录数】这3种用来确定分界值以标记异常的方法。
【最小异常指数水平】,指的是确定AI的最小值,如果达到或超过该值,认为样本点可能为异常点,对该记录进行标记。
【训练数据中最异常的记录百分比】,指的是训练数据中最异常记录所占百分比,需要给定一个百分比的阈值,找到指定百分比的可能为离群点样本;需要说明的是,虽然确定了分界值的大小,但是并非确定评分期间要标记的记录的实际百分比,实际评分结果可能根据数据的不同而有所变化。
【训练数据中最异常的记录数】,指的是寻找可能为异常值的数目,需要给定最异常记录的数目;需要说明的是,虽然确定了分界值的大小,但是并非确定评分期间要标记的记录的实际数据,实际评分结果可能根据数据的不同而有所变化。
【要报告的异常字段数】,指的是标定特定变量,认为标定的变量是引起样本异常的最重要原因;默认值是3,意思是输出前3个变量,认为这3个变量是引起样本异常的最重要的原因。
图3-19 【异常值分析】的【模型】选项卡界面
【专家】选项卡,用来设置异常值分析模型的高级参数,例如聚类参数等,如图3-20。
【模式】,指定是使用默认参数,还是进行手动设置,包括【简单】和【专家】。
【简单】,指的是使用默认参数。
【专家】,指的是进行手动设置参数。
选定【专家】:
【调整系数】,指的是给定一个数(大于0),用来代表分类型变量和数值型变量在分析过程中的权系数,给定的值越大,说明数值型变量在分析过程中的权系数也就越大。
【自动计算对等组数】,表示可以快速分析大量可行的解决方案,选择最佳的对等组数,也就是自动判断样本点应该聚成几类;需要在【最大值】和【最小值】中指定对等组的范围;较大的值探索更多的解决方案,但是运算的时间相应的会增加。
【指定对等组数】,表示如果知道模型中需要聚类的数目,可以在【数字】中指定聚类的数目。
【噪声水平】,指的是规定的噪声水平,这是两步聚类中的异常值判断标准;两步聚类算法在运算的过程中,如果一个叶节点包含的样本量与最大叶节点包含的样本量的比值较小,可以认为叶节点的样本为异常点,它的判断标准是0.5-噪声水平;噪声水平的取值范围应该设置在0.0~0.5之间,越是接近于0.0,表明在聚类的过程中易于找到异常值;越是接近于0.5,表示在聚类的过程中可能会把异常样本认为是正常样本。
【噪声比率】,指的是规定分配给组件用于噪声缓存的内存量;该值必须介于 0.0 到 0.5之间;如果将特定个案插入树的叶片中之后,所产生的紧性小于阈值,那么叶片将不再分割。如果紧性超过阈值,那么叶片将进行分割,同时将另一个小聚类添加至CF树;实际过程中,增大此设置有可能会时算法更快速地向较简单的树倾斜。
【缺失插补法】,指的是对缺失值进行填补。
图3-20 【异常值分析】的【模型】选项卡界面
3.2.1.2 简单例子
异常值节点可以分析数据中存在的异常值,可以有效地剔除掉对分析影响较大的异常点。本次以分析A井目的层段致密砂砾岩岩性数据中存在的异常点为例,来详细介绍异常值处理的使用。
异常值模型建立的具体操作如下。
插入【变量】节点(位于节点选用板的【源】中,如图3-21)、【类型】节点(位于节点选用板的【字段选项】中,如图3-22)、【异常值】节点(位于节点选用板的【建模】中的【细分】中,如图3-23),依次连接,异常值模型流初步设置成功,如图3-24。
图3-21 节点选用板的【源】界面
图3-22 节点选用板的【字段选项】界面
图3-23 节点选用板的【建模】中的【分类】界面
图3-24 初步建立的异常值模型流
【变量】节点设置:
【变量】节点用来导入分析数据。双击【变量】节点,出现【变量】节点的【浏览文件】界面,单击【浏览文件】(图3-25),选择目标分析数据,点击【打开】(图3-26),可以看到目标文件导入到了变量节点(图3-27),点击【应用】,分析数据导入成功。
图3-25 【变量】节点的【文件】界面(数据未输入)
图3-26 【变量】节点的【浏览文件】界面
图3-27 【变量】节点的【文件】界面(数据已经输入)
【类型】节点设置:
【类型】节点用来设置变量的【测量】和【角色】。AC、CALI、CNL、DEN、GR、PORE、RI、RT、RXO、VCL属于输入变量,为数值型,其【角色】设置为【输入】,【测量】设置为连续;岩性变量为分类型,其角色设置为【无】,【测量】设置为【名义】(图3-28),点击【应用】,设置成功。
图3-28 【类型】节点界面
【异常值】节点设置:
【异常值】节点用来建立异常值预测模型。
在【字段】选项卡设置【输入(I)】变量,本次选择【使用预定义角色(D)】(图3-29)。
图3-29 【异常值】节点的【字段】界面
在【模型】选项卡设置异常值模型的基本参数(图3-30)。选择【训练数据中最异常的记录百分比】,并设置其值为1.0,即规定训练数据中最异常记录所占百分比为1%,需要说明的是,虽然确定了分界值的大小,但是并非确定评分期间要标记的记录的实际百分比,实际评分结果可能根据数据的不同而有所变化;设置【要报告的异常字段数】为3,即输出前3个变量,认为这3个变量是引起样本异常的最重要的原因。
图3-30 【异常值】节点的【模型】界面
在【专家】界面中设置异常值模型的高级参数(图3-31)。选择【专家】,即通过手动设置参数;设置【调整系数】为6,【调整系数】用来代表分类型变量和数值型变量在分析过程中的权系数,给定的值越大,说明数值型变量在分析过程中的权系数也就越大;选择【自动计算对等组数】,即快速分析大量可行的解决方案,选择最佳的对等组数;设置【最小值】为1,【最大值】为15,即规定对等组的范围,较大的值探索更多的解决方案,但是运算的时间相应的会增加;设置【噪声水平】为0.0,【噪声水平】越是接近于0.0,表明在聚类的过程中易于找到异常值;设置【噪声比率】为0.2;选择【插补缺失值】。
图3-31 【异常值】节点的【专家】界面
点击运行,生成异常值模型运行结果(图3-32);同时为了方便的分析结果,添加表格节点,如图3-33。
图3-32 含有模型运行结果的异常值模型流(钻石形状的节点为模型运行结果)
图3-33 含有【表格】节点的异常值模型流
双击【表格】节点,点击【运行】(图3-34),得到模型的分析结果(图3-35)。其中,【$O-Anomaly】表示是否是异常值,F代表不是异常值,T代表是异常值;【$O-Anomaly Index】代表的是异常值的指标,越大,说明异常值的可行性越大。从结果可以清楚发现,样本4的【$O-Anomaly Index】值较高,为3.441,说明异常值的可能性较大,同时,【$O-Anomaly】显示为T,说明是异常值。
图3-34 【表格】节点的界面
图3-35 【表格】结果界面
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。