2.3.3.1 C5.0界面介绍
IBM SPSS Modeler18.0提供了C5.0节点,如图2-58。
图2-58 IBM SPSS Modeler18.0的C5.0节点图示
C5.0节点设置
C5.0节点的参数设置包括【注解】【分析】【成本】【模型】【字段】五张选项卡。本次重点介绍的是【模型】和【分析】选项卡。
【字段】选项卡,主要用来规定C5.0模型的输入变量和目标变量(图2-59)。
图2-59 【C5.0】的【字段】选项卡界面
【模型】选项卡用来设置C5.0算法的主要参数,如图2-60。
【输出类型:】,指的是规定C5.0的分析结果,包括【决策树】和【规则集】。【决策树】表示输出决策树和由决策树直接得到的推理规则;【规则集】表示输出推理规则集,推理规则集并非由决策树直接得到,这里不再详细介绍。
【组符号:】,指的是利用ChiMerge分箱法检验当前检验当前分组变量的各个类别能否合并,如果可以,应该先合并在分支,数值型分组变量将长出两个分支。
【使用boosting】,指的是采用boosting集成算法优化模型,用来提高模型预测的准确性。其中,【试验次数】指的是boosting集成算法建立模型的个数。
【交叉验证】,指的是采用交叉验证法建立模型。其中,【折叠次数】指的是规定折数n;根据交叉验证法,将在1-1/n份样本上分别建立n个模型,模型误差是n个模型预测结果的综合。
图2-60 【C5.0】的【模型】选项卡在【支持】中选定【准确性】后的界面
【模式】,指的是规定决策树建立模型过程中的参数设置方式,包括【简单】和【专家】;其中,【简单】指的是依靠系统自动调整参数;【专家】指的是通过手动调整参数。
选择【简单】,界面如图2-60所示,包括【支持:】和【预期噪声(%):】两部分。
【支持:】,指的是用来指定参数设置的原则,包括【准确性】和【普遍性】两个选项。其中,【准确性】表示最求高的预测精度或者低的预测错误率为原则设置模型参数(比如树的深度、节点允许的最小样本量、决策树修建时的置信度等),可能导致过拟合问题。【普遍性】表示选择系统的默认参数,以减少模型对数据的过度依赖。
【预期噪声(%):】后的数字框中,规定数据所含的噪声数据占整个数据集的比例,通常可以不指定。
选择【专家】,界面如图2-61所示,包括【修剪严重性:】【每个子分支的最小记录数:】【使用全局修建】和【辨别属性】4个部分。
【修剪严重性:】,指的是决策树修剪时的置信度,默认的值为75=100-25。
【每个子分支的最小记录数:】,指的是规定决策树每个节点允许的最少样本数量。
图2-61 【C5.0】的【模型】选项卡在【支持】中选定【专家】后的界面
【分析】选项卡用来设置计算输入变量重要性的指标,如图2-62。
【计算预测变量重要性】,指的是以图的方式显示输入变量对建模的重要性。
【倾向评分(仅对标志目标有效):】,指的是用来规定计算变量的倾向性得分的方法。
【计算原始倾向评分】,指的是对于每个观测值,分类模型给出预测值为真的概率,此概率是根据训练样本集计算的。
【计算调整倾向评分】,指的是对于每个观测值,分类模型给出预测值为真的调整概率,此概率是根据测试样本集或者验证样本集计算的,并且应该在【基于】选项中指定样本集。
图2-62 【C5.0】的【分析】选项卡界面
2.3.3.2 简单例子
C5.0属于分类树,可以有效地解决分类问题。本次以预测A井目的层段致密砂砾岩岩性为例,来详细介绍C5.0的使用。
C5.0岩性预测模型建立的具体操作如下。
本次利用的数据是A井目的层段测井和岩性数据。
插入【变量】节点(位于节点选用板的【源】中,如图2-63)、【类型】节点(位于节点选用板的【字段选项】中,如图2-64)、【分区】节点(位于节点选用板的【字段选项】中,如图2-64)和【C5.0】节点(位于节点选用板的【建模】中的【分类】中,如图2-65),依次连接,C5.0岩性预测模型流初步设置成功,如图2-66。
图2-63 节点选用板的【源】界面
图2-64 节点选用板的【字段选项】界面
图2-65 节点选用板的【建模】中的【分类】界面
图2-66 初步建立的C5.0岩性预测模型流
【变量】节点设置:
【变量】节点用来导入分析数据。双击【变量】节点,出现【变量】节点的【浏览文件】界面,单击【浏览文件】(图2-67),选择目标分析数据,点击【打开】(图2-68),可以看到目标文件导入到了变量节点(图2-69),点击【应用】,分析数据导入成功。
图2-67 【变量】节点的【文件】界面(数据未输入)
图2-68 【变量】节点的【浏览文件】界面
图2-69 【变量】节点的【文件】界面(数据已经输入)
【类型】节点设置:
【类型】节点用来设置输入变量和目标变量的【测量】和【角色】。AC、CALI、CNL、DEN、GR、PORE、RI、RT、RXO、VCL属于输入变量,为数值型,其【角色】设置为【输入】,【测量】设置为连续;岩性变量属于目标变量,为分类型,其角色设置为【目标】,【测量】设置为【名义】(图2-70),点击【应用】,设置成功。
图2-70 【类型】节点界面
【分区】节点设置:
【分区】节点可以把样本数据分成训练集和测试集。选择【训练和测试(T)】,设置【训练分区大小】为90,【测试分区大小】为10,点击【应用】,设置成功。如图2-71。
图2-71 【分区】节点界面
【C5.0】节点设置:
【C5.0】节点用来建立C5.0预测模型。
在【字段】界面设置输入 和输出变量,本次选择【使用预定义角色(D)】(图2-72)。
在【模型】选项卡设置C5.0模型的基本参数(图2-73),选择【使用分区数据】和【为每个分割构建模型】;【输出类型】选择【决策树】;使用【使用Boosting】和【交叉验证】来提高模型的准确性,【试验次数】设置为10,【折叠次数】设置为10;【模式】中选择【简单】;【支持】中选择【简单】。
在【分析】界面中选择【计算预测变量重要性】(图2-72)。
图2-72 【C5.0】节点的【字段】界面
图2-73 【C5.0】节点的【模型】界面
图2-74 【C5.0】节点的【分析】界面
点击运行,生成C5.0模型运行结果(图2-75);同时为了方便地分析预测结果的准确性,添加分析节点,如图2-76。
图2-75 含有模型运行结果的C5.0岩性预测模型流(钻石形状的节点为模型运行结果)
图2-76 含有【分析】节点的C5.0岩性预测模型流
双击【分析】节点,点击【运行】(图2-77),得到模型的分析结果(图2-78)。其中,【1_培训】代表训练集,【1_测试】代表测试集;从分析结果可以轻易看到,训练集的预测准确性为90.7%,测试集的预测准确性为93.75%,说明模型的预测精度高,泛化能力强,能较准确地区分砂砾岩和泥岩。
图2-77 【分析】节点的【分析】界面
图2-78 【分析】结果界面
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。