2.3.4.1 C&RT界面介绍
IBM SPSS Modeler18.0提供了C&RT节点,如图2-79。
图2-79 IBM SPSS Modeler18.0的C&RT节点图示
表示C&RT节点:分类和回归(C&RT)树节点生成可用于预测或分类未来观测值的决策树。该方法通过在每个步骤最大限度减少杂质来使用递归分区将训练记录拆分为段。如果树中某个节点中所有个案都属于目标字段的某个特定类别,那么将认为该节点是“纯节点”。目标和输入字段可以是数字范围或分类(名义、有序或标志);所有拆分均为二元拆分(即仅拆分为两个子组)。
C&RT节点设置:
C&RT节点的参数设置包括【注释】【模型选项】【构建选项】【字段】4张选项卡。本次重点介绍的是【构建选项】选项卡。
【字段】选项卡,用来指定C&RT模型的输入变量和目标变量,如图2-80。
图2-80 C&RT模型的【字段】选项卡界面
【构建选项】选项卡用来设置C&RT的主要参数,选择项目包括【目标(O)】【基本(B)】【中止规则(S)】【成本和先验】【整体】【高级】6类,如图2-81。
【目标(O)】选项卡可以用来指定C&RT的建立方式。
建立一个决策树模型时要选择【构建单个树】,并需要指定单个决策树的模式。
【生成模型】,表示自动建立和修建分类回归树。
【启动交互对话】,表示通过用户交互方式建立和修建会归树。
IBM SPSS Modeler允许建立多个C&RT决策树模型。
【增强模型准确度(boosting)】表示采用boosting集成算法优化C&RT决策树模型,用来提高模型预测的准确度,从而获得更精确的预测结果。具体思路如下:产生多个模型,每个模型是在整个数据集中建立;在建立每个后续模型之前,需要根据前一个模型的残差进行加权,具有较大残差的样本将会被附以较高的权重,从而使下一个模型能够较好的分析这些样本。这些建立的模型共同构建一个整体的集成模型。
【增强模型稳定性(bagging)】表示采用bagging集成算法优化C&RT决策树模型,用来提高模型预测的稳定性,从而得到更可靠的预测结果。具体思路如下:首先对原始数据集进行有放回的抽样,得到多个与原始数据集相同数目的新的数据集;然后利用每个新得到的数据集进行建模,这些模型共同构成一个集成模型。
这里需要说明的是,当数据质量较好的时候,利用Boosting集成算法优化模型效果最好;当数据质量较差的时候,利用bagging集成算法优化模型效果最好。
图2-81 C&RT模型的【构建选项】选项卡中的【目标(O)】界面
【基本(B)】选项卡中设置C&RT的预剪枝和后剪枝的基本参数,如图2-82。
【最大树深度】框中可以设置分类会归树不包括根节点在内的最大树深度。
【缺省(5)(D)】,指的是默认分类会归树不包括根节点在内的最大树深度为5。
【定制(C)】指的是可以自己的需要设置分类会归树不包括根节点在内的最大树深度。
【修剪】框中,设置决策树剪枝。
【剪枝树以防止过拟合(P)】,指定决策树进行后修建。
【设置最大风险误差(标准误差)(F)】,指定放大因子m的值(默认为1.5)。
图2-82 C&RT模型的【构建选项】选项卡中的【基本(B)】界面
【中止规则(S)】,该选项卡用来设置分类回归树预剪枝的其他参数,如图2-83。
【使用百分比(P)】和【使用绝对值(B)】框中,用来指定一样本百分比或样本量为标准设置预修剪策略。
如果选择【使用百分比(P)】,
【父分支中的最小记录数(%)(M)】设置为2,【子分支中的最小记录数(%)(N)】设置为1的意思是,当父节点的样本百分比(占总样本量的百分比)低于指定值2%时,不继续分组;当子节点的样本百分比(占总样本量的百分比)低于指定值1%时,不继续分组。
如果选择【使用绝对值(B)】,
【父分支中的最小记录数(C)】设置为100,【子分支中的最小记录数(I)】设置为50的意思是,当父节点的样本数低于指定值100时,不继续分组;当子节点的样本数低于指定值50时,不继续分组。
图2-83 C&RT模型的【构建选项】选项卡中的【中止规则(S)】界面
【成本和先验】选项卡,用来设置损失矩阵和先验分布,如图2-84。
【错误分类成本】框,用来定义错判损失矩阵。
【使用错误分类成本调整先验】表示,如果定义了损失矩阵,则以损失矩阵自动调整各个类别的权重。损失大的类别权重较大,损失小的类别权重较小。由于模型总是倾向于高权重类别,因此,这种方法能够有效地避免大损失的惩罚。
图2-84 C&RT模型的【构建选项】选项卡中的【成本和先验】界面
【整体】选项卡,一方面用来指定使用Boosting或者Bagging集成算法建立模型的个数,另一方面用来指定预测时,如何采纳各模型的预测结果(图2-85)。
【Bagging和大型数据集】框中是指定预测时,如何采纳各模型的预测结果。
如果建立的是分类树,在【分类目标的缺省合并规则(C)】中指定,包括投票、获胜的最高概率、最高均值概率,默认为投票,如图2-86。如果是建立的是回归树,在【连续目标的缺省合并规则(O)】中指定,包括平均值、中位数,默认为平均值,如图2-87。
【Boosting和Bagging】框中用来指定使用Boosting或者Bagging集成算法建立模型的个数。设置【用于Boosting或Bagging的成分模型数量】为10,表示利用Boosting或Bagging集成算法建立10个模型。
图2-85 C&RT模型的【构建选项】选项卡中的【整体】界面
图2-86 C&RT模型的【分类目标的缺省合并规则(C)】选项界面
图2-87 C&RT模型的【连续目标的缺省合并规则(O)】界面
【高级】选项卡,用来设置分类回归树建立和剪枝过程的高级参数,如图2-88。
【最小杂质改变(M):】指的是预修剪策略参数,通过控制分支过程中,节点内输出变量取值差异的减少程度,阻止决策树的进一步生长。IBM SPSS Modeler的默认最小改变量是0.0001,表示当输出变量取值差异的减少程度小于0.0001时,决策树不在生长。
【分类目标的杂质测量(L):】中,可以指定决策树的分割方法,包括Gini、两分法、有序,默认为Gini(图2-89)。
图2-88 C&RT模型的【构建选项】选项卡中的【高级】界面
图2-89 C&RT模型的【分类目标的杂质测量(L):】界面
2.3.4.2 简单例子
C&RT属于分类回归树,可以有效地解决分类和回归问题。本次以预测A井目的层段致密砂砾岩岩性为例,来详细介绍C&RT的使用。
C&RT岩性预测模型建立的具体操作如下:
本次利用的数据是A井目的层段测井和岩性数据。
插入【变量】节点(位于节点选用板的【源】中,如图2-90)、【类型】节点(位于节点选用板的【字段选项】中,如图2-91)、【分区】节点(位于节点选用板的【字段选项】中,如图2-91)和【C&RT】节点(位于节点选用板的【建模】中的【分类】中,如图2-92),依次连接,C&RT岩性预测模型流初步设置成功,如图2-93。
图2-90 节点选用板的【源】界面
图2-91 节点选用板的【字段选项】界面
图2-92 节点选用板的【建模】中的【分类】界面
图2-93 初步建立的C&RT岩性预测模型流
【变量】节点设置:
【变量】节点用来导入分析数据。双击【变量】节点,出现【变量】节点的【浏览文件】界面,单击【浏览文件】(图2-94),选择目标分析数据,点击【打开】(图2-95),可以看到目标文件导入到了变量节点(图2-96),点击【应用】,分析数据导入成功。
图2-94 【变量】节点的【文件】界面(数据未输入)
图2-95 【变量】节点的【浏览文件】界面
图2-96 【变量】节点的【文件】界面(数据已经输入)
【类型】节点设置:
【类型】节点用来设置输入变量和目标变量的【测量】和【角色】。AC、CALI、CNL、DEN、GR、PORE、RI、RT、RXO、VCL属于输入变量,为数值型,其【角色】设置为【输入】,【测量】设置为连续;岩性变量属于目标变量,为分类型,其角色设置为【目标】,【测量】设置为【名义】(图2-97),点击【应用】,设置成功。
图2-97 【类型】节点界面
【分区】节点设置:
【分区】节点可以把样本数据分成训练集和测试集。选择【训练和测试(T)】,设置【训练分区大小】为90,【测试分区大小】为10(图2-98),点击【应用】,设置成功。
图2-98 【分区】节点界面
【C&RT】节点设置:
【C&RT】节点用来建立C&RT预测模型。
在【字段】选项卡界面设置【预测变量(输入)P*:】和【目标(T)*:】,本次选择【使用预定义角色(D)】(图2-99)。
图2-99 【C&RT】节点的【字段】界面
在【构建选项】选项卡设置C&RT模型的基本参数。
在【目标(O)】选项卡中规定C&RT模型的建立方式,本次选择【增强模型稳定性(bagging)】,建立C&RT-bagging集成学习模型(图2-100)。
图2-100 【C&RT】的【构建选项】选项卡中的【目标(O)】界面
在【基本(B)】选项卡中设置C&RT模型的预剪枝和后剪枝的基本参数(图2-101)。选择【缺省(5)(D)】,即规定分类回归树不包括根节点在内的最大树深度为5;选择【剪枝树以防止过拟合(P)】,即规定分类回归树进行后修剪。
图2-101 【C&RT】的【构建选项】选项卡中的【基本(B)】界面
在【中止规则(S)】选项卡中设置分类回归树预剪枝的其他参数(图2-102)。本次选择【使用百分比(P)】,即使用样本百分比为标准设置预修剪策略;设置【父分支中的最小记录数(%)(M)】为2,【子分支中的最小记录数(%)(N)】为1,也就是当父节点的样本百分比(占总样本量的百分比)低于指定值2%时,不继续分组;当子节点的样本百分比(占总样本量的百分比)低于指定值1%时,不继续分组。
图2-102 C&RT模型的【构建选项】选项卡中的【中止规则(S)】界面
在【成本和先验】选项卡中设置损失矩阵和先验分布,如图2-103;选择【使用错误分类成本(M)】和【使用错误分类成本调整先验(D)】。
图2-103 C&RT模型的【构建选项】选项卡中的【成本和先验】界面
本次通过Bagging集成算法优化模型,需要在【整体】选项卡中设置使用Bagging集成算法建立模型的个数以及如何采纳各模型的预测结果(图2-104)。本次设置【用于Boosting或Bagging的成分模型数量】为10,即利用Bagging技术建立10个模型;在【分类目标的缺省合并规则(C):】中设置【投票】,也就是所有模型预测结果出现次数最多的岩性即为预测结果。
图2-104 C&RT模型的【构建选项】选项卡中的【整体(E)】界面
在【高级】选项卡中设置C&RT模型建立和剪枝过程中的高级参数(图2-105)。
设置【最小杂质改变(M):】为0.00001,即当输出变量取值差异的减少程度小于0.0001时,决策树不在生长;设置【分类目标的杂质测量(L):】为【Gini】,即决策树利用Gini的分割方法;设置【过度拟合防止集合(%)(O)】为30,即在训练样本集的过程中,再随机抽取30%的样本,训练模型,用来跟踪训练过程中的错误。
图2-105 C&RT模型的【构建选项】选项卡中的【高级】界面
点击运行,生成C&RT模型运行结果(图2-106);同时为了方便的分析预测结果的准确性,添加分析节点,如图2-107。
图2-106 含有模型运行结果的C&RT岩性预测模型流(钻石形状的节点为模型运行结果)
图2-107 含有【分析】节点的C&RT岩性预测模型流
双击【分析】节点,点击【运行】(图2-108),得到模型的分析结果(图2-109)。
图2-108 【分析】节点的【分析】界面
其中,【1_培训】代表训练集,【1_测试】代表测试集;从分析结果可以轻易看到,训练集的预测准确性为89.53%,测试集的预测准确性为81.25%,说明模型的预测精度高,泛化能力强,能较准确地区分砂砾岩和泥岩。
图2-109 【分析】结果界面
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。