首页 百科知识 随机森林模型对样本数量有要求吗

随机森林模型对样本数量有要求吗

时间:2023-11-01 百科知识 版权反馈
【摘要】:IBM SPSS Modeler涉及的集成算法包括Boosting技术、Bagging技术和随机森林技术。随机森林以C&RT作为基学习器,并通过有放回取样和引入随机属性,建立多个弱学习器,具有较强的预测能力。本次以预测A井目的层段致密砂砾岩岩性为例,来详细介绍随机森林的使用。点击运行,生成随机森林模型运行结果;同时为了方便的分析预测结果的准确性,添加分析节点,如图4-21。

4.3.1 手把手教你——集成学习


4.3.1.1 集成算法界面介绍

IBM SPSS Modeler涉及的集成算法包括Boosting技术、Bagging技术和随机森林技术。

可以用Boosting技术优化的模型主要包括神经网络、C5.0、C&RT。

可以用Bagging技术优化的模型主要包括神经网络、C&RT。

这里重点讲解随机森林(Random Trees)。

IBM SPSS Modeler18.0提供了随机森林节点,如图4-2。

图4-2 IBM SPSS Modeler18.0的随机森林节点图示

随机森林节点设置:

随机森林节点的参数设置包括【注解】【模型选项】【构建选项】【字段】4张选项卡,(如图4-2),本次重点介绍【构建选项】选项卡。

【字段】选项卡主要是用来规定随机森林模型的输入变量和目标变量(图4-3)。

图4-3 随机森林的【字段】选项卡界面

【构建选项】选项卡用来设置随机森林的主要参数,包括【基本】【成本】【高级】3个部分,如图4-4。

【基本】可以用来规定建立随机森林的基本参数,包括【构建模型】和【树增长】两个框,如图4-4。

其中,构建模型包括【要构建的模型数量】【样本大小(Z)】【处理不平衡数据(D)】3部分。

【要构建的模型数量】,指的是随机森林需要构建模型的最大数量,即构建基学习器的数量,默认值是100,代表建立100个模型。

【样本大小(Z)】,顾名思义,指的是构建模型的时候,需要的样本占整体样本的多少,该值的范围是0.0~1.0,1.0代表的是选取全部样本,0.9代表的是选取90%的样本;如果是大型的数据,可以通过减少样本来提高学习的性能。

【处理不平衡数据(D)】,指的是在建立模型的时候,当目标类型是标志,且所需结果或者非所需结果的比率较小,这样子数据是不平衡的,采用Bootstrap采用往往会影响模型的准确度;如果需要提高精度,就可以选择该项;系统则会采集需要结果的比例增大,模型精度更高。

【将加权采样用于变量选择(W)】,指的是采用加权的方式改变叶节点变量的选择;如果没有选择该项,那么叶节点的变量则是利用同一个概率来随机选择了。

【数增长】包括【最大节点数(X):】【最大树深度(T):】【最小子节点大小(M):】【指定要用于分割的预测变量数(S)】和【当不再提高准确性时停止构建(A)】5个部分。

【最大节点数(X):】,指的是规定决策树可以存在的最大的叶节点的数量;具体来说,就是决策树在下一次分割的时候,如果叶节点超过了的规定的数量,那么分割就会停止。

【最大树深度(T):】,指的是根节点下面的最大的叶节点的级别数;也就是样本进行分割的次数。

【最小子节点大小(M):】,指的是父节点被分割后,子节点的包含的最小样本数目;当父节点被分割后,子节点包含的样本数量少于这里规定的数目,那么父节点将不会分割。

【指定要用于分割的预测变量数(S)】,指的是规定用来分割的最小预测变量的数量;目的是用来防止分割创建过小的子组;需要说明的是,用来分割的变量数目不能够大于样本数据中的变量总数。

【当不再提高准确性时停止构建(A)】,指的是模型的准确性无法再通过构建决策树而调高时,为了提高模型的建立时间,可以选择此项;目的是准确性无法提高的情况下而停止建模过程,从而提高建模的效率。

图4-4 随机森林的【构建选项】选项卡的【基本】部分界面

【成本】包括一个【样本分类成本】框(图4-5)。

图4-5 随机森林的【构建选项】选项卡的【成本】部分界面

【高级】选项卡可以用来指定随机森林建立的高级参数(图4-6),包括【缺失值的最大百分比(X)】【排除单个类别的最大数超过以下的字段(%))(F)】【字段类别的最大数量(B)】【最小字段变异(V)】和【分级数】5个参数设置部分。

【缺失值的最大百分比(X)】,指的是规定变量中允许存在的最大缺失值百分含量;如果变量中缺失值含量超过了规定值,将会从模型构建中剔除掉。

图4-6 随机森林的【构建选项】选项卡的【高级】部分界面

4.3.1.2 简单例子

随机森林以C&RT作为基学习器,并通过有放回取样和引入随机属性,建立多个弱学习器,具有较强的预测能力。本次以预测A井目的层段致密砂砾岩岩性为例,来详细介绍随机森林的使用。

随机森林岩性预测模型建立的具体操作如下:

本次利用的数据是A井目的层段测井和岩性数据。

插入【变量】节点(位于节点选用板的【源】中,如图4-7)、【类型】节点(位于节点选用板的【字段选项】中,如图4-8)、【分区】节点(位于节点选用板的【字段选项】中,如图4-8)和【随机森林】节点(位于节点选用板的【Analytic server】中的【分类】中,如图4-9),依次连接,随机森林岩性预测模型流初步设置成功,如图4-10。

图4-7 节点选用板的【源】界面

图4-8 节点选用板的【字段选项】界面

图4-9 节点选用板的【建模】中的【分类】界面

图4-10 初步建立的随机森林岩性预测模型流

【变量】节点设置:

【变量】节点用来导入分析数据。双击【变量】节点,出现【变量】节点的【浏览文件】界面,单击【浏览文件】(图4-11),选择目标分析数据,点击【打开】(图4-12),可以看到目标文件导入到了变量节点(图4-13),点击【应用】,分析数据导入成功。

图4-11 【变量】节点的【文件】界面(数据未输入)

图4-12 【变量】节点的【浏览文件】界面

图4-13 【变量】节点的【文件】界面(数据已经输入)

【类型】节点设置:

【类型】节点用来设置输入变量和目标变量的【测量】和【角色】。AC、CALI、CNL、DEN、GR、PORE、RI、RT、RXO、VCL属于输入变量,为数值型,其【角色】设置为【输入】,【测量】设置为连续;岩性变量属于目标变量,为分类型,其角色设置为【目标】,【测量】设置为【名义】(图4-14),点击【应用】,设置成功。

图4-14 【类型】节点界面

【分区】节点设置:

【分区】节点可以把样本数据分成训练集和测试集(图4-15)。选择【训练和测试(T)】,设置【训练分区大小】为90,【测试分区大小】为10,点击【应用】,设置成功。

图4-15 【分区】节点界面

【随机森林】节点设置:

【随机森林】节点用来建立随机森林预测模型。

在【字段】选项卡中设置【预测变量(P)*】和【目标(T)】变量,本次选择【使用预定义角色(D)】(图4-16)。

图4-16 【随机森林】节点的【字段】界面

在【构建选项】选项卡中设置随机森林模型的参数。

在【基本】选项卡设置随机森林模型的基本参数(图4-17)。设置【要构建的模型数量】(N)为100,即建立100个模型;设置【样本大小(Z)】为1.0,即建立模型使用所有的样本;设置【最大节点数(X):】为10000,即规定决策树可以存在的最大的叶节点的数量为10000,当决策树在下一次分割的时候,如果叶节点超过了10000,那么分割就会停止;设置【最大树深度(T):】为10,即根节点下面的最大的叶节点的级别数为10;设置【最小子节点大小(M):】为5,即父节点被分割后,子节点的包含的最小样本数目为5,当父节点被分割后,子节点包含的样本数量少于5,那么父节点讲不会分割;选择【当不再提高准确性时停止构建(A)】,即模型的准确性在无法提高的情况下停止建模过程,从而提高建模的效率。

图4-17 【随机森林】节点的【构建选项】选项卡中的【基本】界面

在【成本】中选择【使用错误分类成本(M)】(图4-18)。

图4-18 【随机森林】节点的【构建选项】选项卡中的【成本】界面

【高级】选项卡可以用来规定随机森林建立的高级参数(图4-19)。设置【缺失值的最大百分比(X)】为70,即规定变量中允许存在最大缺失值的百分含量为70%,如果变量中缺失值含量超过了70%,将会从模型构建中剔除掉。

图4-19 【随机森林】节点的【构建选项】选项卡中的【高级】界面

点击运行,生成随机森林模型运行结果(图4-20);同时为了方便的分析预测结果的准确性,添加分析节点,如图4-21。

图4-20 含有模型运行结果的随机森林岩性预测模型流(钻石形状的节点为模型运行结果)

图4-21 含有【分析】节点的随机森林岩性预测模型流

双击【分析】节点,点击【运行】(图4-22),得到模型的分析结果(图4-23)。其中,【1_培训】代表训练集,【1_测试】代表测试集;从分析结果可以轻易看到,训练集的预测准确性为97.67%,测试集的预测准确性为93.75%,说明模型的预测精度高,泛化能力强,能较准确的区分砂砾岩和泥岩。

图4-22 【分析】节点的【分析】界面

图4-23 【分析】结果界面

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈