在这部分内容中,通过结合领域知识和专家经验,基于群决策、多目标决策方法和数据挖掘理论与技术,结合二次挖掘和知识发现的深层分析思想,针对信用风险数据,一个层次分析模型被提出用来评估、识别和优选最佳的分类方法。事实上,方法的评估和选择问题由来已久并将一直存在,是一个古老而又活跃的热点研究领域,且是人工智能,商业分析、数据挖掘、统计学习和机器学习领域的一个重要研究方向[58]。
Rokach[21]指出方法的评估和选择通常被考虑为多目标决策问题。然而,不同的多目标决策方法往往会产生有矛盾的排序,因此分类方法的结果就不能很好地统一而达成一致[158],在进行决策时,分类方法的价值往往就被弱化。没有免费的午餐定理指出不存在任何一种方法能够优于其他方法解决各种问题。这个定理被Wolpert和Macready[60]所证明。因此,在合理限制条件下,如针对特定的领域问题或特定的数据集的最优化问题是需要重点研究且是具有挑战性的难题。针对这个难题,本书通过结合领域知识和专家经验,基于群决策、多目标决策和数据挖掘理论提出一个层次分析模型,试图找出最鲁棒的分类方法以提高挖掘效率。提出的层次分析模型包含三个阶段:数据挖掘阶段、多目标决策阶段和二次挖掘阶段。评估流程如图5-3所示。
图5-3 分类方法评估流程图
在第一阶段,也就是数据挖掘阶段,为了便于说明和理解,基于10个分类方法度量指标和10个最具影响力的信用风险评估方法,包括Bayes Network(BNK),Naive Bayes(NBS),Logistic Regression(LRN),J48,NBTree,IB1,IBK,SMO,RBF Network(RBF)和Multi-Layer Perceptron(MLP)被用来建模,在WEKA 3.7下完成。
在第二阶段,也就是多目标决策阶段,4个经典且重要的多目标决策方法——TOPSIS,GRA,VIKOR和PROMETHEEⅡ被用来度量分类方法的绩效,并提供一个初始的排序列表。不只一个多目标决策方法用来解决排序问题是十分有意义的,因为由多个多目标决策方法获得的排序更客观、更可靠、更有说服力。所有的MCDM方法在MATLAB 7.0中实施。
在第三阶段,也就是二次挖掘阶段,考虑了专家共识的结果展示被用来确定一个最终排序——分类方法的优先级列表。这里,专家共识体现在方法的评估和选择上,在进行多目标决策评估时,每个多目标决策方法需要考虑领域知识和专家经验,被赋予同等重要的权重。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。