Rice在1976年提出了方法或模型选择的概念模型,包括4个部分:问题目标空间、特征目标空间、方法空间和方法性能空间,如图3-1所示[113]。图中,数控挖掘元学习领域聚焦在如何从特征目标空间寻找到方法性能空间之间的映射关系[113]。即针对目标数据集的自有特征和本质属性,如何选择合适的评估模型或方法,实现模型或方法的最佳绩效。而在模型的评估问题中,往往是根据模型或方法的绩效表现来评估和选择方法或模型的。因此,对方法或模型的绩效评估、深层挖掘是十分必要的。同时,建立科学的、合理的、全面的方法绩效评估指标体系自然也成为重点关注的问题。
图3-1 方法或模型选择的概念模型
本章通过将领域知识、专家经验,群决策和多目标决策理论引入到数据挖掘中,研究基于多目标决策的数据挖掘方法评估理论框架,提出一个能够提升数据挖掘技术效率的新的研究视角。面向信用风险管理、方法评估等管理学应用领域,进行分类方法评估和聚类方法评估,开展基于多目标决策的数据挖掘二次知识发现的实证研究,着重解决数据挖掘中存在的前沿问题,如缺乏对已有知识的再利用、挖掘结果的可理解度低、方法的评估与选择问题等,实现知识在基于多目标决策的数据挖掘中的再利用,为增强知识在数据挖掘中的再利用和共享建立理论基础。文章建立的基于多目标决策的数据挖掘方法评估理论框架由三阶段组件构成:数据挖掘阶段、多目标决策阶段和二次挖掘阶段。该方法评估理论框架综合了目标问题空间、数据挖掘任务类型、数据挖掘方法库、性能指标体系、多目标决策方法库、深层次知识发现六大模块,如图3-2所示。具体的方法评估理论框架如下:
(1)确定目标问题空间,选取目标数据。确定目标问题空间,提取待评估的目标数据集,分析和了解数据自有特征,并进行数据预处理,包括数据清洗、数据集成和数据变换等。
(2)明确任务类型。根据目标问题和数据特征,研判数据挖掘任务。数据挖掘任务可以分为描述性数据挖掘任务和预测性数据挖掘任务两大类[58],并且进一步可以细分为以下任务类型:概念/类描述,挖掘频繁模式、关联和相关,分类和预测,聚类分析,离群点分析和演变分析[58]。接下来的研究内容主要关注分类方法评估和聚类方法评估。
(3)选择适合目标问题的研究方法。尽管数据挖掘诞生的时间并不算长,但其发展却极其迅速。目前数据挖掘方法已有好几百种,具有一套完整的方法库。那么如何从如此庞大的方法库中选择合适的方法呢?最好的解决办法是根据目标问题结合数据本身的结构特征,具体问题具体分析。如对信用风险问题的分析中,最为关键的是信用评分模型的确定,而最为有效的信用评分模型则是分类方法,如贝叶斯分类方法、决策树分类方法、神经网络分类方法、k最近邻分类方法、支持向量机分类方法等[23-27]。
图3-2 基于多目标决策的数据挖掘方法评估理论框架
(4)建立方法性能评估指标体系。从科学性、全面性、可获得性和代表性的原则选取评估指标,建立针对方法性能评估的指标体系。如对于分类方法,一般有预测精度、真正率、平均绝对误差等,常用的评估指标有十来种,本书将在第4章展开详细的介绍。
(5)选择多目标决策方法。根据决策环境及目标问题,考虑模型评估时,多个指标之间存在矛盾或冲突的可能(如要提高方法预测精度,其时间成本往往也越高,而期待的时间成本则是越小越好),建立数据挖掘方法的综合评估方法,对模型的绩效评估进行深层次的挖掘。可以选择一个多目标决策方法,也可以选择多个多目标决策方法同时评估,以增强评估结果的可信度。
(6)对评估结果二次挖掘与知识发现。许多学者将注意力集中在开发新方法和新模型上,很少对挖掘出的结果进行进一步处理,使得用户不能很好地理解它们,造成潜在知识及数据资源的无形浪费。我们将进行二次挖掘与知识发现,增强用户的可理解性,并力图识别出潜在的模式与规则,以增强挖掘产生结果的准确性与实用性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。