首页 理论教育 数据挖掘主要用的模型

数据挖掘主要用的模型

时间:2023-02-14 理论教育 版权反馈
【摘要】:由于行业背景不同,对数据挖掘结果的展现、理解方式、运行时间、经济成本和质量指标要求等均有差异,如何缩小挖掘的结果与用户心理预期之间的差距,提高挖掘结果的准确性和实用性,是当前数据挖掘,同时也是基于多目标决策的数据挖掘研究的热点和难点问题。现有的基于领域知识和专家经验的研究成果同样适用于基于多目标决策的数据挖掘。

随着物联网、移动互联网、互联网金融技术的突飞猛进,社会产生的数据正以前所未有的增长速度激增[1-2]。商业、科研和政府机构相继建立起许多大型的数据库,积累了海量的异构数据。伴随计算机技术的迅猛发展,我们已经步入了大数据时代,怎么从数量巨大且复杂异构的数据中更好地提取出有用的信息,成为一个愈发重要且亟待解决的难点问题[3-5]。数据挖掘近年来作为信息处理的一门新兴的核心骨干技术[6],其主要原理是从海量数据中挖掘、提取和识别出有价值的模式、知识和规律,并将其进一步高效地指导商业决策和进行科学研究[7-10]。目前数据挖掘已经在金融领域、医疗领域、通信领域、制造领域、司法领域、软件工程、生物工程等领域得到了广泛应用[11-15]

方法或模型评估问题在许多学科领域都是一个活跃的且具有挑战性的研究热点问题,并且该问题将一直存在。没有免费的午餐定理(No Free Lunch)说明和指出:性能完全最优的方法或模型是永远不存在的[16],也就是说,不存在具有普适性的最优方法。而决策者往往又十分关注和重视最优决策,如何针对给定的目标问题或数据集,来选定合适的评估方法或模型以找寻最优决策,建立一套高效实用的方法评估机制,是一个极具挑战性的难题。近十几年来,许多研究者侧重于为各种数据挖掘任务(如关联规则挖掘、分类、聚类等)和数据类型(如文本、图形、多媒体等)建立新方法或新模型[17]。同时通过对在1944年到2005年期间发表的数据挖掘期刊、会议及学位论文进行文献调研分析,1600多篇论文中关于方法或模型的研究高达70%[18]。由于这些研究的核心在于设计和开发鲁棒的、高效率的新方法或新模型,所以学者们把其称为“方法驱动的数据挖掘”[19]。方法驱动的数据挖掘是数据挖掘的技术基础,推动了数据挖掘学科的进步。然而,由于许多研究者大多都将精力聚焦在设计新方法和开发新模型上,很少能够对挖掘出的结果进行深入的处置与分析,造成用户难以理解挖掘出的结果,能操作性的概率就更低,使得用户不能够轻松、有效地掌握和使用它们,造成知识及数据资源的无形浪费。

2007年,“知识驱动的数据挖掘”最早由Graco等在国际数据挖掘的会议上提出[19-20]。在相同的年份,“富含知识的数据挖掘”由Domingos在数据挖掘的权威期刊上提出[17-18]。知识在这里是指领域知识、专家经验等。知识驱动的数据挖掘和富含知识的数据挖掘的提出,表明知识越来越被受到重视。从数据挖掘项目决策者的角度来看,其关注的核心问题仍然是知识发现的问题,强调的是能够为企业创造利润、创造价值、提升竞争优势的可行动知识[11]。由于行业背景不同,对数据挖掘结果的展现、理解方式、运行时间、经济成本和质量指标要求等均有差异,如何缩小挖掘的结果与用户心理预期之间的差距,提高挖掘结果的准确性和实用性,是当前数据挖掘,同时也是基于多目标决策的数据挖掘研究的热点和难点问题。

Rokach[21]认为方法或模型的评估和选择需要考虑多个度量指标,如方法或模型的预测精度、方法或模型的稳定性、方法或模型的泛化能力等,因此可以被看作多目标决策问题[21]。而多目标决策方法不仅能够基于多个相互矛盾乃至冲突的度量指标进行方案评估,而且还可以很好地反映决策者对评价指标的主观偏好,因此多目标决策方法在方法或模型评估领域具有很大的潜在优势。现有的基于领域知识和专家经验的研究成果同样适用于基于多目标决策的数据挖掘。而多目标决策在数据选取、方法构建、参数设置、结果表达这些步骤中所具有的特性,对知识驱动的数据挖掘又提出了新的要求。

本书通过把领域知识、专家经验和多目标决策与数据挖掘相结合,突出交叉学科的融合优势,整合优势资源,对基于多目标决策的数据挖掘的方法评估问题展开深入研究和探讨,建立基于多目标决策的数据挖掘的方法评估理论框架,并开发EWAHPGDM方法来确定准则权重。基于建立的方法评估理论框架,针对分类方法评估和聚类方法评估问题建立实证应用,并开展二次挖掘与知识发现,提高数据挖掘的效率和结果的可理解性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈