6.3.3 知识发现的过程
数据挖掘不仅是面向特定数据库的简单检索、查询和调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,并试图发现事件之间的关联性,甚至利用已有的数据对未来的活动进行预测。通过数据选取、预处理、变换、模式提取、知识评估以及过程优化,运用判别分析、聚类分析、探索性分析等统计方法来发现和获取知识。知识发现的基本过程可大致分为三个模块:数据准备、数据挖掘以及结果的解释评估,如图6-8所示[16]。
1.数据准备
数据准备又可分为三个子步骤:数据选取、数据预处理和数据变换。数据选取的目的是确定发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据库中抽取的一组数据。数据预处理一般可能包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值数据转换为离散型数据,以便于符号归纳,或是把离散型数据转换为连续值型数据,以便于神经网络归纳)等。当数据开采的对象是数据仓库时,一般来说,数据预处理已经在生成数据仓库时完成了。数据变换的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。
图6-8 知识发现过程示意图
2.数据挖掘阶段
数据挖掘阶段首先要确定挖掘的任务或目的是什么,如数据总结、分类、聚类、关联规则发现或序列模式发现等。确定了挖掘任务后,就要决定使用什么样的挖掘算法。同样的任务可以用不同的算法来实现,选择实现算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用与之相关的算法来挖掘;二是用户或实际运行系统的要求,有的用户可能希望获取描述型的、容易理解的知识,而有的用户或系统的目的是获取预测准确度尽可能高的预测型知识。完成了上述准备工作后,就可以实施数据挖掘操作了。
3.结果解释和评价
数据挖掘阶段发现出来的结果,可能存在冗余或无关的模式,经过用户或机器的评价,需要将其剔除;也有可能模式不满足用户要求,这时则需要整个发现过程退回到发现阶段之前,如重新选取数据、采用新的数据变换方法、设定新的数据挖掘参数值,甚至换一种挖掘算法(如当发现任务是分类时,有多种分类方法,不同的方法对不同的数据有不同的效果)。另外,由于KDD最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示,如把分类决策树转换为“if□then□”规则。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。