首页 百科知识 数据挖掘的定义

数据挖掘的定义

时间:2023-06-20 百科知识 版权反馈
【摘要】:传统的OLTP可以认为回答了“是什么”这个问题,而OLAP则是在“为什么”上进行了努力。与OLAP不同,数据挖掘是数据驱动的,它是在不基于任何假设的前提下,通过对数据的分析,挖掘出数据中潜在的模式,得到最有价值的规律。在进行银行信用风险调查时,如果使用OLAP,分析人员必须首先设定一些假设条件,如高负债低收入的人有信用风险,分析人员可以利用OLAP,通过对有关数据进行分析来验证或推翻这个假设。

6.5.1 数据挖掘的定义

由于数据库技术的飞速发展,企业决策者在决策过程中经常面临着这样一个问题:一方面,企业能够比较容易地获得和存储大量的业务数据;另一方面,存储于数据库中且仍在快速增长的庞大数据,已远远超过人类的处理和分析理解能力。数据挖掘(Data Mining,简称DM)技术的出现,有效地解决了这一难题,因为它可以从大量数据中挖掘或抽取出有用的知识。

数据挖掘,又称为数据库中知识发现(Knowledge Discovery from Database,简称KDD),它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。整个知识发现的过程如图6-11所示,主要步骤有:

图6-11 知识发现过程

数据清洗,其作用就是清除数据噪声和与挖掘主题明显无关的数据;

数据集成,其作用就是将来自多数据源中的相关数据组合到一起;

数据转换,其作用就是将数据转换为易于进行数据挖掘的数据存储形式;

数据挖掘,它是知识发现的一个基本步骤,其作用就是利用智能方法挖掘数据模式或规律知识;

模式评估,其作用就是根据一定评估标准(interesting measures)从挖掘结果筛选出有意义的模式知识;

知识表示,其作用就是利用可视化和知识表达技术,向用户展示所挖掘出的相关知识。

可见,数据挖掘仅仅是整个知识发现过程中的一个重要步骤,但由于目前工业界、媒体、数据库研究领域中,“数据挖掘”一词已被广泛使用并被普遍接受,因此本书也广义地使用“数据挖掘”一词来表示整个知识挖掘过程,即数据挖掘就是一个从数据库、数据仓库或其他信息资源库的大量数据中发掘出有趣的知识。

数据挖掘的特点

在企业决策过程中,管理人员通常会有很多信息需求,比如,首先他需要了解商务过程中发生了什么?接下来要了解它为什么发生?顾客和市场的行为是怎样的?最后还要了解可以做什么,即采取什么样的行动。传统的OLTP可以认为回答了“是什么”这个问题,而OLAP则是在“为什么”上进行了努力。但是随着问题的复杂程度越来越高,“怎么办”就成为高层管理人员的核心问题了。

OLAP是由用户驱动的,一般是由分析人员预先设定一些假设,然后使用OLAP工具去帮助验证这些假设,它提供了可使分析人员很方便地进行数据分析的手段。但是,在大规模的数据中,如果仅是根据某个或是几个逻辑假设来进行验证的话,就可能会丧失对一些潜在的而事先未知的模式进行检验的机会,这样就不会得到新颖的模式了。与OLAP不同,数据挖掘是数据驱动的,它是在不基于任何假设的前提下,通过对数据的分析,挖掘出数据中潜在的模式,得到最有价值的规律。

下面,我们通过一个例子说明两者的区别。在进行银行信用风险调查时,如果使用OLAP,分析人员必须首先设定一些假设条件,如高负债低收入的人有信用风险,分析人员可以利用OLAP,通过对有关数据进行分析来验证或推翻这个假设。而对于使用数据挖掘来说,并不需要做出特别的假设,算法会找出对银行信用风险有影响的因素,而且还有可能发现按照常规思维认为不可能的一些影响因素,如年龄、地区或者某些因素的某种组合。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈