首页 百科知识 数据仓库与数据挖掘的概念

数据仓库与数据挖掘的概念

时间:2023-10-03 百科知识 版权反馈
【摘要】:数据仓库围绕某些主题,剔除对决策无用的数据。数据仓库中的数据是在对原有分散的数据库数据抽取、 整理的基础上,经过系统加工和汇总得到的。数据仓库的建立,充分考虑数据挖掘的要求。决策要求系统能够提供更高层次的决策辅助信息,而基于数据仓库的数据挖掘能更好地满足高层战略决策的要求。数据仓库作为数据挖掘的对象,要为数据挖掘提供更多、 更好的数据。

1. 数据仓库

(1) 数据仓库的定义

数据仓库 (Data Warehouse) 是面向主题的、 集成的、 相对稳定的、 不同时间的数据集合,用于支持经营管理中的决策过程。

数据仓库概念的提出,使数据操作环境与数据分析环境分离开来,建立一种数据存储体系结构,把分散的、 不利于访问的数据转换成集中、 统一、 随时可用的信息,从而可以集成不同形式的数据,并为数据分析提供系统开放性。

诸多数据仓库的定义具有共同特征: 首先,数据仓库包含大量数据,其中一些数据来源于组织中的操作数据,也有一些数据可能来自组织外部 其次,组织数据仓库更加便利地使用数据进行决策,而且数据仓库为最终用户提供了可用来存取数据的工具。

(2) 数据仓库的特点

①面向主题。

数据仓库围绕某些主题,剔除对决策无用的数据。 主题是针对决策问题而设置的,是对应企业中某一宏观分析领域所涉及的分析对象,在较高层次上将企业信息系统中的数据综合、 归类并进行分析抽象。 每一个主题都是决策者所关心的问题。 企业中高层管理者在制定策略时,更关心的是主题,因此数据仓库更注重从决策者的角度来组织和提供数据。

②数据的集成性。

数据仓库中的数据是在对原有分散的数据库数据抽取、 整理的基础上,经过系统加工和汇总得到的。 对原始数据的集成是构建数据仓库的关键,主要包括编码转换、 度量单位转换和字段转换。

③数据不可修改。

从数据的使用方式来看,数据仓库的数据是不可更新的,即当数据被存放到数据仓库中之后,最终用户只能通过分析工具对其中的数据进行查询、 分析,而不能对数据进行修改。

④数据与时间相关。

数据仓库中的数据通常包含企业当前的和历史的数据。 每隔一定的时间就需要对源数据库中的数据进行抽取和转换,并集成到数据仓库中。 也就是说,数据仓库中的数据随时间变化而定期地被更新,以确保分析结论的时间有效性。

2. 数据挖掘

(1) 数据挖掘的定义

数据挖掘 (Data Mining,DM) 是从大量的、 不完全的、 有噪声的、 模糊的、 随机的数据中提取隐含在其中的、 人们事先不知道的、 但又是潜在有用的信息和知识的过程。 数据挖掘可以看成是一种数据搜索过程,它不必先假设或提出问题,但仍能找到那些非预期的却令人关注的信息,这些信息表示了数据元素的关系与模式。 它能挖掘出数据潜在的模式 (Pat ̄tern),找出最有价值的信息和知识。 研究对象是大规模和超大规模的数据集合。

(2) 数据挖掘的任务

数据挖掘的任务主要是关联分析、 聚类分析、 分类、 预测、 时序模式、 偏差分析等。

①关联分析 (associationanalysis)。

两个或两个以上变量的取值之间存在某种规律性,就称为关联。 数据关联是数据库中存在的一类重要的、 可被发现的知识。 关联分为简单关联、 时序关联和因果关联。 关联分析的目的是找出数据库中隐藏的关联网。 一般用支持度和可信度两个阈值来度量关联规则的相关性,还不断引入兴趣度、 相关性等参数,使所挖掘的规则更符合需求。

②聚类分析 (clustering)。

聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。 聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相关性。

③分类 (classification)。

分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。 分类可被用于规则描述和预测。

④预测 (predication)。

预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。 预测关心的是精度和不确定性,通常用预测方差来度量。

⑤时序模式(time-seriespattern)。

时序模式是指通过时间序列搜索出的重复发生概率较高的模式。 与回归一样,它也是用已知的数据来预测未来的值,但这些数据的区别是变量所处的时间不同。

⑥偏差分析 (deviation)。

在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。 偏差检验的基本方法就是寻找观察结果与参照值之间的差别。

3. 数据仓库与数据挖掘的关系

数据仓库和数据挖掘二者既相互结合,又相互影响、 相互促进。 二者的联系概括如下。

(1) 数据仓库为数据挖掘提供了丰富的数据源

数据仓库中集成和存储着来自异质的信息源的数据,同时数据仓库存储了大量长时间的历史数据,可以进行数据长期趋势的分析,为决策者的长期决策提供支持。 数据仓库中,数据在时间轴上的纵深性是数据挖掘不能回避的又一个新难点。

(2) 数据仓库为数据挖掘提供了新的支持平台

作为数据挖掘对象,数据仓库技术的产生和发展为数据挖掘技术开辟了新的战场,提出了新的要求和挑战。 数据仓库一般设计成只读方式,数据仓库的更新由专门的一套机制来保证,数据仓库对查询的强大支持,使数据挖掘效率更高。

(3) 数据仓库为更好地使用数据挖掘工具提供了方便

数据仓库的建立,充分考虑数据挖掘的要求。 数据仓库为数据挖掘集成了企业内各部门的全面的、 综合的数据,数据挖掘要面对的是关系复杂的企业全局模式的知识发现。 而且数据仓库机制大大降低了数据挖掘的障碍,一般情况下,进行数据挖掘时,要花大量的精力在数据准备阶段,数据仓库中的数据已经被充分收集起来,进行了整理、 合并,并且有些还进行了初步的分析处理。 这样,数据挖掘的注意力能够更集中于核心处理阶段。

(4) 数据挖掘为决策层提供了更好的决策支持

决策要求系统能够提供更高层次的决策辅助信息,而基于数据仓库的数据挖掘能更好地满足高层战略决策的要求。 数据挖掘对数据仓库中的数据进行模式抽取和发现知识,从数据仓库中揭示出对企业有潜在价值的规律知识,形成知识发现,为知识管理提供了内容,在知识管理中起到中流砥柱的作用。

(5) 数据挖掘对数据仓库的数据组织提出了更高的要求

数据仓库作为数据挖掘的对象,要为数据挖掘提供更多、 更好的数据。 其数据的设计、组织都要考虑到数据挖掘的要求。

(6) 数据挖掘还为数据仓库提供广泛的技术支持

数据挖掘的可视化技术、 统计分析技术等都为数据挖掘提供了强有力的技术支持,总之,数据仓库在纵向和横向都为数据挖掘提供了更广阔的活动空间。 数据仓库完成数据的收集、 集成、 存储、 管理等工作,数据挖掘面对的是经过初步加工的数据,使数据挖掘能更专注于知识的发现。

4. 数据仓库与数据挖掘的区别

数据仓库是一种存储技术,它的数据存储量是一般数据库的100倍以上,它包含大量的历史数据、 当前的详细数据以及综合数据。 它能为不同用户的不同决策需求提供所需的数据和信息。 而数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈