4.3.3 数据仓库——传统数据库的未来发展
从未来发展方向看,构成我国商业银行内部报告系统的各数据库将从传统数据库向数据仓库发展,尽管目前国内商业银行实施数据仓库建设的难度较大。
“数据仓库之父”W.H.Inmon将数据仓库定义为:数据仓库是面向主题、集成、稳定、不同时间的数据集合,用以支持经营管理中的决策制定。数据仓库最根本的特点在于物理地存放数据,而且这些数据并非最新、专有,而是来源于其他数据库。具体来说,可从数据仓库的四个基本要素,即主题、集成性、稳定性和时间相关性来剖析其主要特征。
数据仓库是面向主题的。和传统数据库面向应用相对应,数据仓库是一种分析型的数据处理方式。在数据仓库中,基于主题组织的数据被划分为各自独立的领域,每个领域都有自己的逻辑内涵,相互之间没有交叉。在传统数据库中,基于应用的数据则是为了处理具体应用问题而组织在一起,只能实现对数据的操作型或事务型处理。比如商业银行数据仓库的主题可以是客户、存款、贷款、金融政策等,但如果按传统数据库来组织则可能是定期存款、活期存款等。
数据仓库是集成的。数据仓库的集成特性是指历史数据在进入数据仓库之前,必须经过数据重组,以有效地支持后续的联机数据分析和数据挖掘等技术的应用。数据重组是数据仓库建设中最关键、最复杂的一个环节。
数据仓库中的数据是相对稳定的。该特性是指数据仓库不需进行实时更新,数据仅需经过每天或每周的升级进入数据仓库。这一升级过程包括复杂的提取、概括、聚集和老化的过程。一旦数据进入数据仓库,就不允许用户进行更新。
数据仓库的时间相关性。数据仓库中的数据通常按照不同时期来组织,比如按日、季度或者年份。这种时间特性的重要性主要表现为三个方面:一是数据仓库中的数据保存时限一般为5~10年,能够较好地满足决策分析的需要;操作型环境中的数据保存时限一般只有60~90天。二是数据仓库中的数据都是历史数据;操作型环境则包含当前数据。三是数据仓库中的数据一般都会有时间项,用以标明该数据所属的历史时期。
商业银行在长期的经营中存储了大量客户信息和交易明细数据,它们各自分散在不同的数据库中。数据仓库的开发,将实现以创造性的方式来并联数据,并对这些数据加以综合。同时,建立数据模型并进行数据挖掘,将实现数据仓库与市场营销的结合,有助于商业银行与长期客户建立合作关系、提供准确的市场信息、预测客户的未来行为和客户对创新型服务产品的反应、向银行管理层提供各种分析资料、为决策提供信息支持,最终实现成功的客户关系管理。
理论上我国商业银行在开发数据仓库时,可参考以下核心步骤:第一,进行数据清理工作,建立数据结构模型。这一阶段要求商业银行从现有业务系统中筛选三个方面的数据:一是有关客户账号的数据;二是客户与商业银行分销渠道的所有历史交易明细数据;三是与资产和负债有关的业务系统的交易数据。同时,对它们进行归纳整理,然后加载到中央客户数据库的不同信息层,为数据仓库中存储的数据建立结构模型。进一步地,通过分析客户的具体指标以及对指标的量化来完善数据结构模型,并建立客户数据仓库的基本框架和基础环境。第二,定义数据的综合和转化过程,使系统自动将数据从不同的信息源中提取出来,并转移到数据仓库中。第三,综合运用并行技术、关系数据库系统,在已有数据结构模型的基础上建立数据仓库。第四,提供从数据仓库中获取所需数据、信息和知识的工具,比如交流界面和应用软件,便于客户进行有效的数据访问。
总之,构建性能卓越的数据仓库是一项难度较高的工作,往往需要开发者综合硬件厂商、数据库管理软件厂商、数据库访问和应用开发工具供应商以及系统集成商等各方面的技术力量。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。