首页 百科知识 的实施方法

的实施方法

时间:2023-06-18 百科知识 版权反馈
【摘要】:二、BI的实施方法BI的实施是一项相当复杂的系统工程,进行每一步实施都必须认真规划、仔细准备、制定详细的步骤。BI系统的实施过程分为前期准备、系统分析、系统设计、系统开发、系统上线与维护五个阶段。同样,BI系统的特点决定了在系统实施的各个阶段都要保证业务人员的参与。为了保证BI系统项目的顺利进行,需要指定专人参与到系统建设中,即要明确项目组的成员。

二、BI的实施方法

BI的实施是一项相当复杂的系统工程,进行每一步实施都必须认真规划、仔细准备、制定详细的步骤。BI系统的实施过程分为前期准备、系统分析、系统设计、系统开发、系统上线与维护五个阶段。

1.前期准备

在这一阶段,主要有四个任务:第一,保证主管领导全线参与;第二,保证业务人员的参与;第三,明确项目组成员;第四,制定项目开发进度。这些都是保证后续阶段顺利进行的必要条件。

在BI系统的各个实施阶段,都要保证主管领导的参与。BI系统的实施一般涉及不同的业务部门和IT部门的配合与协调问题,若没有主管领导的参与,在系统的开发建设过程中,就难以在各个部门之间进行有效的沟通,可能无法拿到需要的数据,进而影响项目的进展。

同样,BI系统的特点决定了在系统实施的各个阶段都要保证业务人员的参与。BI系统是业务驱动,而不是IT驱动,只有业务人员及时、主动、详细地提出业务需求,帮助实施人员分析各种业务问题,项目周期才能得到控制,系统最终才能顺利实施,并且得到有效利用。为了让业务人员与实施人员进行良好沟通,需要业务人员了解BI的基本概念、系统架构、BI能带来什么好处等,因此在前期准备阶段,还需要对业务人员提供一定的技术培训。

为了保证BI系统项目的顺利进行,需要指定专人参与到系统建设中,即要明确项目组的成员。项目组一般由企业领导挂帅,其他成员包括IT部门和各职能部门的主管、相关业务人员、实施人员等。

项目组成员名单确定的同时,还需要制定项目开发进度,明确规定各后续阶段所用的时间及各阶段所应完成的任务,保证后续工作有章可循。

前期准备过程中,可根据需要开办企业全体人员参加的动员会,强调BI系统的重要性,普及BI的基本知识,宣布项目组成员及项目开发进度。

2.系统分析

BI系统分析,主要是对商业需求和信息来源进行分析。该阶段的重要性不言而喻:如果做得不好,不仅后续阶段无法进行,严重影响项目实施进度,还有可能导致上线后的BI系统可用性差,造成人力、物力的大量浪费。

在分析商业需求时,项目实施人员要与企业IT经理、业务部门的相关人员不断交流、反复沟通,充分理解和收集主要的业务需求、报表需求等。同时根据企业信息化现状,共同找出可以改进的报表体系和业务需求中需要改进的地方,并将所有沟通结果文档化。在分析商业需求时,经常询问业务人员的问题包括:业务人员所在部门承担的任务是什么?业务人员本身所承担的任务是什么?为了完成任务,业务人员需要用到哪些报表?

在商业需求初步确定后,即对商业需求进行规划后,项目实施人员应与企业IT经理、业务人员进行深层次的交流,主要目的是对比规划的商业需求满足现有业务需求的程度,并根据对比结果及时修正并确认业务人员对BI的需求,包括报表的需求、分析模式的需求等。

信息来源分析主要是对可能的信息来源进行调查,包括从顾客服务、商品销售、存货采购、会计财务、人力资源、市场调查与电子商务等相关系统中考察可以收集的信息源。在分析信息来源时,经常询问业务人员的问题包括:对于用户需要的报表信息,从哪里可以得到?这些信息得到后如何进行处理?这些信息是根据用户需要产生的,还是在定期报表中产生的?

在对信息来源进行调查时,可能会发现有些信息源凌乱不堪、难以获取。一定要在信息来源分析阶段花费足够的时间来充分研究这些信息源,将凌乱的数据规范化,提高后期建立数据仓库时的效率。

在明确了商业需求和信息来源之后,实施人员就进入到系统设计阶段。

3.系统设计

BI系统设计,包括系统拓扑结构设计、软硬件产品选型、数据仓库设计、数据挖掘设计、终端用户应用程序设计五个部分。

(1)系统拓扑结构设计。在设计系统拓扑结构时,有两种拓扑可供选择:一种是“Hub & Spoke”,一种是集中式。这两种拓扑结构如图6-5所示。

图6-5 BI系统拓扑结构

资料来源:王闯舟:《数据仓库技术及其在银行业的应用》,载《网络世界周报》,2003年,第50期。

“Hub & Spoke”如图6-5(a)所示,是传统的BI系统拓扑结构,最上层是业务系统;中间层是中央数据库,负责统一数据存储和刷新数据集市;再下层是数据集市,负责提供信息访问;最底层是前端显示,供业务人员使用。之所以把这种结构称为“Hub and Spoke”,是因为中央数据库汇集了来自各业务系统的数据,同时也负责向各从属数据集市提供信息,看上去像一个Hub(轮轴)一样。而业务人员在进行数据分析与信息访问时将根据需要连接到不同的数据集市,这种交叉复杂的连接看上去就像Spoke(辐条)一样。

“Hub & Spoke”解决了企业内统一数据存储模型的问题,实施比较容易,前期投入少。但从实际应用的效果来看存在一些缺陷:第一,数据冗余比较严重,难以保证数据的一致性;第二,业务人员对信息的访问不方便,很难跨数据集市或跨部门进行信息分析;第三,层次相对较多,导致数据采集较缓慢,从业务系统到用户访问的数据延迟也比较大;第四,随着时间的推移,数据的增多,需要增加数据集市,后期投入和维护成本较高。

“集中式”的架构如图6-5(b)所示,它与“Hub & Spoke”最主要的差别在于将数据集市分成物理数据集市与逻辑数据集市两种。物理数据集市设立在中央数据仓库之外,具有专门的软硬件设备。逻辑数据集市设立在中央数据仓库之内,由在基础数据之上形成的小结表或者逻辑视图组成。业务人员既可以访问物理数据集市中的多维立方体,也可以访问中央数据仓库内的小结表或者逻辑视图。其中的物理数据集市可考虑使用OLAP服务器,因为基于OLAP服务器的数据集市比基于RDBMS的数据集市容易维护,规模也相对较小。

“集中式”架构的中间系统非常庞大,是一个集中的企业级数据仓库,采用符合数据库范式理论(即第三范式)的存储模型来保存基础数据,从而为整个企业提供一致的信息视图。它又划分了几个层次:第一层,数据转换与缓冲区,借助数据仓库引擎强大的查询处理能力,通过SQL实现数据的转换和清洗,作为对ETL工具的补充;第二层,详细的基础数据,将第一层处理后的数据按照数据库设计的基础理论进行存储;第三层,逻辑数据集市,主要是按照业务需求,建立视图和小结表,加快用户的访问速度。

具体要选择哪种拓扑结构,需要根据企业的预算、数据的规模、IT人员的技术水平等方面考虑。拓扑结构确定后,就可以选择具体的BI产品,即软硬件产品选型了。

(2)软硬件产品选型。在进行BI产品选型时,首先应了解BI应用中涉及的各种产品在系统中扮演的角色和该角色需要的关键“素质”,根据这些特性,结合行业技术发展方向对产品进行筛选。

具体说来,在ETL产品方面,由于其工作量要占整个系统工作量的70%左右,因此ETL工具的选择一定要非常慎重。能够连接各种数据源是最基本的要求,其他应该考虑的问题有:能否加入客户自定义的数据转换编码,管理调度是否完善,能否支持XML等多种形式数据的接入,有没有数据质量监控的功能等。除此之外,还应考虑可伸缩性、与现有数据库系统和其他系统的兼容性等。

在数据仓库存储管理部分,关系数据库仍是市场的主流。在选择具体产品时需要考虑的问题是:数据库系统的开放性、大规模并行处理的支持程度、在系统需要扩充时扩展性的好坏以及需要维护的工作量。同时,由于关系数据库对决策分析的扩展支持在数据仓库的性能上起到重要的作用,而这些技术各厂商的产品支持程度有很大的不同,因此必须仔细研究各厂商的产品手册,同时事先了解各种优化策略的适用范围和限制,并根据自身企业应用的特点进行选择。

选择数据挖掘产品时应考虑的因素很多,如计算性能、功能性、可用性、辅助性能等。计算性能包括支持的商业平台,软件的架构,能否连接不同的数据源,扩展性,稳定性等;功能性包括是否提供足够多样的算法,能否避免挖掘过程黑箱化,算法能否应用于多种类型的数据,用户能否调整算法和算法的参数,能否以不同的形式表现挖掘结果等;可用性包括用户界面是否友好,软件是否易学易用,软件面对的用户是初学者、高级用户还是专家,适用于某一专业领域还是多个领域等;辅助功能包括是否允许用户更改数据集中的错误值或进行数据清洗,是否允许值的全局替代,能否将连续数据离散化,能否根据用户制定的规则从数据集中提取子集,能否将数据中的空值用某一适当均值或用户指定的值代替,能否将一次分析的结果反馈到另一次分析中,等等。除此之外,还应考虑与数据仓库系统的集成和配合等。

(3)数据仓库设计。产品选型确定以后,开始设计数据仓库。数据仓库设计主要包括概念模型设计、逻辑模型设计、物理模型设计、ETL规则设计。

在系统分析阶段,已经对企业的信息源有了充分了解,在此基础上进行数据仓库的概念模型设计。概念模型设计的目的就是要在原有数据库的基础上建立一个较为稳固的概念模型,即通过对原有数据库系统的分析理解,站在企业全局的角度,为来自各个面向应用的数据库的数据建立一个统一的概念视图。

逻辑模型设计的主要任务是对每个需要装载的主题的逻辑事先进行定义,为数据仓库提供元数据。在设计逻辑模型时,不仅要考虑最初分析的主题域,还要兼顾其他管理决策的主题需求,以及报表查询主题的需求。

物理模型设计主要是根据数据的使用频度、使用方式、使用规模和响应时间等因素确定数据的存储结构、索引策略、数据存放位置、存储分配等。

ETL规则设计包括数据抽取设计、数据转换和数据加载设计。数据抽取设计主要是设计接口,保证数据可以从数据库、文件或其他来源进行抽取。数据转换设计是个很烦琐的过程,具体包括空值的转换、数据的拆分、缺失数据的替换等。数据加载设计包括设计数据加载周期、数据追加策略等。

(4)数据挖掘与终端应用程序设计。数据挖掘设计是根据数据挖掘的目的,即在系统分析阶段所确定的业务需求,进行数据选择,进一步选择适用的挖掘算法,如关联规则、聚类检测、决策树、神经网络、遗传算法、支持向量机等。终端用户应用系统设计主要用于确定以何种形式将联机分析处理、数据挖掘分析的结果呈现给用户。

4.系统开发

系统开发阶段的主要任务是创建数据仓库、设置各种软硬件产品的具体环境。

在系统设计阶段,我们已经进行了数据仓库的概念模型设计、逻辑模型设计、物理模型设计和ETL规则设计,接下来就需要将数据装入到数据仓库中,并在其上应用数据挖掘和OLAP,建立数据仓库的应用。具体实现是运用选用的ETL工具,使用在系统设计阶段中得到的ETL规则,对数据进行抽取、转换、清洗,最后把数据装入数据仓库。除了使用ETL工具外,可能还需要实施人员手工编制一些接口程序,完成从操作型环境到数据仓库环境的数据抽取、转换与集成。在创建数据仓库的过程中一定要确保数据质量,即保持数据仓库中的数据与业务数据的一致性。

设置各种软硬件产品具体环境是指安装在系统设计阶段所选择的软硬件产品、添加用户信息、设置用户权限等。

5.BI系统上线与维护

当数据仓库创建完毕、各种软硬件也已经到位后,BI系统就可以上线了,即BI系统投入使用。具体地说,BI系统上线,是指应用所选择的数据挖掘算法和OLAP工具,提炼数据仓库所包含的数据背后的潜在知识,进一步辅助决策。在系统上线的过程中,可能要参照以前老系统的运行结果,对新构建的BI系统中的各种参数进行调整,保证系统的实用性、准确性。

虽然BI系统的目的是辅助决策,但并不是说该系统只应提供给高层领导使用,在实际应用中,很多决策是由位于企业中下层的一些业务人员做出的,因此,BI系统在上线后要注意“平民化”,即实现信息的集体分发,打破以往信息专递(给领导)的弊病,让更多的业务人员参与BI系统的应用,并将BI系统融合到日常工作中。

BI系统的维护与其他系统有着本质区别,BI系统在运行过程中,不仅需要处理例行的分析要求,如部门统计分析、报表分析等,还需要处理启发式的分析要求,这些启发式的分析要求随机性很大,因此需要根据用户的使用情况和反馈的新分析要求,不断对系统进行完善。除此之外,BI系统的维护工作还包括管理数据仓库的一些日常活动,如刷新数据仓库的当前详细数据、将过时的数据转化成历史数据、清除不再使用的数据、调整粒度级别等。此外,维护工作还包括通过数据库稽查对系统安全信息进行管理,对系统效率进行管理等。

概括起来,BI系统的实施,一般包括以下过程:①前期准备:确定参与人员与项目进度;②系统分析:对企业的商业需求和信息来源进行分析;③系统设计:结合商业需求和现有信息源,详细设计BI系统涉及的各个模型、结构、子系统、模块和工具;④根据系统设计结果,填充数据仓库,搭建实际的系统;⑤系统的上线与维护:对系统进行实际应用、调整和各种维护。从这一过程可以看出,BI系统的实施涉及的人员众多,系统复杂,实施过程长,花费高,因此企业实施BI系统的过程,必须具有全盘考虑,并予以高度重视,否则可能会事倍功半,达不到预期的效果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈