当前位置:首页 > 营销知识 > 网站数据分析 > 正文

现代企业数据仓库系统建设


Data: 2015-08-11
 

企业数据仓库建设的需求

 

    信息作为现代企业的宝贵资源,占据着越来越重要的地位,已经成为现代企业科学管理的基础,正确决策的前提,有效调控的手段。能否拥有及时、准确、全面的信息已经成为衡量一个企业是否具有发展潜力的一个重要指标。

 

    经过多年的努力,目前大多数企业根据自己的业务特点和办公的需要,建立了一大批各自的业务处理系统和企业办公自动化系统,积累了大量的业务数据。这些业务信息系统为提高企业的工作效率,减少重复性的工作起到了积极的作用,为企业的发展做出了巨大贡献。

 

    目前,企业信息化建设呈现出“数据集中化、业务综合化、管理扁平化、决策科学化”的发展趋势。面对激烈的市场竞争,许多大型企业纷纷实施“以客户为中心,以服务求发展”的经营策略。 如何优化客户关系,增强企业的竞争优势已经成为现代企业关注的焦点。现有的应用系统往往以“产品”为中心,以“单据(票证)”处理为基础,是面向联机事务处理(Online Transaction Processing,简称OLTP)的系统,而以客户为中心的经营管理模式要求对现有业务系统的数据进行有效的集成并加以重组,建立面向联机分析处理(Online Analysis Processing,简称OLAP)的系统。通过分析客户的行为,掌握不同类型客户的特征,进而为客户提供更加优质的服务,尤其是个性化的服务,同时全面掌握并理解、分析企业业务的发生情况,充分发挥企业现已积累的数据,为各级管理人员提供科学化管理和决策的有力依据,以提高企业的经营业绩,保证利润的持续增长。

 

    面对纷繁复杂的市场竞争,众多企业立足于多年积累的数据和自身的核心业务,提出了建立企业级数据仓库的规划和实施方案,为企业的进一步发展奠定基础。

 

企业数据仓库系统的总体结构

 

    一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用四个部分。





企业数据仓库系统体系结构

 

    数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于企业操作型数据库中(通常存放在RDBMS中)的各种业务数据和办公自动化(OA)系统包含的各类文档数据。外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等;

    数据的存储与管理:是整个数据仓库系统的核心。在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(通常称为“数据集市”,Data Mart)。数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。这些功能与目前的DBMS基本一致。

 

    OLAP服务器:对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数据趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;而HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。

 

    前端工具与应用:前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对OLAP服务器。

 

企业数据仓库建设的基本步骤

 

    对企业自身来说,数据仓库的建设是一个系统工程,是一个不断建立、发展、完善的过程,通常需要较长的时间。这就要求各企业对整个系统的建设提出一个全面、清晰的远景规划及技术实施蓝图,将整个项目的实施分成若干个阶段,以“总体规划、分步实施、步步见效”为原则,不仅可迅速从当前投资中获得收益,而且可以在已有的基础上,结合其他已有的业务系统,逐步构建起完整、健壮的数据仓库系统。

 

    企业数据仓库的建设通常按照快速原型法予以实施,主要包括:确定范围、环境评估、分析、设计、开发、测试和运行等几个阶段。同时企业数据仓库又是一个在原型的基础上进行不断迭代的过程。

 

1、确定范围

    确定范围的主要任务包括了解方向性分析处理需求,确定信息需求,确定数据覆盖范围。方向性需求包括:决策类型、决策者感兴趣的问题(或对象)等。在确定范围时应该重视的因素是必须用户驱动和数据驱动相结合,同时可以借鉴国内外已有的成功经验。

 

2、环境评估

    环境评估是对企业数据仓库系统建设的硬件环境和软件环境进行选型和准备。

    在硬件平台选择中需要选择与数据仓库系统规模相适应的核心服务器,同时我们认为数据仓库系统平台与业务处理平台应该相分离。

 

    软件平台的选择主要包括数据仓库引擎、OLAP引擎、前端分析展现工具的选择。产品进行测试是软件选型的一种有效方法,各个企业可以根据自身的数据状况对各类产品进行测试。

 

3、分析

分析阶段主要包括两个方面的任务是深入了解数据源和分析数据仓库系统所包含的主题域及其相互之间的关系。分析阶段必须坚持用户参与,并且与原有系统开发或维护人员进行深入的沟通。 

 

4、设计

    数据仓库设计的主要任务包括与操作型系统接口的设计和数据仓库本身的设计两个部分的内容。其中与操作型系统接口的设计主要是指数据抽取、清理、转换和刷新策略的设计。从多个不同的数据源中抽取数据,需要解决数据的不一致性,保证数据的质量。其中的不一致性主要包含模式冲突和语义冲突。从操作型数据库模型到数据仓库模型的转变需要大量细致的工作,例如:

-消除纯粹是操作型的数据;

-将包含在多个表中的有关数据进行合理合并;

-适当增加部分导出数据;

-在码值中增加时间关键字;

-按照合适的数据粒度进行综合。

 

    数据仓库本身的设计包括数据仓库逻辑数据模型的设计、数据仓库物理数据模型的设计。由于目前数据仓库产品尚未形成一套统一的标准,因此在数据仓库设计阶段必须要有数据仓库专家和数据仓库系统产品提供商的参与。

 

5、开发

    开发阶段所要完成的主要内容包括数据仓库建模、数据抽取和加载模块、数据访问模块以及开发实际应用撛?蛿。实际应用开发建议采用撌缘銛的方法,从急需的业务开始进行,应该重视的因素包括必须有行业专家的参与,同时必须有数据仓库专家的参与。

 

6、测试

    测试是保证系统可靠性的重要手段。数据仓库测试与一般软件系统测试不同的是数据仓库的测试不仅包括对软件系统的测试,同时包括对数据的测试。在测试阶段必须保证测试的充分性,同时注意测试数据的覆盖范围。

 

7、运行

    系统运行主要包括用户培训、数据加载、数据访问及应用等。在数据仓库系统的运行过程中,不断收集用户新的需求。

数据仓库系统的建设不可能一蹴而就,它是一个不断建立、完善、健全的过程。这个过程是随着业务量、业务范围和客户的不断发展而发展的,其成长的速度非常之快,同时随着业务的发展,数据仓库的价值也将随之增长。

最新更新文章