数据仓库的开发策略有六种模式,如图3-19所示。
自上而下模式是先构建企业范围内的数据仓库,然后根据各个业务过程的需求分析,将数据仓库内的数据调入数据集市进行分析。此模式从企业整体出发,考虑到各个主要业务过程的分析需求,能够对数据进行有效的集成,避免冗余,提供统一的数据访问。其缺点是由于涉及的范围广,需要花费的时间、人力、财力都相对较多,因此风险高,短期内不容易看到效果。
图3-19 数据仓库开发的六种模式
自下而上模式是先根据各个业务过程的需求分析,按照紧迫程度先后构建各个数据集市,然后集成数据集市中的数据,最终构成数据仓库。初期投资少,见效快。但由于是从局部出发,没有纵观企业全局,可能导致不同的数据集市中的数据存在不一致性和冗余。因为它在建立部门数据集市时只需要较少的人做出决策,所以适合解决较小的商业问题。
平行开发模式是在一个企业范围内的数据仓库的数据模型指导下,进行数据集市的建立和全局性数据仓库的建立。例如,统一数据源中的数据格式、类型、命名及语义的定义等。每个平行开发模式可避免各部门在开发各自的数据集市时的盲目性,减少各数据集市之间的数据冗余和不一致,同时数据集市的这种相对独立性也有利于全局性数据库的建设。
以上三种模式都没有考虑如何将用户的反馈信息不断地反映到数据集市和数据仓库的建设中。因此,为了解决用户需求变化的问题,引入了以下三种模式。
有反馈的自上而下模式在全局性数据库建立好之后,需求的变化将主要体现在数据集市与数据仓库之间。该模式可以在各个部门数据集市发展时保持相互之间的数据一致性并能根据用户的反馈信息不断调整自身,以这种模式建立的数据仓库在投入使用后能减少因用户需求变化而带来的不便。
有反馈的自上而下模式分为两个阶段。第一阶段用户的新需求不断地被反馈给部门的数据集市,部门数据集市根据用户的新需求产生自身的需求变化。第二阶段部门数据集市把自身的需求变化反馈给全局性数据仓库,全局性数据仓库再做出相应的变化。
有反馈的平行开发模式在开发的初始阶段,开发人员主要是在全局性数据仓库的数据模型指导下建立部门数据集市,并把在建立过程中所遇到的问题、解决方案以及用户的意见等信息反馈给全局性数据仓库数据模型。全局性数据模型在指导部门数据集市建设的同时,也收集开发人员和部门用户的反馈信息并根据这些信息调整自身。经过调整,可以使下一阶段全局数据仓库的建设相对顺利地进行。
在选择以上六类数据仓库开发实施策略时,可参考具体实施情况,综合考虑成本、效益和结果等因素择优实施,以实现数据仓库开发的成功。