2 集成型数据区
集成型数据区本质上是企业随着业务逐步发展的必然产物,企业自上而下,从实际的业务出发,提炼不同系统之间的数据共性,构建集成的数据区域,从而减少不同系统之间无序或难以管理的数据链路关系。如图7-3所示,这是一个典型的以集成型数据区为中心的跨系统数据交互关系图。
图7-3 以集成型数据区为中心的跨系统数据交互关系
集成型数据区将不同的应用系统作为数据源,抽取相关数据并进行集中处理等。不同的应用系统由于自身的应用特点,可能存在针对相同业务含义,有着不同的定义的情况。例如A系统将男女的枚举值定义为1、2,B系统则定义为Male、Female,那么集成型数据区就需要统一数据口径,消除不同数据源之间的不一致性,以保证企业级别的数据一致性信息。
与操作型数据区不同,数据进入集成型数据区之后,一般来说都会在数据生命周期内被长期地保留下来,并主要以查询为主,不会涉及数据的修改或者删除,相对稳定。数据按照它的特点进行定时的更新(ETL)以满足下游的数据需求。
因此集成型数据区往往包含历史信息,记录企业从集成区构建完成到不同阶段的信息。通过这些信息,我们可以对企业的发展以及未来进行一定的分析或者预测,进而支持后续的BI应用或者数据挖掘等。
将上面的内容总结下来,集成型数据区的特点就是面向主题的(Subject-oriented)、集成的(Integrated)、相对稳定的(Non-volatile)、反映历史变化的(Time-variant)数据集合,用于支持管理决策(Decision-making Support),这其实也是数据仓库之父William H.Inmon在 Building the Data Warehouse 一书中关于数据仓库的定义。
这里并没有直接将数据仓库等同于集成型数据区。因为在不同的阶段或者时代,集成型数据区的构成会发生变化。
集成型数据区承载企业数据流转以及运用的核心,特别是进入大数据时代,企业的数据以TB或者PB级别进行产生或者存储,那么集成型数据区的建设必然是一项繁杂浩大的工程。但是令人惊喜的是,虽然在集成不同源系统的数据时所采用的技术发生了变化,但是集成型数据区最核心的部分——数据分层以及数据建模背后的方法论并没有发生很大的改变,这是本部分的核心内容之一,也是企业数据架构的核心之一。
数据集成之后的主要目标是提高企业对于数据的利用率,而分析型数据区是集成型数据区的重要运用之一。