数据仓库设计的主要内容
数据仓库设计的主要任务是进行数据建模,确定数据仓库中数据的内容及其构成关系。数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。
1.概念模型
数据仓库的概念模型是一个数据仓库的粗略蓝本,以此为工具确认数据仓库的设计者是否已经正确地理解了数据仓库最终用户的信息需求。在概念模型的设计中,必须将注意力集中在对业务的理解上,保证数据仓库的所有业务都被归纳进概念模型。与数据库的概念模型设计类似,也采用“实体-关系”(E-R)方法来建模,但不同的是需要用分析主题代替传统E-R方法中的实体。
2.逻辑模型
传统业务数据库设计中的逻辑模型一般采用范式规范的表及其关系。数据仓库设计中的逻辑模型也采用表来存储数据,因此,数据仓库中使用的也是关系模型,不过表与表之间不再通过三大范式进行规范,而是以星型架构、雪花型架构和星座型架构等方式组成。
3.物理模型
物理模型是关系表在物理上实现的模型,通常进行索引、簇集和视图的设计等,以及为提高性能而做的一些工作。
4.粒度模型
数据粒度模型也在数据仓库的设计中发挥着指导作用,指导着数据仓库的具体实现。
(1) 单粒度模型,在系统中只设计一个粒度。
(2) 多粒度模型,在系统中涉及多个粒度,低粒度、中粒度、高粒度并存。
(3) 混合粒度,在系统中,有些维度用单粒度,有些维度用多粒度。