4 历史数据区
企业的数据是有一定生命周期的,有些数据可能对于当前企业的业务运营或者应用需求已经没有直接的价值,但由于一些监管或者审计的要求无法被直接物理删除,那么就需要对这些数据进行归档存储,这也是历史数据区的由来。
该区域的数据存储涉及两个关键点:数据生命周期规范的制定,因为数据生命周期决定什么数据在什么时间点进入该区域以及什么时候真正被物理删除;不同类型数据的存储方式,即不同类型的数据采用什么样的方式进行存储。
同时三种不同类型的数据区域,由于其不同的数据特点往往采用的历史数据备份的方式也不尽相同。但是,从数据的类型来看总体可以分为两种不同的方式。
❑对于结构化数据,可以通过历史拉链算法存储到关系型数据库(或者类似的支持结构化数据查询的数据库)的数据存储中。
❑对于半结构或者结构化数据,可以通过类似磁盘(例如基于HDFS的数据存储)的方式进行存储,同时构建该文件的索引以及相关信息,并存储到关系型数据库中进行查询。
历史数据区主要承担上述三个区域的数据归档保存的角色,为用户提供历史数据查询的功能,例如历史交易明细数据查询等。因此为了支持更快的查询速度,历史数据区对于数据的索引能力有着更高的要求。同时由于该区域主要的应用场景是查询,并不会涉及数据的修改等操作,所以历史数据区可以基于不同的存储技术或者数据特点进行合理的压缩存储。