20世纪80年代中期,“数据仓库”这个名词首次出现在比尔·恩门(Bill Inmon)的《建立数据仓库》一书中。对于数据仓库概念,他给予如下描述:数据仓库是一个集成的(Integrated)、具有主题导向的(Subject Oriented)、不可更新的(Non-Updatable)并随时间不断变化的(Time Variant)数据集合。
很多人会把数据仓库和数据库两者的概念相混淆。传统的数据库一直被用于联机业务处理(On Line Transaction Processing,OLTP)中,也就是将日常的事务处理中的数据以表格的形式存放在数据库中,按用户的要求对数据库里的数据进行查询和处理。而数据仓库主要是用于决策支持,其主要目的是提取信息并加以扩展。从广义上讲,数据仓库与数据库并无二致,因为两者都是一个数据的集合。只是数据库是侧重于快速、准确、安全、可靠的将数据存入数据库中,而数据仓库则侧重于能从数据库中快速、准确、安全、可靠地取出数据来,再进行加工转换形成有规律的信息,供管理人员分析使用。数据库与数据仓库的区别主要表现在以下几个方面。
(1)从作用上讲,前者只能帮助进行简单的数据检索,也称为事务性支持,在决策支持上信息不足;后者为战术性和战略性决策支持提供信息,面向分析型数据处理。
(2)从数据的来源来讲,前者主要是当前的交易数据,是未加工的原始数据,最多只做一般性的加工和汇总;后者是对多个异构的数据源有效集成,包含当前和历史的,经过清洗、筛选、转载等加工形成统计性、总结性的数据,成为辅助决策的有用的信息。
(3)从数据的广度来讲,前者是局部、专门的部门数据,后者更具有广泛性和普遍性,不仅有企业内部还有来自企业外部和经营相关的数据。
(4)从稳定性来讲,前者是事务性数据,不停发生变化的;后者相对稳定,数据长期被保留。
数据仓库的特征满足企业对数据的分析要求,为企业提供了多维的、当前和历史的详细资料,并且克服了数据库的有限查询、数据容易重复、利用率低的缺点。那些具有数据仓库的公司,已开始体验到其所带来的优势,以及以前不可能达到的业务成果。