沃尔玛的数据仓库

2020年11月9日21:07:37沃尔玛的数据仓库已关闭评论

沃尔玛的数据仓库

在美国或其他发达国家,超市的管理者会津津乐道尿布与啤酒的故事,这个故事的主角就是沃尔玛。利用数据仓库技术,沃尔玛对商品进行市场类组分析,即分析哪些商品顾客最有希望一起购买。沃尔玛数据仓库里集中了各个商店一年多来详细的原始交易数据。

在这些原始交易数据的基础上,沃尔玛利用自动数据挖掘工具(模式识别软件)对这些数据进行分析和挖掘。沃尔玛公司近年来用大容量的数据仓库来进行数据挖掘和客户关系管理,对其3000多家零售店的8万种产品时刻把握利润最高的商品品种和数量。

沃尔玛利用NCR的Teradata对7.5TB的数据进行存储,这些数据主要包括各个商店前端设备(POS、扫描仪)采集来的原始销售数据和各个商店的库存数。Teradata数据库里存有196亿条记录,每天要处理并更新2亿条记录,要对来自6000多个用户的4.8万条查询语句进行处理。销售数据、库存数据每天夜间从3000多个商店自动采集过来,并通过卫星线路传到总部的数据仓库里。沃尔玛数据仓库里最大的一张表格(Table)容量已超过300GB,存有50亿条记录,可容纳65个星期3000多个商店的销售数据,而每个商店有5万~8万个商品品种。

沃尔玛的领导者们在从事由数据变信息、由信息变知识的知识挖掘工作,通过全球全集团、全方位、全过程、全天候的自动数据采集技术,改变传统的依靠假设和推断来确定订货的方式,从数据的不断积累过程中以小时为单位动态地运行决策模型,导出数亿个品种的最佳订货量最和佳商品组合分配、降价以及商品陈列等。如今,沃尔玛已将其数据仓库容量扩充了一倍以上,由44TB扩大到101TB,容量为全球第二大数据仓库的两倍以上。利用数据仓库,沃尔玛在商品分组布局、降低库存成本、了解销售全局、进行市场分析和趋势分析等方面均有卓越的表现。

传统的关系数据库一般采用二维表的形式来表示数据,一维是行,另一维是列,行和列的交叉处就是数据元素。关系数据的基础是关系数据库模型,通过标准的SQL语言来加以实现。

数据仓库是多维数据库,它扩展了关系数据库模型,以星型架构为主要结构方式,并在它的基础上,扩展出理论雪花型架构和数据星座等方式。但不管是哪一种架构,维度表、事实表和事实表中的量度都是必不可少的组成要素。

DW设计是一个由操作型系统设计方法演变而来的范例。DW设计者不仅要设计一个数据库(DW用DB实现)和一个用户接口(数据展现部分),而且还必须设计数据与OLTP系统的接口、数据装载策略、数据存取工具、用户培训方案和不间断的维护方案,即必须考虑许多在操作型系统设计中不必考虑的问题。本章主要介绍如何建立和实现DW和在设计一个完整的DW时必须考虑的问题。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。