什么是数据清洗的评估

数据清洗的评估实质上是对清洗后的数据的质量进行评估,而数据质量的评估过程是一种通过测量和改善数据综合特征来优化数据价值的过程。数据质量评价指标和方法研究的难点在于数据质量的含义、内容、分类、分级、质量...
阅读全文

数据清洗的主要应用领域

目前,数据清洗主要应用于三个领域:数据仓库、数据挖掘和数据质量管理。 (1)数据清洗在数据仓库中的应用 在数据仓库领域,数据清洗一般是应用在几个数据库合并时或多个数据源进行集成时。例如,指代同一个实体...
阅读全文

数据仓库体系结构的4个层次

数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Varia...
阅读全文
Hive的特征:Hive的系统架构 数据仓库

Hive的特征:Hive的系统架构

Hive特征 Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hiv...
阅读全文

数据集市(数据市场)的特点特征

数据集市(数据市场)的特点特征 数据集市,也叫数据市场,是一个从操作的数据和其他的为某种特殊的专业人员团体服务的数据源中收集数据的仓库。 正如概念所述,数据集市也只是一个数据仓库,数据集市的特点是: ...
阅读全文

典型的数据仓库元数据的例子

典型的数据仓库元数据的例子 简单地说,元数据就是关于数据的数据,可以理解为数据仓库的数据字典。正如我们在操作系统中要存储文件/目录的元数据:文件名、文件大小、文件类别、创建人、修改人、访问时间等,在数...
阅读全文

数据仓库与数据库的区别

在大数据出现之前,数据库在传统应用中,占据了十分重要的地位——所有业务数据的存储都使用数据库,因此也出现了MySQL、Access、DB2、Oracle、SQL Server等很多数据库和厂商。 数据...
阅读全文

数据仓库之父William H.Inmon关于数据仓库的定义

仓库是一个出现了上千年的概念,意思是盛装物品的巨大容器,比如粮食仓库、弹药仓库、原材料仓库等。而之所以称为“数据仓库”,也正是使用了仓库的本意。 顾名思义:数据仓库就是盛装了大量数据的巨大容器。 这里...
阅读全文

数据仓库如何管理

数据仓库如何管理 数据仓库不要求和相关的操作数据保持同步,如果应用程序有需要的话,可以做到一天更新一次。几乎所有的数据仓库产品都可以存取多个企业数据源,不必重写应用程序来解释和利用数据。在异构数据库环...
阅读全文

数据仓库的应用范围

数据仓库的应用范围 数据仓库的应用范围非常广泛,若有正确的数据源,则可在此核心之上建置各种不同的分析应用系统,例如: ❑客户关系管理(Customer Relation Management) ❑企业...
阅读全文

构建数据仓库的原因、目的、意义

构建数据仓库的原因、目的、意义 构建数据仓库的原因 E世纪的到来加上因特网的发达,使我们能够快速地取得数据,但相对的就造成了现代企业普遍面临的问题:数据太多,信息不足。随着企业的成长及规模的扩大,每天...
阅读全文
数据仓库的整体架构 数据仓库

数据仓库的整体架构

数据仓库的整体架构 数据仓库(Data Warehousing)是一种能正确地组合与管理不同数据源的技术,其目的在于回答您业务经营上的问题以便让您做出正确决定。 数据仓库的整体架构如下:  1-8 数...
阅读全文

数据挖掘和数据仓库的关系

数据挖掘和数据仓库的关系 在大多数情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中。从数据仓库中提取进行数据挖掘的数据有许多好处。 数据仓库的数据清理和数据挖掘的数据清理差不多,如果...
阅读全文

联机事务处理(OLAP)的发展历史与背景由来

联机事务处理(OLAP)的发展历史、背景由来 自20世纪80年代开始,许多企业利用关系型数据库来存储和管理业务数据,并建立相应的应用系统来支持日常的业务运作。这种应用以支持业务处理为主要目的,被称为联...
阅读全文

数据仓库的数据模型具有的特点

数据仓库的数据模型具有的特点 在创建数据仓库时需要使用各种数据模型对数据仓库进行描述,数据仓库的开发人员依据这些数据模型才能开发出一个满足用户需求的数据仓库。因此,数据仓库的设计需要先进行数据模型的设...
阅读全文

数据仓库设计的主要内容

数据仓库设计的主要内容 数据仓库设计的主要任务是进行数据建模,确定数据仓库中数据的内容及其构成关系。数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。 1.概念模型 数据仓库的概...
阅读全文

数据仓库开发的特点特征

数据仓库开发的特点特征 数据仓库的使用就是在数据仓库中建立决策支持系统应用,这与业务处理系统应用环境有着本质的区别,这也导致数据仓库开发与传统的OLTP系统开发在开发出发点、需求确定、开发过程中有相当...
阅读全文

沃尔玛的数据仓库

沃尔玛的数据仓库 在美国或其他发达国家,超市的管理者会津津乐道尿布与啤酒的故事,这个故事的主角就是沃尔玛。利用数据仓库技术,沃尔玛对商品进行市场类组分析,即分析哪些商品顾客最有希望一起购买。沃尔玛数据...
阅读全文

元数据的主要内容

元数据的主要内容 1) 数据源的元数据 (1) 每个来源的所有者描述信息。 (2) 每个来源的业务描述信息。 (3) 原始来源的更新频率。 (4) 每个来源使用的法律约束。 (5) 存取方法、存取权利...
阅读全文

元数据的类型

1) 按元数据的类型分类 (1) 关于基本数据的元数据:基本数据是指数据源、数据仓库、数据集市和应用程序管理的所有数据。基本数据的元数据包括定义、结构的所有描述。 (2) 用于数据处理的元数据:对数据...
阅读全文