数据挖掘逐渐演变的过程

数据挖掘逐渐演变的过程 数据挖掘其实是一个逐渐演变的过程。 在电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当时机器学习成为人们关注的焦点。机器学习的过程就是将一些已知的并已被成功解决...
阅读全文

数据挖掘技术的由来与背景

数据挖掘技术的由来 现在,人们生活在一个信息爆炸的时代。 据估计,《纽约时报》一周报道的信息总量比18世纪一个人一生接触的信息总量还多。IDC发布的一份调研报告称,2010年创建数字信息总量将达到98...
阅读全文
啤酒与尿布案例的关联分析 数据挖掘

啤酒与尿布案例的关联分析

啤酒与尿布案例的关联分析 一个超市的销售系统记录了客户购物的情况。表7-7中记录了5位客户的购物清单。 表7-7 某超市5位客户的购物清单 超市经理想知道商品之间的关联,要求列出那些同时购买的、且支持...
阅读全文

Apriori算法的基本思想

Apriori算法的基本思想 频繁项集的所有非空子集也都必须是频繁的,这是Apriori的性质。基于这个性质,如果项集 I 不满足最小支持度阈值 minsup ,则 I 不是频繁的,即P( A )&l...
阅读全文

联机事务处理(OLAP)的发展历史与背景由来

联机事务处理(OLAP)的发展历史、背景由来 自20世纪80年代开始,许多企业利用关系型数据库来存储和管理业务数据,并建立相应的应用系统来支持日常的业务运作。这种应用以支持业务处理为主要目的,被称为联...
阅读全文

数据仓库的数据模型具有的特点

数据仓库的数据模型具有的特点 在创建数据仓库时需要使用各种数据模型对数据仓库进行描述,数据仓库的开发人员依据这些数据模型才能开发出一个满足用户需求的数据仓库。因此,数据仓库的设计需要先进行数据模型的设...
阅读全文

数据仓库设计的主要内容

数据仓库设计的主要内容 数据仓库设计的主要任务是进行数据建模,确定数据仓库中数据的内容及其构成关系。数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。 1.概念模型 数据仓库的概...
阅读全文

数据仓库开发的特点特征

数据仓库开发的特点特征 数据仓库的使用就是在数据仓库中建立决策支持系统应用,这与业务处理系统应用环境有着本质的区别,这也导致数据仓库开发与传统的OLTP系统开发在开发出发点、需求确定、开发过程中有相当...
阅读全文

沃尔玛的数据仓库

沃尔玛的数据仓库 在美国或其他发达国家,超市的管理者会津津乐道尿布与啤酒的故事,这个故事的主角就是沃尔玛。利用数据仓库技术,沃尔玛对商品进行市场类组分析,即分析哪些商品顾客最有希望一起购买。沃尔玛数据...
阅读全文

元数据的主要内容

元数据的主要内容 1) 数据源的元数据 (1) 每个来源的所有者描述信息。 (2) 每个来源的业务描述信息。 (3) 原始来源的更新频率。 (4) 每个来源使用的法律约束。 (5) 存取方法、存取权利...
阅读全文

元数据的类型

1) 按元数据的类型分类 (1) 关于基本数据的元数据:基本数据是指数据源、数据仓库、数据集市和应用程序管理的所有数据。基本数据的元数据包括定义、结构的所有描述。 (2) 用于数据处理的元数据:对数据...
阅读全文

什么是数据分割:数据分割的优点、标准、层次

什么是数据分割:数据分割的优点、标准、层次 分割也是数据仓库中的一个重要概念,它是指将数据分散到各自的物理单元中以便能分别进行独立处理,以提高数据处理的效率。数据分割后的数据单元称为分片。分割之后,小...
阅读全文

样本数据库的数据粒度

样本数据库的数据粒度 与通常意义的粒度不同,样本数据库的粒度级别不是根据综合程度的不同来划分的,而是根据采样率的高低来划分的。采样粒度不同的样本数据库可以具有相同的综合级别,一般它是以一定的采样率从细...
阅读全文

按时间段综合数据的数据粒度

按时间段综合数据的数据粒度 按时间段综合数据的粒度是对数据仓库中数据的综合程度高低的一个度量,一般是按照不同的时间段来综合数据,它既影响数据仓库中数据量的多少,也影响数据仓库所能回答询问的种类。粒度越...
阅读全文

数据仓库中的数据组织

数据仓库中的数据组织 数据仓库中的数据组织方式与数据库不同,通常是采用分级的方式进行组织。一般分为早期细节级、当前细节级、轻度综合级、高度综合级以及元数据5部分。 数据源经过综合后,首先进入当前细节级...
阅读全文

数据仓库的创建方式:自顶向下和自底向上

数据仓库的创建方式:自顶向下和自底向上 创建数据仓库的方式根据其出现的先后顺序,主要分为两种:自顶向下(Top-Down)和自底向上(Bottom-Up)。 1) 自顶向下 这种模式首先把联机分析处理...
阅读全文
数据集市与数据仓库的关系 数据仓库

数据集市与数据仓库的关系

数据集市与数据仓库的关系 在一个企业中,数据仓库存储了从各个操作型数据库、外部数据库以及其他数据库中提取出来的数据,它是一个已经被净化、转换和编码化了的中心数据源,所以,可以被管理者和其他业务人员用于...
阅读全文

什么是数据资源:数据资源的组成

什么是数据资源:数据资源的组成 1.定义 狭义的数据资源是指数据本身,即企业运作中积累下来的各种各样的数据记录,如客户记录、销售记录、人事记录、采购记录、财务数据和库存数据等。 广义的数据资源涉及数据...
阅读全文

什么是数据异常值:异常值的判断标准

什么是数据异常值:异常值的判断标准 什么是业务中的异常值?这在实际工作中其实还没有定论,一个大致的判断标准是“偏离了原来数据的变化轨迹,就可以视为异常值”,例如原先一直上升的数据,现在突然下降了,或者...
阅读全文

决策树的优点缺点

决策树的优点缺点 相对于其他模型而言,决策树有如下优点: (1)决策树所产生的预测规则的形式为:如果 x r 1 ∈ A 1 …且 x r m ∈ A m ,那么 Y =y,很容易解释。 (2)在树的...
阅读全文