数据挖掘的任务是从数据中发现模式,模式按功能分为描述型挖掘和预测型挖掘。 描述型挖掘是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组。它是刻画目标数据中数据的一般性质,概括数据中潜在的联...

数据仓库的开发策略有哪六种模式?
数据仓库的开发策略有六种模式,如图3-19所示。 自上而下模式是先构建企业范围内的数据仓库,然后根据各个业务过程的需求分析,将数据仓库内的数据调入数据集市进行分析。此模式从企业整体出发,考虑到各个主要...

什么是数据仓库的星形模式和雪花模式?
数据仓库的逻辑模型通常有星型模式和雪花模式两种基本结构。 (1)星形模式(Star Schema) 星形模式是以唯一的事实表为中心,由若干个维度表与其相连。在图3-17中,事实表是销售表,维表有产品维...

什么是从属的数据集市?什么是独立的数据集市?
1.数据集市的定义 作为具有特定应用的数据仓库,数据集市(Data Mart, DM)从数据源中收集数据,是企业数据仓库的一个子集。数据集市作为部门级的数据仓库,一般只能为某个局部范围内的管理人员服务...

数据仓库与传统数据库的比较
企业的数据处理大致分为两类,一类是数据操作处理,也称为联机事务处理(OnLine Transaction Processing, OLTP),是数据库管理系统的主要功能,它涵盖了企业的大部分日常操作,...
精益数据产品是什么意思?精益数据产品的原则?
1.精益数据产品的定义 精益数据产品是遵从精益数据方法,以数据为要素,利用数字化技术,解决业务问题,创造客户价值,具备数据运营和快速迭代能力的数据产品。 精益数据产品有以下四大特质。 (1)用户有获得...

数据即服务是什么意思?什么是数据即服务类产品?
数据即服务,指将数据直接当作一种服务提供给用户。这是数据作为生产要素的主要应用形式。比如,大数据交易所提供的各类数据集和算法就是数据即服务类产品的典型代表。 数据即服务类产品有以下5种最终提供服务的方...

什么是数据增强类产品?什么是数据洞见类产品?
1.数据增强类产品 数据增强类产品是指利用数据智能技术来提升竞争力的实体结合数据的产品。现在所有的产品都在努力成为数据增强类产品,以便获得数据产品的8个升维优势。数据增强类产品示例如图4-3所示。 其...
数据管理技术的发展历程
数据管理活动是伴随着数据的产生而产生的。可以说,数据管理经历了一个漫长的过程。从技术角度来说,数据管理技术的发展大体可归为3个阶段。 人工管理阶段(20世纪50年代中期以前),计算机主要用于科学计算,...
什么是数据管理?什么是数据治理?
1 数据管理 伴随20世纪80年代数据随机存储技术和数据库技术的使用,计算机系统中的数据可以被方便地存储和访问,数据管理的概念随之被提出。根据国际数据管理协会(Data Management Asso...
什么是数据资源?什么是数据资产?
1 数据资源 对于资源的定义,马克思在《资本论》中说:“劳动和土地是财富的两个原始形成要素。”恩格斯说:“劳动和自然界在一起才是一切财富的源泉,自然界为劳动提供材料,劳动把材料转变为财富。”马克思、恩...
数据分析中应该避免的典型问题有哪些?
数据并不总是有价值的,在数据分析中需要牢记数据有时会对我们有用!下面将讨论一些常见的数据谬论,以帮助大家在数据分析过程中避免它们的发生。最常见的谬论是假设数据集是值得信赖的,直到后来的分析才发现它不是...
什么是探索性数据分析(Exploratory Data Analysis,EDA)?
探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,该方法在...

什么是描述性统计分析?什么是验证性统计分析?
1. 描述性统计分析 描述性统计分析是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简单地用几个统计值来表示一组数据的集中趋势、离散程度以及分布形状,如图1.1所示。 ...
什么是算量、算法、算力?它们之间有什么关系?
算量(数据) 我们每个人都生活在数据世界里。例如,5分钟前你收到了某APP的推荐消息,也许你下意识地点击进去,仔细浏览了相关介绍,也许进一步点击了购买链接,正犹豫不决是否要下单……殊不知,你的打开消息...
ALPPS手术的数据挖掘故事
疾病规律与统计学有先天的联系,这是因为科学的推理与演绎、归纳与总结都离不开大样本的数据支持。只有在大样本的数据支持下作为个案的成功才能被推广为疾病的规律。可推理、可重复、可实验是科学的三大必然要素,其...
什么是医学数据的七种模式识别方法?
模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。数据挖掘的本质就是模式识别...
什么是医学数据挖掘?
1 数据挖掘的定义 数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge-Discovery in Databases,KDD)中的一个步骤。数据挖掘一...

C4.5算法的基本原理?C4.5算法与ID3算法的区别?
ID3还存在许多需要改进的地方,于是,Quinlan在1993年提出了ID3算法的改进版本C4.5。C4.5算法的核心思想与ID3完全一样,它与ID3算法不同的地方包括: (1)划分度量采用增益率; ...

决策树处理不同类型的属性时,表示属性测试条件的方法有哪些?
为了使决策树可以处理不同类型的属性,我们必须为每种属性提供测试条件及其对应的输出方法。 (1)二元属性。对二元属性的测试条件只可能产生两种输出,如图4-6所示。 图4-6 二元属性的测试条件 (2)标...