支持度与置信度:什么意思、例子案例 数据挖掘

支持度与置信度:什么意思、例子案例

支持度与置信度:什么意思、例子案例 支持度 支持度表示X和Y同时在总数据集中出现的概率。 图14-1所示的是顾客序号和顾客购买的商品。其中,顾客1000同时购买了商品A、B和C,顾客2000同时购买了...
阅读全文
K-Means算法:什么意思、例子案例、优点缺点 数据挖掘

K-Means算法:什么意思、例子案例、优点缺点

K-Means算法:什么意思、例子案例、优点缺点 K-Means 算法是分割式聚类算法中最常用的一种,是一种基于样本均值的计算方法,在聚类的过程中通过计算类中各对象的属性均值,作为类的中心点(重心)。...
阅读全文
分层聚类算法:什么意思、例子案例 数据挖掘

分层聚类算法:什么意思、例子案例

分层聚类算法:什么意思、例子案例 分层聚类算法是对给定的待聚类数据集合进行层次化分解。举一个例子,如图13-9所示的是事件x 1 ~x 5 的距离矩阵。 图13-9 其中,x 2 和x 3 的距离为1...
阅读全文
什么是互斥聚类与非互斥(重叠)聚类算法 数据挖掘

什么是互斥聚类与非互斥(重叠)聚类算法

什么是互斥聚类与非互斥(重叠)聚类算法 互斥聚类(Exclusive clustering)是指每个对象被指派到单独的单个簇,即数据以独占方式进行分组。因此,如果某个数据属于确定的单个簇,则不能将其包...
阅读全文

类别型变量的相似性度量

类别型变量的相似性度量 求解类别型变量的相似性,通常有两种计算方法。 ●将属性按照类型分组,每个新的数据集中只包含一种类型的属性;之后对每个数据集进行单独的聚类分析。 ●把混合类型的属性放在一起处理,...
阅读全文

什么是相似性度量

什么是相似性度量 聚类分析的基本准则是使同一类的个体间距尽可能地小,而不同类的个体间距尽可能地大。因此,在进行聚类分析时,我们需要找到变量之间的相似性。 在聚类分析中,变量可以分为数值型变量、类别型变...
阅读全文
什么是数据离散化:数据离散化的例子案例 数据挖掘

什么是数据离散化:数据离散化的例子案例

什么是数据离散化:数据离散化的例子案例 将数值型变量转换为类别型变量的过程就是数据离散化。数值型变量常常是模型不稳定的原因之一,通常,我们会发现分类模型在训练数据集中的预测准确率很高,但是在测试数据集...
阅读全文

数据离散化处理的优点

数据离散化处理的优点 将数据离散化处理,有以下4个优点。 (1)可精简数据,降低数据的复杂度,让数据更容易被解释。 (2)可支持许多无法处理数值型变量的分类算法。例如,贝叶斯分类算法、以关联规则为基础...
阅读全文

数据形态的转换:连续性指派

数据形态的转换:连续性指派 某些算法并不适用类别型变量建模,比如线性回归、Logistic回归等。 这时需要把类别型变量转换成数值型变量,可以使用连续性指派(Continuousness Arbitr...
阅读全文
什么是数据一般化:数据一般化的例子 数据挖掘

什么是数据一般化:数据一般化的例子

什么是数据一般化:数据一般化的例子 数据一般化就是将原来的数据简化处理,使得数据变得精简的过程。 例如,图5-72所示的这个例子,图中为会员信息,会员的受教育程度分为大学、高中、初中。我们也可以将会员...
阅读全文
数据正规化:什么意思、计算公式、例子案例 数据挖掘

数据正规化:什么意思、计算公式、例子案例

数据正规化:什么意思、计算公式、例子案例 数据正规化就是将数据重新发布在一个特定范围内(0~1)的过程。因为如果数据单位不同,则数据之间很难做比较,例如,年龄和年薪两项指标,年龄差10岁和年薪差30万...
阅读全文
类别型数据缺失的处理方法:自动填补法 数据挖掘

类别型数据缺失的处理方法:自动填补法

类别型数据缺失的处理方法:自动填补法 自动填补法。即对同一个属性的所有缺失值用一个事先确定的值来填补,例如都用Unknown来填补。但是,当一个属性的缺失值较多时,该方法会导致数据分析结果不准确。 也...
阅读全文

类别型数据缺失的处理方法:人工填补法

类别型数据缺失的处理方法:人工填补法 人工填补法。即使用人力收集缺失的数据。 例如,当某个会员数据的生日属性有缺失时,可打电话询问该会员,以取得其生日数据并填补。 通常这种方法很费时,因此,当数据集很...
阅读全文

类别型数据缺失的处理方法:直接忽略法

类别型数据缺失的处理方法:直接忽略法 直接忽略法。即当数据有缺失值时,则将整行数据删除。 直接忽略法是处理缺失值最简单的方法,一般,当缺失值占整行所有数据的比例过大时(>50%),便可直接将整行...
阅读全文

什么是缺失值:造成数据缺失的原因

什么是缺失值:造成数据缺失的原因 缺失值是指为空的属性值,造成数据缺失的原因有以下几种: (1)数据未输入。例如工作人员故意或不小心没有输入数据。 (2)设备故障。例如收款机故障,导致顾客消费明细无法...
阅读全文

离群值的检测与处理方法

离群值的检测与处理方法 数值型数据的处理方法也是先观察其分布,即检测离群值。离群值的检测有3种方法。 方法一:当离群值为过大或过小的值时,对数据进行排序即可发现。 方法二:平均值法,在平均值±3×标准...
阅读全文

什么是数据整合:数据整合的例子

什么是数据整合:数据整合的例子 数据整合是将不同来源的数据整合在一个数据库中的过程。因为数据的来源不同,数据可能会出现不一致的情况,包括数据结构不一致、属性名不一致和属性值不一致。例如,不同来源的收入...
阅读全文
KNN(K最近邻)算法:主要思想、例子案例 数据挖掘

KNN(K最近邻)算法:主要思想、例子案例

KNN(K最近邻)算法:主要思想、例子案例 KNN算法的主要思想是将需要分类的数据与训练数据进行对比,在事先指定的范围内,在训练数据中找到与待分类的数据距离最近的训练数据,再根据这些数据的类别,将待分...
阅读全文