类别型变量的相似性度量 求解类别型变量的相似性,通常有两种计算方法。 ●将属性按照类型分组,每个新的数据集中只包含一种类型的属性;之后对每个数据集进行单独的聚类分析。 ●把混合类型的属性放在一起处理,...
什么是相似性度量
什么是相似性度量 聚类分析的基本准则是使同一类的个体间距尽可能地小,而不同类的个体间距尽可能地大。因此,在进行聚类分析时,我们需要找到变量之间的相似性。 在聚类分析中,变量可以分为数值型变量、类别型变...
数据挖掘
什么是数据离散化:数据离散化的例子案例
什么是数据离散化:数据离散化的例子案例 将数值型变量转换为类别型变量的过程就是数据离散化。数值型变量常常是模型不稳定的原因之一,通常,我们会发现分类模型在训练数据集中的预测准确率很高,但是在测试数据集...
数据离散化处理的优点
数据离散化处理的优点 将数据离散化处理,有以下4个优点。 (1)可精简数据,降低数据的复杂度,让数据更容易被解释。 (2)可支持许多无法处理数值型变量的分类算法。例如,贝叶斯分类算法、以关联规则为基础...
数据形态的转换:连续性指派
数据形态的转换:连续性指派 某些算法并不适用类别型变量建模,比如线性回归、Logistic回归等。 这时需要把类别型变量转换成数值型变量,可以使用连续性指派(Continuousness Arbitr...
数据挖掘
什么是数据一般化:数据一般化的例子
什么是数据一般化:数据一般化的例子 数据一般化就是将原来的数据简化处理,使得数据变得精简的过程。 例如,图5-72所示的这个例子,图中为会员信息,会员的受教育程度分为大学、高中、初中。我们也可以将会员...
数据挖掘
数据正规化:什么意思、计算公式、例子案例
数据正规化:什么意思、计算公式、例子案例 数据正规化就是将数据重新发布在一个特定范围内(0~1)的过程。因为如果数据单位不同,则数据之间很难做比较,例如,年龄和年薪两项指标,年龄差10岁和年薪差30万...
数据挖掘
类别型数据缺失的处理方法:自动填补法
类别型数据缺失的处理方法:自动填补法 自动填补法。即对同一个属性的所有缺失值用一个事先确定的值来填补,例如都用Unknown来填补。但是,当一个属性的缺失值较多时,该方法会导致数据分析结果不准确。 也...
类别型数据缺失的处理方法:人工填补法
类别型数据缺失的处理方法:人工填补法 人工填补法。即使用人力收集缺失的数据。 例如,当某个会员数据的生日属性有缺失时,可打电话询问该会员,以取得其生日数据并填补。 通常这种方法很费时,因此,当数据集很...
类别型数据缺失的处理方法:直接忽略法
类别型数据缺失的处理方法:直接忽略法 直接忽略法。即当数据有缺失值时,则将整行数据删除。 直接忽略法是处理缺失值最简单的方法,一般,当缺失值占整行所有数据的比例过大时(>50%),便可直接将整行...
离群值的检测与处理方法
离群值的检测与处理方法 数值型数据的处理方法也是先观察其分布,即检测离群值。离群值的检测有3种方法。 方法一:当离群值为过大或过小的值时,对数据进行排序即可发现。 方法二:平均值法,在平均值±3×标准...
什么是数据整合:数据整合的例子
什么是数据整合:数据整合的例子 数据整合是将不同来源的数据整合在一个数据库中的过程。因为数据的来源不同,数据可能会出现不一致的情况,包括数据结构不一致、属性名不一致和属性值不一致。例如,不同来源的收入...
数据挖掘
KNN(K最近邻)算法:主要思想、例子案例
KNN(K最近邻)算法:主要思想、例子案例 KNN算法的主要思想是将需要分类的数据与训练数据进行对比,在事先指定的范围内,在训练数据中找到与待分类的数据距离最近的训练数据,再根据这些数据的类别,将待分...
数据挖掘
数据挖掘模型评估指标:Profit Chart(利润图)
数据挖掘模型评估指标:Profit Chart(利润图) Profit Chart(利润图)与Gain Chart及Lift Chart不同,其主要表示的是模型可能带来的收益,而不是模型的正确率。因此...
数据挖掘
数据挖掘模型评估指标:Lift Chart(升力图)
数据挖掘模型评估指标:Lift Chart(升力图) Lift Chart(升力图)是在Gain Chart的基础上,保持横轴不变(即依然为营销人数的百分比),而纵轴变为绩效增益。 如图4-9所示,可...
数据挖掘
数据挖掘模型评估指标:Gain Chart
数据挖掘模型评估指标:Gain Chart Gain Chart(增益图)主要用来评估模型的好坏。如图4-8所示,其中横轴为营销人数的百分比,纵轴为有回应人数的百分比。 点①表示在向所有客户进行营销的...
数据挖掘的绩效增益
数据挖掘的绩效增益 数据挖掘的绩效增益与营销的绩效增益有着极大的关联性。一般来说,影响营销的绩效有3种因素,即创意、优惠和名单。创意指的是营销活动是否有一个很好的创意,例如,有创意的宣传文字、标题等。...
预测型数据挖掘(有监督数据挖掘)的功能
预测型数据挖掘(有监督数据挖掘)的功能 预测型数据挖掘的功能分为两大类,即分类和预测,主要用于根据数据进行准确预测。 1.分类 分类用于预测数据所隶属的类别,例如,根据贷款客户的各种资料,预测其是否能...
数据挖掘
描述型数据挖掘的功能:关联规则、序列模型和聚类分析
描述型数据挖掘的功能:关联规则、序列模型和聚类分析 描述型数据挖掘的功能分为三大类,即关联规则、序列模型和聚类分析,主要用于寻找数据之间的关系。 1.关联规则 关联规则用于找出哪些事件常常会一起出现,...
CHAID算法:核心思想、分类过程
CHAID算法:核心思想、分类过程 CHAID (Chi-Squared Automatic Interaction Detection,卡方自动交互检测)算法由Kass于1980年提出,其核心思想是...