数据挖掘中的分类是什么意思？

2023年1月11日08:23:59已关闭评论

分类在数据挖掘中是一项非常重要的任务，目前在商业上应用最多。分类任务的输入数据是记录的集合。每条记录用元组（ X ， y ）表示，其中 X 是属性的集合， y 是一个特殊的属性，是分类的目标属性，称为类标号。表4-1列出一个样本数据集，用来将客户的信用等级分为流失和不流失两类（1表示流失，0表示不流失）。属性集指明客户的性质，如当月可用余额、当月ARPU、当月MOU、当月DOU、是否4G资费等。从表格中可以看出，属性集有离散的也有连续的，但类标号必须是离散属性。

表4-1　移动用户的数据集

分类（Classification）就是通过学习得到一个目标函数（Target Function） f ，可以把每个属性集 x 映射到一个预定义的类标号 y 。

目标函数就是一个分类模型（Classification Model），分类模型主要有以下用处。

（1）描述数据：分类模型可以作为一种解释性的工具，有助于概括表4-1中的数据，并说明哪些特征决定了客户的流失。

（2）预测类标号：分析输入数据，通过在训练集中的数据表现出来的特性，为每一个类找到一种准确的分类模型。这个分类模型可以看作一个黑箱，如图4-1所示，当给定未知记录的属性集上的值时，它就会根据这些属性集上的值自动地赋予未知样本类标号，如表4-1给出来的例子，就可以预测哪些客户更容易流失。

图4-1　分类模型的预测过程

版权声明：本篇文章（包括图片）来自网络，由程序自动采集，著作权（版权）归原作者所有，如有侵权联系我们删除，联系方式（QQ：452038415）。

文章目录
繁