分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类任务的输入数据是记录的集合。每条记录用元组( X , y )表示,其中 X 是属性的集合, y 是一个特殊的属性,是分类的目标属性,称为类标号。表4-1列出一个样本数据集,用来将客户的信用等级分为流失和不流失两类(1表示流失,0表示不流失)。属性集指明客户的性质,如当月可用余额、当月ARPU、当月MOU、当月DOU、是否4G资费等。从表格中可以看出,属性集有离散的也有连续的,但类标号必须是离散属性。
分类(Classification)就是通过学习得到一个目标函数(Target Function) f ,可以把每个属性集 x 映射到一个预定义的类标号 y 。
目标函数就是一个分类模型(Classification Model),分类模型主要有以下用处。
(1)描述数据:分类模型可以作为一种解释性的工具,有助于概括表4-1中的数据,并说明哪些特征决定了客户的流失。
(2)预测类标号:分析输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的分类模型。这个分类模型可以看作一个黑箱,如图4-1所示,当给定未知记录的属性集上的值时,它就会根据这些属性集上的值自动地赋予未知样本类标号,如表4-1给出来的例子,就可以预测哪些客户更容易流失。
图4-1 分类模型的预测过程