什么是分类与回归:分类与回归建模的原理
分类(Classification):指将数据映射到预先定义好的群组或类。
因为在分析测试数据之前,类别就已经确定了,所以分类通常被称为有监督的学习。分类算法要求基于数据属性值来定义类别,通常通过已知所属类别的数据的特征来描述类别。
分类就是构造一个分类函数(分类模型),把具有某些特征的数据项映射到某个给定的类别上。该过程由两步构成。
模型创建:通过对训练数据集的学习来建立分类模型。
模型使用:使用分类模型对测试数据和新的数据进行分类。
其中的训练数据集是带有类标号的,也就是说在分类之前,要划分的类别是已经确定的。通常分类模型是以分类规则、决策树或数学表达式的形式给出。
回归(Regression):用属性的历史数据预测未来趋势。
回归首先假设一些已知类型的函数(例如线性函数、Logistic函数等)可以拟合目标数据,然后利用某种误差分析确定一个与目标数据拟合程度最好的函数,图2-3就是一个非线性回归问题。
回归模式的函数定义与分类模式相似,主要差别在于分类模式采用离散预测值(例如类标号),而回归模式采用连续的预测值。在这种观点下,分类和回归都是预测问题。
但数据挖掘业界普遍认为:用预测法预测类标号为分类,预测连续值(例如使用回归方法)为预测。许多问题可以用线性回归解决,许多非线性问题可以通过对变量进行变化,从而转换为线性问题来解决。