什么是数据离散化:数据离散化的例子案例
将数值型变量转换为类别型变量的过程就是数据离散化。数值型变量常常是模型不稳定的原因之一,通常,我们会发现分类模型在训练数据集中的预测准确率很高,但是在测试数据集中的预测准确率却大幅度下滑,其中一个相当大的原因就是训练数据集与测试数据集的许多条件属性(尤其是数值型条件属性)在目标属性值上的分布差异很大。
下面举一个例子。图5-75所示的是某数据集的条件属性(年龄)在目标属性(是否逾期)上的概率分布。由图5-75可以看出,在训练数据量及测试数据集中,年龄在目标属性(是否逾期)上的概率分布是相当不一致的,例如,在年龄为25岁时,训练数据集中的逾期概率只有10%,但在测试数据集中是100%。
图5-75
若将图5-75所示的数据进行等宽(Equal-Width)的离散化处理,并将年龄等切成8个区间(每个区间的宽度为6.125),则年龄在目标属性上的概率分布如图5-76所示。
相比于图5-75(离散化之前的图),在训练数据集及测试数据集中,年龄在目标属性上的概率分布变得较为一致,这两个概率分布的皮尔森相关系数,也由原来的−0.103(负相关)变为0.711(正相关),同时有望使得分类器的稳定性及准确性大幅提升。
若年龄是建模中的一个重要条件属性,则由此可见,模型在训练数据集与测试数据集中的准确性大不相同,因此,将数据离散化处理是有必要的。