什么是数据离散化：数据离散化的例子案例

2020年10月25日21:51:57已关闭评论

什么是数据离散化：数据离散化的例子案例

将数值型变量转换为类别型变量的过程就是数据离散化。数值型变量常常是模型不稳定的原因之一，通常，我们会发现分类模型在训练数据集中的预测准确率很高，但是在测试数据集中的预测准确率却大幅度下滑，其中一个相当大的原因就是训练数据集与测试数据集的许多条件属性（尤其是数值型条件属性）在目标属性值上的分布差异很大。

下面举一个例子。图5-75所示的是某数据集的条件属性（年龄）在目标属性（是否逾期）上的概率分布。由图5-75可以看出，在训练数据量及测试数据集中，年龄在目标属性（是否逾期）上的概率分布是相当不一致的，例如，在年龄为25岁时，训练数据集中的逾期概率只有10%，但在测试数据集中是100%。