C5.0算法的剪枝方法
如果在训练数据集中存在噪声或者训练数据太少,就会出现过拟合的现象,这时我们需要对决策树模型进行剪枝。
在 C5.0算法中,剪枝的方法为:先建立决策树模型,使得模型分类的准确度达到100%。如图9-17所示,在该决策树模型中,b 1 有6笔数据,b 2 有9笔数据,b 3 有1笔数据,每个决策树的分支都有一个预估的错误率,该错误率可以由统计公式计算得出。例如在(6Y,0N)的情况下,预估错误率(Predicted error rate)=U 25%(0,6)=0.206。所有预估错误值为分类事件个数×预估错误率,即预估错误值(Predicted errors)=6×0.206=1.236。同理,可以计算出分支b 2 和b 3 的错误值,最后得到子树根的错误值,即为各分支错误值之和。
图9-17
如果将B子树的根砍掉,则在a 1 分支后,有16笔数据,其中在(15Y,1N)的情况下,同样可以计算出错误率,此处错误率为2.512,小于3.273,所以砍掉B子树的根之后错误率降低了。这里应该将分支B去除,如图9-18所示。
图9-18
以上便是C5.0算法中剪枝的计算方法。