类别型数据缺失的处理方法:自动填补法

2020年10月25日21:30:52类别型数据缺失的处理方法:自动填补法已关闭评论

类别型数据缺失的处理方法:自动填补法

自动填补法。即对同一个属性的所有缺失值用一个事先确定的值来填补,例如都用Unknown来填补。但是,当一个属性的缺失值较多时,该方法会导致数据分析结果不准确。

也可以填入该属性的众数(Mode),如图5-26所示,其中Risk字段的众数是high,所以,可以将该字段的缺失值填补为high。但是填补众数不够客观,也可以用分群的方式分类求众数,比如Credit与Risk之间存在相关性,因为在图5-26中可以看出Credit字段中有5个green,而其中3个green都对应着Risk=high,所以当Credit=green时,Risk更有可能是high,所以,第二行的Risk值可以被填补为high,这样的填补方法更加准确。

类别型数据缺失的处理方法:自动填补法

图5-26

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。