类别型数据缺失的处理方法:自动填补法
自动填补法。即对同一个属性的所有缺失值用一个事先确定的值来填补,例如都用Unknown来填补。但是,当一个属性的缺失值较多时,该方法会导致数据分析结果不准确。
也可以填入该属性的众数(Mode),如图5-26所示,其中Risk字段的众数是high,所以,可以将该字段的缺失值填补为high。但是填补众数不够客观,也可以用分群的方式分类求众数,比如Credit与Risk之间存在相关性,因为在图5-26中可以看出Credit字段中有5个green,而其中3个green都对应着Risk=high,所以当Credit=green时,Risk更有可能是high,所以,第二行的Risk值可以被填补为high,这样的填补方法更加准确。
图5-26