什么是残缺数据:残缺数据的处理方法
残缺数据,顾名思义,就是指不完整的数据,如前文所提,残缺数据的情况可能是整个数据的缺失,也可能是数据中某个字段信息的缺失。可根据前文提到的数据质量评估标准中的“完整性”判断数据是否是残缺的。对于残缺数据的处理,有以下几种方法。
1.忽略整个元组
当元组的某个属性残缺时,忽略整个元组。这种方法简单,但存在弊端:采用忽略元组的方法,意味着不能使用该元组的剩余属性值,而这些剩余属性值很可能是分析问题所必需的。除非元组有多个属性残缺,否则该方法不是很有效。当某个属性有很多元组缺失时,它的性能特别差。
2.填写残缺值
可以通过人工填写或者设立某一规则确定残缺值的填写内容。对于人工填写,仅适用于数据量小且缺失值少的情况,当数据量很大、缺失很多值时,该方法可能行不通。人工填写的主要方法有以下4种。
1)使用全局常量填写缺失值。
2)使用属性的均值填充缺失值。
3) 使用与存在残缺属性的元组属同一类的所有样本的属性均值填写残缺值。
4) 推测最可能的值并填充:可以使用回归分析等方法推测该缺失值的大小。
需要注意的是,在某些情况下,缺失值并不意味数据有错误。例如,在大一入学填写个人信息时,表单中有一项是驾照号码,没有驾照的学生自然不填写该字段,这不是错误。理想情况下,每个属性都应当有关于空值条件的规则。这些规则可以说明是否允许空值,并且说明这样的空值应当如何处理或转换。如果在业务处理的后续过程才能填写该值时,字段也可能故意留下空白。