缺失值也称缺失数据、错误数据,是由于被调查者对问题回答不清、错误或未回答,或者调查人员疏漏,未问问题,也未记录,造成的数据奇异值或缺失。一般的数据资料错误和缺失也有可能是存放数据的文件损坏、病毒感染、调查人员误删、自然损坏等导致的。
对缺失值的处理,通常采用的方法为补全或删除。对于主观数据,人将影响数据的真实性,如果存在缺失、错误的样本的其他属性的真实值不能保证,那么根据这些属性值进行的插补也是不可靠的,所以对主观数据出现缺失值的处理一般不推荐插补的方法。插补主要针对客观数据,它的可靠性有保证。
常用的客观数据出现缺失值的处理方法要根据不同的数据类型、分布以及实际的研究变量来确定。
插补数据的第一种方法:
对于服从正态分布的连续数值型数据,可以用平均值替代;对于不服从正态分布的有偏数据,可以采用中位数替代;对于类别型分类数据,可以用众数替代。进一步地,还可以进行相关变量的分层插补,如缺失的是一名职业为“市场营销员”的薪资信息,则可以按照职业计算平均工资进行插补。
插补数据的第二种方法:
相关变量建模预测法。例如某被调查职员薪资水平的缺失问题,薪资与职员年龄、工龄、职业等因素相关,因此可以建立影响薪资水平的回归模型,进行缺失薪资取值的预测。其实这种方法就是借助被调查者对其他问题的回答,推测缺失的答案可能是什么。
当然还有一种简单的方式就是直接删除包含缺失值的被调查对象或变量。