问卷调查数据缺失值的处理方法?

2023年8月16日20:57:22问卷调查数据缺失值的处理方法?已关闭评论

在全部调查结束后,需要对获取的调查问卷数据进行处理。其中较为常用的处理方法包括:调查数据缺失值处理和调查资料分组处理。

 调查数据缺失值处理

(1)返回现场重新调查

此方法适用于规模较小、被调查者容易找到的情形。但是调查时间、调查地点和调查方式可能发生变化,从而影响二次调查的数据结果。

(2)视为缺失值或错误值

在无法退回问卷,不能重新调查的情形下,可以将这些不满意的问卷作为缺失值或错误值处理。如果不满意的问卷数量较少而且这些问卷中令人不满意的回答的比例也很小,涉及的变量不是关键变量,在此情况下,可采取此方法。

(3)视为无效问卷

当存在以下情况时,问卷应被视作无效问卷,可弃用。

① 回答令人不满意的问卷占问卷总数的比例在10%以上。

② 包含缺失数据的问卷样本量本身较小。

③ 不满意问卷与合格问卷的答卷者在人口特征、关键变量等方面的分布没有显著差异。

④ 涉及关键变量的回答缺失。

缺失值定义及处理方法

缺失值也称缺失数据、错误数据,是由于被调查者对问题回答不清、错误或未回答,或者调查人员疏漏,未问问题,也未记录,造成的数据奇异值或缺失。一般的数据资料错误和缺失也有可能是存放数据的文件损坏、病毒感染、调查人员误删、自然损坏等导致的。

对缺失值的处理,通常采用的方法为补全或删除。对于主观数据,人将影响数据的真实性,如果存在缺失、错误的样本的其他属性的真实值不能保证,那么根据这些属性值进行的插补也是不可靠的,所以对主观数据出现缺失值的处理一般不推荐插补的方法。插补主要针对客观数据,它的可靠性有保证。

常用的客观数据出现缺失值的处理方法要根据不同的数据类型、分布以及实际的研究变量来确定。

插补数据的第一种方法:

对于服从正态分布的连续数值型数据,可以用平均值替代;对于不服从正态分布的有偏数据,可以采用中位数替代;对于类别型分类数据,可以用众数替代。进一步地,还可以进行相关变量的分层插补,如缺失的是一名职业为“市场营销员”的薪资信息,则可以按照职业计算平均工资进行插补。

插补数据的第二种方法:

相关变量建模预测法。例如某被调查职员薪资水平的缺失问题,薪资与职员年龄、工龄、职业等因素相关,因此可以建立影响薪资水平的回归模型,进行缺失薪资取值的预测。其实这种方法就是借助被调查者对其他问题的回答,推测缺失的答案可能是什么。

当然还有一种简单的方式就是直接删除包含缺失值的被调查对象或变量。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。